研究強化學習有成 2名AI先驅教授獲「科技界諾貝爾獎」圖靈獎

強化學習(reinforcement learning)領域的兩位AI人工智慧開發先驅、電腦科學家巴托(Andrew Barto)和薩頓(Richard Sutton),5日榮獲被視為科技界的諾貝爾獎的「圖靈獎」(A.M. Turing Award)。全球最大電腦相關學會「電腦協會」(Association for Computing Machinery,ACM)5日宣布今年度「圖靈獎」得主,100萬元獎金則由谷歌贊助。

76歲的巴托和67歲的薩頓是師生關係,這對師徒1970年代末期開始進行強化學習研究,為過去十年AI部分發展舖路。他們的研究核心採用類似馴犬師或馴馬師的訓練行為作法,引導所謂「享樂」(hedonistic)機器,讓機器根據接收到的正面訊號,不斷調整行為。
強化學習讓Google電腦程式在2016年和2017年擊敗圍棋界人類頂尖高手,也是改善ChatGPT等流行AI工具、優化金融交易、協助機械手解決魔術方塊的關鍵技術。
巴托向美聯社表示,他和薩頓剛開始在阿默斯特麻州大學研究理論和演算法時,強化學習領域「並不時髦」;「當時就像在荒野中開路,現在這塊領域越來越被認可,還被認為是很有趣的事;和早期情況大不同。所以,獲得這個獎令我深感欣慰。」
巴托已從麻州大學退休14年,薩頓現在是加拿大亞伯塔大學終身教授。
圖靈是英國數學家,在二次大戰期間設計出破解德軍無線電密碼的機器,協助盟軍攔截擊沉無數德國潛艇,1947年提出「機器能從經驗中學習」的假說,被譽為AI先鋒。
巴托和薩頓的研究就是以圖靈的學說為基礎。薩頓稱之為「強化學習的基本思想」。
巴托和薩頓的強化學習研究,借用心理學和神經科學有關尋求快樂的神經元會對獎懲作出反應的構想,兩人在1980年代初發表過一篇具有里程碑意義的論文,將其研究方法應用於模擬世界特定任務:平衡移動推車上的桿子,防止其倒下。兩人後來共同編寫了一本強化學習教科書,廣受各方使用。
FB留言