9.11比9.9大?中媒實測簡單數學題 近七成AI大模型翻車
中國媒體記者近日給12個AI大模型出了道簡單數學題:「9.11和9.9哪個大」的問題,結果發現大模型答數學題普遍「吃癟」,其中只有4家大模型答對,其它8家全都翻車,其中還包括ChatGPT等主流大模型。業內人士分析,目前來看,中外大模型都出現了「文科強理科弱」的偏科情況」。
據北京商報報導,中國媒體第一財經記者拿「9.11和9.9哪個大」的問題一一測試了ChatGPT以及目前國內的主流大模型,包括阿里、百度等5家大廠模型,月之暗面等6家AI獨角獸的模型。阿里通義千問、百度文心一言、Minimax和騰訊元寶4家大模型答對,其他8家都答錯。
據報導,目前全球公認第一梯隊的大模型ChatGPT,在被問到「9.11和9.9哪個大」時回覆稱,小數點後面的數字「11大於9」,因此9.11大。記者追問ChatGPT有沒有其他比較方法,它將小數轉化成分數比較,得出 「11/100比90/100小」,這一步是對的,但它接著下結論稱「因此9.11比9.9大」。
大模型這一算術問題最開始被艾倫研究機構(Allen Institute)成員林禹臣發現,他在X平台上發布的截圖顯示,ChatGPT-4o在回答中認為13.11比13.8更大。「一方面AI越來越擅長做數學奧賽題,但另一方面常識依舊很難。」他表示。
這類大模型說胡話的現象,在業界被稱為大模型出現幻覺。哈爾濱工業大學和華為研究團隊發表的綜述論文認為,模型產生幻覺的三大來源:數據源、訓練過程和推理,還可能會出現長尾知識回憶不足、難以應對複雜推理的情況。
值得一提的是,此前,「Al高考測試最高分303」話題也曾火上熱搜。以數學試卷為例,9款大模型產品中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(滿分150分),顯示目前的大模型只能正確推理步驟相對簡單的問題。盡管在語文、英語兩科上能獲得高分,大模型的理科最好成績還無法進入人類考生的前30%。
針對大模型答數學題普遍「吃癟」的問題,國內某頭部大模型負責人就曾表示,大模型的指令遵循或者說推理能力通常是把一個指令背後的意思拆解出來,但數學題既包含規則性,又包含對各種思維的考察,解題邏輯和正常用大模型時的推理邏輯不一定完全一樣。AI能不能精準遵循指令是近一段時間內比較重要的事情,解數學題對其AI來說還是一件比較「炫技」的事情。
另有業內人士表示,目前來看大模型的數理能力相對較差的情況在中外都是一樣的,「打個比方可以這樣講,大模型就是偏科,文科強理科弱,這個情況在一段時間內也不會得到明顯的改善」。
留言