9.11比9.9大？中媒實測簡單數學題近七成AI大模型翻車

2024-07-18 02:19 中國新聞組／北京18日電

中國媒體記者近日給12個AI大模型出了道簡單數學題：「9.11和9.9哪個大」的問題，結果發現大模型答數學題普遍「吃癟」，其中只有4家大模型答對，其它8家全都翻車，其中還包括ChatGPT等主流大模型。業內人士分析，目前來看，中外大模型都出現了「文科強理科弱」的偏科情況」。

據北京商報報導，中國媒體第一財經記者拿「9.11和9.9哪個大」的問題一一測試了ChatGPT以及目前國內的主流大模型，包括阿里、百度等5家大廠模型，月之暗面等6家AI獨角獸的模型。阿里通義千問、百度文心一言、Minimax和騰訊元寶4家大模型答對，其他8家都答錯。

據報導，目前全球公認第一梯隊的大模型ChatGPT，在被問到「9.11和9.9哪個大」時回覆稱，小數點後面的數字「11大於9」，因此9.11大。記者追問ChatGPT有沒有其他比較方法，它將小數轉化成分數比較，得出「11/100比90/100小」，這一步是對的，但它接著下結論稱「因此9.11比9.9大」。

大模型ChatGPT在被問到「9.11和9.9哪個大」時回覆稱，小數點後面的數字「11大於9」，因此9.11大。（取材自第一財經）

大模型這一算術問題最開始被艾倫研究機構(Allen Institute)成員林禹臣發現，他在X平台上發布的截圖顯示，ChatGPT-4o在回答中認為13.11比13.8更大。「一方面AI越來越擅長做數學奧賽題，但另一方面常識依舊很難。」他表示。

這類大模型說胡話的現象，在業界被稱為大模型出現幻覺。哈爾濱工業大學和華為研究團隊發表的綜述論文認為，模型產生幻覺的三大來源：數據源、訓練過程和推理，還可能會出現長尾知識回憶不足、難以應對複雜推理的情況。

值得一提的是，此前，「Al高考測試最高分303」話題也曾火上熱搜。以數學試卷為例，9款大模型產品中，僅GPT-4o、文心一言4.0和豆包獲得60分以上成績（滿分150分），顯示目前的大模型只能正確推理步驟相對簡單的問題。盡管在語文、英語兩科上能獲得高分，大模型的理科最好成績還無法進入人類考生的前30%。

針對大模型答數學題普遍「吃癟」的問題，國內某頭部大模型負責人就曾表示，大模型的指令遵循或者說推理能力通常是把一個指令背後的意思拆解出來，但數學題既包含規則性，又包含對各種思維的考察，解題邏輯和正常用大模型時的推理邏輯不一定完全一樣。AI能不能精準遵循指令是近一段時間內比較重要的事情，解數學題對其AI來說還是一件比較「炫技」的事情。

中國媒體稱問了ChatGPT一道簡單數學題，得到的答覆竟是錯的。示意圖。（路透）

另有業內人士表示，目前來看大模型的數理能力相對較差的情況在中外都是一樣的，「打個比方可以這樣講，大模型就是偏科，文科強理科弱，這個情況在一段時間內也不會得到明顯的改善」。

AI ChatGPT 百度

9.11比9.9大？中媒實測簡單數學題近七成AI大模型翻車

推薦文章

中國第1象棋大師也買棋？商業價值綁等級讓高手花錢買贏

買瘋了… 上海版「胖東來」開業首日吸客流2.5萬人

中國棋壇反腐重罰41人幾乎「團滅」10年來的冠軍棋手

電詐「泰」嚇人中客怯步導遊懟王星：沒長腦連累人

「上班死氣沉沉」雲南4警犬被通報網友笑哭：哪錯了

未來世界？深圳街頭現超逼真機械人引路人圍觀

川普「打坐雕像」再現熱潮電商平台出現仿製品

美網友：重慶林火8天撲滅洛杉磯不能？央視：人禍澆油

留言

9.11比9.9大？中媒實測簡單數學題 近七成AI大模型翻車

推薦文章

中國第1象棋大師也買棋？商業價值綁等級 讓高手花錢買贏

買瘋了… 上海版「胖東來」開業首日 吸客流2.5萬人

中國棋壇反腐重罰41人 幾乎「團滅」10年來的冠軍棋手

電詐「泰」嚇人中客怯步 導遊懟王星：沒長腦連累人

「上班死氣沉沉」 雲南4警犬被通報 網友笑哭：哪錯了

未來世界？深圳街頭現超逼真機械人 引路人圍觀

川普「打坐雕像」再現熱潮 電商平台出現仿製品

美網友：重慶林火8天撲滅 洛杉磯不能？ 央視：人禍澆油

留言

9.11比9.9大？中媒實測簡單數學題近七成AI大模型翻車

中國第1象棋大師也買棋？商業價值綁等級讓高手花錢買贏

買瘋了… 上海版「胖東來」開業首日吸客流2.5萬人

中國棋壇反腐重罰41人幾乎「團滅」10年來的冠軍棋手

電詐「泰」嚇人中客怯步導遊懟王星：沒長腦連累人

「上班死氣沉沉」雲南4警犬被通報網友笑哭：哪錯了

未來世界？深圳街頭現超逼真機械人引路人圍觀

川普「打坐雕像」再現熱潮電商平台出現仿製品

美網友：重慶林火8天撲滅洛杉磯不能？央視：人禍澆油