9.11比9.9大？中媒實測簡單數學題近七成AI大模型翻車

中國新聞組／北京18日電 2024-07-18 02:19 ET

中國媒體稱問了ChatGPT一道簡單數學題，得到的答覆竟是錯的。示意圖。（路透）

中國媒體記者近日給12個AI大模型出了道簡單數學題：「9.11和9.9哪個大」的問題，結果發現大模型答數學題普遍「吃癟」，其中只有4家大模型答對，其它8家全都翻車，其中還包括ChatGPT等主流大模型。業內人士分析，目前來看，中外大模型都出現了「文科強理科弱」的偏科情況」。

據北京商報報導，中國媒體第一財經記者拿「9.11和9.9哪個大」的問題一一測試了ChatGPT以及目前國內的主流大模型，包括阿里、百度等5家大廠模型，月之暗面等6家AI獨角獸的模型。阿里通義千問、百度文心一言、Minimax和騰訊元寶4家大模型答對，其他8家都答錯。

據報導，目前全球公認第一梯隊的大模型ChatGPT，在被問到「9.11和9.9哪個大」時回覆稱，小數點後面的數字「11大於9」，因此9.11大。記者追問ChatGPT有沒有其他比較方法，它將小數轉化成分數比較，得出「11/100比90/100小」，這一步是對的，但它接著下結論稱「因此9.11比9.9大」。

大模型這一算術問題最開始被艾倫研究機構(Allen Institute)成員林禹臣發現，他在X平台上發布的截圖顯示，ChatGPT-4o在回答中認為13.11比13.8更大。「一方面AI越來越擅長做數學奧賽題，但另一方面常識依舊很難。」他表示。

這類大模型說胡話的現象，在業界被稱為大模型出現幻覺。哈爾濱工業大學和華為研究團隊發表的綜述論文認為，模型產生幻覺的三大來源：數據源、訓練過程和推理，還可能會出現長尾知識回憶不足、難以應對複雜推理的情況。

值得一提的是，此前，「Al高考測試最高分303」話題也曾火上熱搜。以數學試卷為例，9款大模型產品中，僅GPT-4o、文心一言4.0和豆包獲得60分以上成績（滿分150分），顯示目前的大模型只能正確推理步驟相對簡單的問題。盡管在語文、英語兩科上能獲得高分，大模型的理科最好成績還無法進入人類考生的前30%。

針對大模型答數學題普遍「吃癟」的問題，國內某頭部大模型負責人就曾表示，大模型的指令遵循或者說推理能力通常是把一個指令背後的意思拆解出來，但數學題既包含規則性，又包含對各種思維的考察，解題邏輯和正常用大模型時的推理邏輯不一定完全一樣。AI能不能精準遵循指令是近一段時間內比較重要的事情，解數學題對其AI來說還是一件比較「炫技」的事情。

另有業內人士表示，目前來看大模型的數理能力相對較差的情況在中外都是一樣的，「打個比方可以這樣講，大模型就是偏科，文科強理科弱，這個情況在一段時間內也不會得到明顯的改善」。

AI ChatGPT 百度

上一則

去河北吃安徽美食？石家莊搶當牛肉板麵主人還開發布會

下一則

我的頻道

今年無證客闖關死亡案例最多的路段在艾爾帕索

紐約皇后區威利點足球場新效果圖出爐預計2027完工

9.11比9.9大？中媒實測簡單數學題近七成AI大模型翻車

去河北吃安徽美食？石家莊搶當牛肉板麵主人還開發布會

中國製魚子醬風靡歐美占全球產量過半

延伸閱讀

楊紫新劇翻車？「長相思２」收視墊底網嘲「五角戀」看得好膩…

微軟投資阿聯AI公司議員憂敏感技術外流中國

AMD宣布收購歐洲AI模型公司Silo 賣力縮小與輝達差距

華為創新AI發展不依賴先進晶片

熱門新聞

蘭州高校男女在隱密樓梯「埋頭苦幹」大膽動作全被拍

中國年輕人最近流行「組團開房」在酒店做這件事好省錢

欠債百億的王健林金頂寺拜佛被拍乾瘦蒼老、面容憔悴

「丐幫第58任幫主」直播中遇橫禍身亡網友目睹全過程驚呆

甘肅高三女陪閨密赴宴被灌酒遭2男強姦致死屍檢曝細節

香港首宗顛覆國家政權案 45人被判刑戴耀廷10年黃之鋒56個月

FB留言

超人氣

4星座2025財星入命牡羊投資賺大錢、他帶團隊一起衝頂

吃完飯半小時才能刷牙？醫：等產生酸再刷更傷琺瑯質

401(K)退休帳戶明年可以放進更多錢了

范斯1家5口要搬家了拜登以前曾在那裸泳

李嘉誠無緣媳婦… 36歲梁洛施有新戀情？和「演藝圈才子」牽手

今年無證客闖關死亡案例最多的路段 在艾爾帕索

紐約皇后區威利點足球場新效果圖出爐 預計2027完工

9.11比9.9大？中媒實測簡單數學題 近七成AI大模型翻車

去河北吃安徽美食？石家莊搶當牛肉板麵主人 還開發布會

中國製魚子醬風靡歐美 占全球產量過半

延伸閱讀

楊紫新劇翻車？「長相思２」收視墊底 網嘲「五角戀」看得好膩…

微軟投資阿聯AI公司 議員憂敏感技術外流中國

AMD宣布收購歐洲AI模型公司Silo 賣力縮小與輝達差距

華為創新AI發展 不依賴先進晶片

熱門新聞

蘭州高校男女在隱密樓梯「埋頭苦幹」 大膽動作全被拍

中國年輕人最近流行「組團開房」 在酒店做這件事好省錢

欠債百億的王健林金頂寺拜佛被拍 乾瘦蒼老、面容憔悴

「丐幫第58任幫主」直播中遇橫禍身亡 網友目睹全過程驚呆

甘肅高三女陪閨密赴宴被灌酒 遭2男強姦致死 屍檢曝細節

香港首宗顛覆國家政權案 45人被判刑 戴耀廷10年 黃之鋒56個月

4星座2025財星入命 牡羊投資賺大錢、他帶團隊一起衝頂

吃完飯半小時才能刷牙？ 醫：等產生酸再刷更傷琺瑯質

401(K)退休帳戶 明年可以放進更多錢了

范斯1家5口要搬家了 拜登以前曾在那裸泳

李嘉誠無緣媳婦… 36歲梁洛施有新戀情？ 和「演藝圈才子」牽手

今年無證客闖關死亡案例最多的路段在艾爾帕索

紐約皇后區威利點足球場新效果圖出爐預計2027完工

9.11比9.9大？中媒實測簡單數學題近七成AI大模型翻車

去河北吃安徽美食？石家莊搶當牛肉板麵主人還開發布會

中國製魚子醬風靡歐美占全球產量過半

楊紫新劇翻車？「長相思２」收視墊底網嘲「五角戀」看得好膩…

微軟投資阿聯AI公司議員憂敏感技術外流中國

華為創新AI發展不依賴先進晶片

蘭州高校男女在隱密樓梯「埋頭苦幹」大膽動作全被拍

中國年輕人最近流行「組團開房」在酒店做這件事好省錢

欠債百億的王健林金頂寺拜佛被拍乾瘦蒼老、面容憔悴

「丐幫第58任幫主」直播中遇橫禍身亡網友目睹全過程驚呆

甘肅高三女陪閨密赴宴被灌酒遭2男強姦致死屍檢曝細節

香港首宗顛覆國家政權案 45人被判刑戴耀廷10年黃之鋒56個月

4星座2025財星入命牡羊投資賺大錢、他帶團隊一起衝頂

吃完飯半小時才能刷牙？醫：等產生酸再刷更傷琺瑯質

401(K)退休帳戶明年可以放進更多錢了

范斯1家5口要搬家了拜登以前曾在那裸泳

李嘉誠無緣媳婦… 36歲梁洛施有新戀情？和「演藝圈才子」牽手