各家AI競寫高考題通義千問得分高過GPT-4o 但數學不及格

記者陳宥菘／綜合報導 2024-06-21 02:16 ET

上海有研究室以大模型來應試高考考題，OpenAI的GPT-4o也被列入測試。(美聯社)

中國高考（大學入學考試）6月初已結束，各地近日將陸續公布考試成績。搶在這之前，上海人工智慧實驗室旗下機構近日公布首個由人工智慧（AI）大模型答卷的評測結果。在7個來自中國海內外大模型進行語文、數學、英語三科全卷能力測試下，阿里巴巴的通義千問2-72B總得分排名第一，略高於第二名OpenAI的GPT-4o。此外，閱卷老師也剖析了AI與人類考生答題上的差異。

上海第一財經報導，在前不久高考結束後，上海人工智慧實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考語文、數學、英語全卷能力測試，這項首個大模型高考全卷評測結果於19日公布。

在三科加起來滿分為420分（語文、數學滿分150分；英文滿分120分）的前提下，此次高考測試結果顯示，大模型的語文、英文考試程度普遍不錯，但數學都不及格，最高分也只有75分。

從排名看，阿里通義千問2-72B排名第一，為303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智慧實驗室的書生·浦語2.0排名第三，三個大模型的得分率都超過70%。

第四至六名則為阿里通義千問2-57B、零一萬物Yi-1.5-34B、智譜GLM4-9B。來自法國大模型新創公司的Mistral Mixtral 8x22B排名第七墊底。

上海人工智慧實驗室表示，此次三科全卷測試，成績由具備高考評卷經驗的老師匿名人工判分，閱卷開始前，閱卷教師「未被」告知答卷均由模型生成，使閱卷教師完全以面對真實考生的標準評判回答效果。

值得一提的是，大模型「犯錯」的方式和人類考生有差異，有的模型會存在完全不理解題意導致亂答、重複生成、回答更像解析而非解答的問題，因此實際執行上，閱卷老師未能完全適應給分的過程，團隊則要求老師將離譜的錯誤直接視為答題錯誤，解析類型的回答以是否包含正確解題過程作為唯一準則。此外，每個題目都邀請了至少三位老師評閱取平均分數。

針對大模型在各科的表現，語文方面，評卷老師認為，模型的現代文閱讀理解能力普遍較強，但是不同模型的文言文閱讀理解能力差距較大。大模型作文則更像問答題，雖然有針對性但缺乏修飾，幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物材料等手法。對於「比喻」等語文概念，多數模型無法理解。

在數學考卷上，老師們發現，大模型的主觀題回答「相對凌亂」，且過程具有迷惑性，甚至出現過程錯誤但得到正確答案的情況。大模型的公式記憶能力較強，但是無法在解題過程中靈活引用。

英語則整體表現良好，但部分模型因不適應題型，在七選五、克漏字填空等題型得分率較低。大模型英文作文普遍存在因超出字數限制而扣分的情況，而人類考生多因為字數不夠扣分。

高考人工智慧 AI

上一則

「要把中國人像豬一樣殺光」蒙古歌手遭舉報中國當局出手了

下一則

我的頻道

最高法院：川普在國會暴動起訴案享有部分豁免權

最高法院裁決讓企業更容易對聯邦機關提告

各家AI競寫高考題通義千問得分高過GPT-4o 但數學不及格

「要把中國人像豬一樣殺光」蒙古歌手遭舉報中國當局出手了

山河4省人口年減139萬超越東北中國31省份僅11個呈現成長

延伸閱讀

AI考高考成績如何？這個中國大模型「考生」贏過GPT-4o

中國與美國4個領域差距正在拉大學者：值得高度警惕

世界人工智能大會7月上海登場將展出45款智慧機器人

IMF加強亞太工作設上海區域中心

熱門新聞

阿里數學決賽試題公布網喊「天書」：這是考英語還是數學？

驚喜變驚悚？傳數學天才姜萍被囚網疑老師冒名參賽

中國「天龍3號」火箭試射爆炸

77中國人搭豪車偷渡義大利轉身淪奴工被拍裸照、無限期工作

習近平「國師」預言世界大戰恐爆發：美國正將戰爭引向亞太

湖北女暴雨後撿1條40斤大魚做剁椒魚頭…能吃嗎?專家出聲了

FB留言

超人氣

3生肖熬過大難迎好運屬鼠橫財入命、他有添丁大喜

羽球／中國17歲新星張志傑亞青賽比賽中倒地猝逝

不轉賣商品加州女子靠Costco粉絲頁月入7千

美甲店華女遭酒駕撞老父認屍渾身發抖直喊：我替她

蘇州女為保護日籍人士被刺不治家屬聲明婉拒捐款盼平靜

最高法院：川普在國會暴動起訴案享有部分豁免權

最高法院裁決讓企業更容易對聯邦機關提告

各家AI競寫高考題 通義千問得分高過GPT-4o 但數學不及格

「要把中國人像豬一樣殺光」蒙古歌手遭舉報 中國當局出手了

山河4省人口年減139萬 超越東北 中國31省份 僅11個呈現成長

延伸閱讀

AI考高考成績如何？這個中國大模型「考生」贏過GPT-4o

中國與美國4個領域差距正在拉大 學者：值得高度警惕

世界人工智能大會7月上海登場 將展出45款智慧機器人

IMF加強亞太工作 設上海區域中心

熱門新聞

阿里數學決賽試題公布 網喊「天書」：這是考英語還是數學？

驚喜變驚悚？傳數學天才姜萍被囚 網疑老師冒名參賽

中國「天龍3號」火箭試射爆炸

77中國人搭豪車偷渡義大利 轉身淪奴工 被拍裸照、無限期工作

習近平「國師」預言世界大戰恐爆發：美國正將戰爭引向亞太

湖北女暴雨後撿1條40斤大魚 做剁椒魚頭…能吃嗎?專家出聲了

3生肖熬過大難迎好運 屬鼠橫財入命、他有添丁大喜

羽球／中國17歲新星張志傑 亞青賽比賽中倒地猝逝

不轉賣商品 加州女子靠Costco粉絲頁月入7千

美甲店華女遭酒駕撞 老父認屍渾身發抖 直喊：我替她

蘇州女為保護日籍人士被刺不治 家屬聲明婉拒捐款盼平靜

各家AI競寫高考題通義千問得分高過GPT-4o 但數學不及格

「要把中國人像豬一樣殺光」蒙古歌手遭舉報中國當局出手了

山河4省人口年減139萬超越東北中國31省份僅11個呈現成長

中國與美國4個領域差距正在拉大學者：值得高度警惕

世界人工智能大會7月上海登場將展出45款智慧機器人

IMF加強亞太工作設上海區域中心

阿里數學決賽試題公布網喊「天書」：這是考英語還是數學？

驚喜變驚悚？傳數學天才姜萍被囚網疑老師冒名參賽

77中國人搭豪車偷渡義大利轉身淪奴工被拍裸照、無限期工作

湖北女暴雨後撿1條40斤大魚做剁椒魚頭…能吃嗎?專家出聲了

3生肖熬過大難迎好運屬鼠橫財入命、他有添丁大喜

羽球／中國17歲新星張志傑亞青賽比賽中倒地猝逝

不轉賣商品加州女子靠Costco粉絲頁月入7千

美甲店華女遭酒駕撞老父認屍渾身發抖直喊：我替她

蘇州女為保護日籍人士被刺不治家屬聲明婉拒捐款盼平靜