AI大型語言模型LLM進步變慢 業者力拚新模型突破
隨著用來訓練人工智慧(AI)的大型語言模型(LLM)進步速度變慢,OpenAI和其他AI業者正透過開發新的訓練方法,尋求克服AI模型發展瓶頸的方式,這可能重塑AI硬體的競爭版圖。
路透報導,ChatGPT問世後,科技業者不斷對外宣稱,透過更多數據和算力來「擴大」現有模型,定能持續改善模型。如今一些最傑出的AI科學家卻說,這個「大就是好」的觀點有其限制。
LLM每一輪的訓練都可能耗費數百萬美元,也較容易出現由硬體造成的故障,且研究人員要在可能長達數個月的訓練期結束後,才知道模型的最終效能。
另外,LLM需要大量數據,而目前的AI模型已用盡世上所有容易取得的數據。再者,訓練模型需要大量能源,各地電力短缺的情況,也使訓練受阻。
為克服這些困難,研究人員正探索一個能在推論階段,提升現有AI模型的方法,稱為「測試時運算」(test-time compute)。此方法讓AI模型能將更多力氣用在特定的困難任務上。
OpenAI已在其最新發表的模型「o1」中使用此方法。o1能用類似人類推理的方式,多步驟「思考」問題。知情人士表示,其他AI業者如Anthropic、xAI和Google DeepMind,也都開始發展這種方法的自家版本。
留言