AI大型語言模型LLM進步變慢業者力拚新模型突破

2024-11-12 01:44 編譯吳孟真／綜合報導

隨著用來訓練人工智慧（AI）的大型語言模型（LLM）進步速度變慢，OpenAI和其他AI業者正透過開發新的訓練方法，尋求克服AI模型發展瓶頸的方式，這可能重塑AI硬體的競爭版圖。

路透報導，ChatGPT問世後，科技業者不斷對外宣稱，透過更多數據和算力來「擴大」現有模型，定能持續改善模型。如今一些最傑出的AI科學家卻說，這個「大就是好」的觀點有其限制。

LLM每一輪的訓練都可能耗費數百萬美元，也較容易出現由硬體造成的故障，且研究人員要在可能長達數個月的訓練期結束後，才知道模型的最終效能。

另外，LLM需要大量數據，而目前的AI模型已用盡世上所有容易取得的數據。再者，訓練模型需要大量能源，各地電力短缺的情況，也使訓練受阻。

為克服這些困難，研究人員正探索一個能在推論階段，提升現有AI模型的方法，稱為「測試時運算」（test-time compute）。此方法讓AI模型能將更多力氣用在特定的困難任務上。

OpenAI已在其最新發表的模型「o1」中使用此方法。o1能用類似人類推理的方式，多步驟「思考」問題。知情人士表示，其他AI業者如Anthropic、xAI和Google DeepMind，也都開始發展這種方法的自家版本。

AI OpenAI 人工智慧

推薦文章