馬斯克：AI訓練數據已耗盡，合成數據將成未來方向

日期：2025年1月9日下午7:02

PANews 1月9日消息，據TechCrunch報道，埃隆·馬斯克在與Stagwell董事長Mark Penn的直播對話中表示，目前AI模型的訓練已基本耗盡真實世界的數據，「我們已經用盡了人類知識的累積總和，這在去年就發生了。」馬斯克與前OpenAI首席科學家Ilya Sutskever的觀點一致，後者在NeurIPS機器學習大會上提出AI行業已達到「數據峰值」，未來可能需要改變模型開發方式。

馬斯克認為，合成數據將是補充真實數據的途徑，AI將通過生成和自我評估數據實現自我學習。這一趨勢已被包括微軟、Meta、OpenAI和Anthropic等科技巨頭採用，如微軟Phi-4模型和谷歌Gemma模型都結合了真實數據和合成數據進行訓練。Gartner預測，2024年AI和分析項目中約60%的數據將為合成生成。

合成數據的優勢包括成本節約，例如AI初創公司Writer僅花費約70萬美元開發其幾乎完全基於合成數據的Palmyra X 004模型，相比之下，類似規模的OpenAI模型開發成本約為460萬美元。然而，合成數據也存在風險，包括模型創造力下降、輸出偏差加劇，以及潛在的模型崩潰，尤其當訓練數據本身存在偏差時，生成結果也可能受到影響。

内容來源：PANews

更多精彩內容，請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)