【杜蘭說AI】大模型的“大”到底是啥？

2025年5月9日上午10:10

大模型的“大”到底是啥？一共四個維度，第一，參數規模，就像是你吃火鍋時鍋的大小，也是一切的基礎， ChatGPT就是一口1750億參數的巨型火鍋，因為夠大，所以能涮的食材也多。這又涉及到了咱們的第二個維度，訓練數據的規模，就是咱們涮火鍋的食材種類，食材越多越豐富，涮鍋的味道就越香，這也就是為啥說 “訓練數據決定了模型的知識廣度和深度”。第三是計算量，也叫訓練模型的能源消耗，計算量大不大，就是在問你這鍋的火力大不大？一般肯定是火力越強熟得越快，但也有像DeepSeek這樣，著名的550萬美元能耗的火鍋，主打一個“智能控溫”，能耗小，湯也能熟。最後一個叫上下文窗口，它決定的是模型能同時處理的信息量，這回咱得支個桌了，上下文窗口越大，就相當於你放火鍋的餐桌越大，那能放的菜品肯定也越多，模型一次能處理的信息也就越多。總結起來就是，大模型就是一鍋容量大、食材多、火力強、桌面寬的火鍋。好了，吃個火鍋獎勵一下自己吧。

更多精彩內容，請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)