大模型的“大”到底是啥? 一共四个维度, 第一, 参数规模, 就像是你吃火锅时锅的大小, 也是一切的基础, ChatGPT就是一口1750亿参数的巨型火锅, 因为够大, 所以能涮的食材也多。 这又涉及到了咱们的第二个维度, 训练数据的规模, 就是咱们涮火锅的食材种类, 食材越多越丰富, 涮锅的味道就越香, 这也就是为啥说 “训练数据决定了模型的知识广度和深度”。 第三是计算量, 也叫训练模型的能源消耗, 计算量大不大, 就是在问你这锅的火力大不大? 一般肯定是火力越强熟得越快, 但也有像DeepSeek这样, 着名的550万美元能耗的火锅, 主打一个“智能控温”, 能耗小, 汤也能熟。 最後一个叫上下文窗口, 它决定的是模型能同时处理的信息量, 这回咱得支个桌了, 上下文窗口越大, 就相当於你放火锅的餐桌越大, 那能放的菜品肯定也越多, 模型一次能处理的信息也就越多。 总结起来就是, 大模型就是一锅容量大丶食材多丶火力强丶桌面宽的火锅。 好了, 吃个火锅奖励一下自己吧。
更多精彩內容,請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)