大模型的“大”到底是啥?
一共四个维度,
第一,
参数规模,
就像是你吃火锅时锅的大小,
也是一切的基础,
ChatGPT就是一口1750亿参数的巨型火锅,
因为够大,
所以能涮的食材也多。
这又涉及到了咱们的第二个维度,
训练数据的规模,
就是咱们涮火锅的食材种类,
食材越多越丰富,
涮锅的味道就越香,
这也就是为啥说
“训练数据决定了模型的知识广度和深度”。
第三是计算量,
也叫训练模型的能源消耗,
计算量大不大,
就是在问你这锅的火力大不大?
一般肯定是火力越强熟得越快,
但也有像DeepSeek这样,
着名的550万美元能耗的火锅,
主打一个“智能控温”,
能耗小,
汤也能熟。
最後一个叫上下文窗口,
它决定的是模型能同时处理的信息量,
这回咱得支个桌了,
上下文窗口越大,
就相当於你放火锅的餐桌越大,
那能放的菜品肯定也越多,
模型一次能处理的信息也就越多。
总结起来就是,
大模型就是一锅容量大丶食材多丶火力强丶桌面宽的火锅。
好了,
吃个火锅奖励一下自己吧。
更多精彩内容
请登陆
财华香港网(https://www.finet.hk/)或
现代电视(https://www.fintv.hk)