最近AI圈,有件事真的值得所有人留意。
不是哪家公司拿到巨額投資,也不是又推出了什麼參數驚人的模型,而是一篇《Attention Residuals(注意力殘差)》論文,直接指向了 Transformer 架構沿用十幾年的底層框架。連馬斯克都公開說:Kimi 的這項工作,令人印象深刻。
而且,這篇改寫大模型核心邏輯的重磅論文,共同一作里面居然有一位17 歲的高中生。
那這篇論文到底幹了啥呢?說起來其實很簡單,但它確實動了AI圈十幾年沒人敢碰的根基。
大模型處理信息,是按一層一層的順序推進的。傳統模式里,每一層都會把上一層的全部信息,直接疊加進來繼續運算。信息只會越積越多,沒用的內容也一直帶著,越往後運算越慢,算力消耗和成本就會瘋狂上漲。
Kimi 團隊的新方法就是:每一層只保留有用的信息,自動過濾無效內容,並且給關鍵信息分配更多算力,不重要的信息少分配資源,不再做無意義的信息疊加。
結果很明顯:480億參數模型,訓練計算量直接減少了20%,推理延遲只增加了不到2%,算力消耗大幅下降。
而做出這個突破的,除了頂尖團隊,還有 17 歲的陳廣宇。
別人高三在刷卷子、愁志願,他在死磕 AI 最底層的運行邏輯;別人按部就班長大,他已經和行業大牛並肩,成了重磅論文的一作。
這個圈子沒有年齡門檻,沒有資歷偏見。誰能解決真問題,誰就有話語權。創新不分年紀,只看你敢不敢往問題根上問。
可能你會說,這只是個例,但其實不是。
我之前去過深圳的零一學院,那里的核心使命,就是發掘和培養能解決全球重大挑戰的X-人才——不看年齡、不唯學歷,只看是否有敢啃硬骨頭的勇氣和從0到1的創新定力。他們打破了傳統教育的壁壘,讓學生能與和頂尖大牛並肩探索底層難題,像陳廣宇那樣的突破,在那里並不是偶然。
你想想,去年DeepSeek,也走出了一模一樣的路。
以前總有人說,中國科技只會 “從 1 到 100”,別人搭好底座,我們再優化落地。現在,一切都變了。DeepSeek不跟風堆參數、拼算力,而是從底層架構上改變,自己搞核心機制,把千億參數模型的推理成本,壓到傳統模型的十分之一,用最本質的邏輯打破算力壟斷,重新定義行業效率。
Kimi這次的出圈,還有去年DeepSeek的突圍,說白了就是一件事:中國新生代,不管是人還是企業,已經不想等別人鋪好路再走,不滿足在巨人肩膀上修修補補,而是敢於從第一性原理出發,去拆地基,建立自己的新規則。
可能還有人說,這是算力不夠逼出來的無奈。
我倒覺得,還有可能是中國的創新環境,真的變了。
不再只看學歷、資歷、出身,有想法、有能力、敢啃硬骨頭,就有舞台;不再追空洞的概念,只看重真技術、真突破;不再怕試錯,而是鼓勵往最底層、最難的地方研究。
算力不夠只是表面原因,真正推著這群人往前走的,是敢創新、能創新、願意為創新買單的土壤。一個時代願意給年輕人機會,願意尊重底層創新,奇跡就會接連發生。
所以不要再用老眼光看中國年輕人。我們不是只會跟風、只會模仿,我們也有質疑權威的膽子,有紮進底層的定力,有從零到一的創造力。中國創新,已經不只是追趕者,而是正在成為新規則的制定者。
未來的世界,從來不屬於守舊的人,只屬於敢破局、敢創新、敢從根上重新開始的人。
財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。
如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。