
昨天,科技圈的瓜田里炸出了一顆核彈——不是馬斯克的Grok-3(雖然這哥們兒剛在直播間里掏出一把號稱“地球最聰明AI”的AK47,還燒了20萬塊GPU把服務(wù)器烤得滋滋冒油),而是中國團隊DeepSeek甩出的一篇純技術(shù)論文,標(biāo)題樸實無華,內(nèi)容硬核到能砸穿地板:[《NSA:一種讓AI長跑不喘氣的“作弊器”》]
這哪是論文?分明是碼農(nóng)寫給算力的情書!
1.當(dāng)馬斯克在秀肌肉,中國團隊在秀腦回路
馬斯克直播Grok-3時,全網(wǎng)都在數(shù)他用了多少塊顯卡,仿佛在看一場“燒錢行為藝術(shù)”。而DeepSeek的論文,直接甩出一句:“別卷顯卡了,咱換個姿勢。”
他們搞了個叫NSA(原生稀疏注意力)的機制,把傳統(tǒng)AI處理長文本的“蠻力硬扛”變成了“庖丁解牛”——分三刀砍向算力黑洞:
- 壓縮(把廢話篩掉)、
- 選擇(挑重點盯梢)、
- 滑動窗口(邊跑邊瞄局部細(xì)節(jié))。
結(jié)果?長文本處理速度飆了11.6倍,預(yù)訓(xùn)練成本還打了對折。用網(wǎng)友的話說:“這屬于薅資本主義算力羊毛,還順手織了件毛衣。”
2. “開掛”的秘訣:把代碼寫成詩
DeepSeek的論文讀起來像極了一首極簡主義碼農(nóng)詩:
> “我們不造輪子,我們只造火箭推進器?!?nbsp;
他們干了兩件反直覺的事:
- 硬件對齊設(shè)計:讓算法和GPU“談戀愛”,內(nèi)存訪問比德芙還絲滑;
- 動態(tài)分層策略:像給AI裝了個“智能探照燈”,全局掃描和局部摳細(xì)節(jié)兩不誤。
最騷的是,這玩意兒在通用任務(wù)上居然比全注意力模型還強,仿佛一個學(xué)霸說“我復(fù)習(xí)時間比你少,但分?jǐn)?shù)比你高”——氣得同行想摔鍵盤。
3. “推理不用人教,AI自學(xué)成精”
論文里藏了個更顛覆的彩蛋:GRPO算法。傳統(tǒng)強化學(xué)習(xí)得配個“監(jiān)工”(Critic模型)盯著AI干活,而DeepSeek大手一揮:“要啥監(jiān)工?讓AI自己卷自己!”
原理簡單到像小學(xué)生分組PK:
- 一道題生成4個答案,組內(nèi)互相打分;
- 分高的晉級,分低的滾去重練。
結(jié)果?模型自己悟出了“如何用最少步驟解方程”,還能把推理過程寫得像數(shù)學(xué)課代表的筆記。網(wǎng)友銳評:“這不就是AI版的《葵花寶典》?欲練此功,不用自宮!”
4. 行業(yè)地震:從“刷榜狂魔”到“技術(shù)菩薩”
DeepSeek這波操作,直接讓港股概念股集體高潮(出門問問暴漲16%,美圖飆了10%),而更深遠的影響藏在論文最后一頁:“我們將開源NSA架構(gòu)?!?/span>
翻譯成人話:“友商們,作業(yè)在此,抄不抄隨你。”
廣電行業(yè)已經(jīng)摩拳擦掌,打算用NSA批量生產(chǎn)短視頻腳本和論文解讀,連“智能秧歌機器人”都可能因此扭得更帶感。難怪有投資人連夜發(fā)朋友圈:“以前覺得AI是吞金獸,現(xiàn)在看它像印鈔機?!?/span>
寫在最后:一場“暴力美學(xué)”的技術(shù)狂歡
馬斯克用20萬塊GPU堆出的Grok-3,像極了土豪炫富;而DeepSeek的NSA,則像極客用一支圓珠筆撬動了地球。
論文末尾那句“未來將持續(xù)探索優(yōu)化方向”,翻譯過來大概是:“這才第一集,下集更炸?!?nbsp;
今夜,我們都是DeepSeek的自來水。
(完)