
本文由孤獨(dú)大腦和ChatGPT、Claude、DeepSeek共同完成
一. 一場(chǎng)中國(guó)技術(shù)引發(fā)的華爾街“地震”
2025年1月27日,中國(guó)AI公司 DeepSeek 橫空出世,一拳擊碎了硅谷的寧?kù)o:
英偉達(dá)股價(jià)暴跌近17%,單日市值蒸發(fā)高達(dá)5888億美元,創(chuàng)下美股史上單日市值蒸發(fā)新紀(jì)錄。
Meta、微軟、谷歌等科技巨頭也隨之大幅下挫,整個(gè)科技板塊陷入恐慌情緒。
投資者開(kāi)始質(zhì)疑:硅谷過(guò)去以高算力、高成本為核心的發(fā)展路徑,是否已經(jīng)走到盡頭?
華爾街投行花旗分析師阿提夫·馬利克評(píng)論道:“DeepSeek 的成就或許極具開(kāi)創(chuàng)性,這無(wú)疑會(huì)沖擊美國(guó)公司在最先進(jìn) AI 模型方面的既有優(yōu)勢(shì)?!?nbsp;
一時(shí)之間,深度恐慌與強(qiáng)烈好奇并存,圍繞 DeepSeek 的真實(shí)水平與成本爭(zhēng)議不絕于耳。
在X.com上,國(guó)外網(wǎng)友們紛紛調(diào)侃,這幫人(DeepSeek)沒(méi)有搞各種高大上的東西,也沒(méi)有上播客講哲學(xué),就把這么牛的東西搞出來(lái)了。
華爾街的人心里有點(diǎn)兒緊張了:硅谷這幫家伙把錢(qián)花哪兒去了?
二. 為何 DeepSeek 能掀起軒然大波?
DeepSeek 的最核心“殺手锏”,在于其顛覆性的成本與效率。
? 據(jù)官方數(shù)據(jù),僅用 2048 塊英偉達(dá) H800 GPU 和 557.6 萬(wàn)美元的投入,DeepSeek 就訓(xùn)練出規(guī)模達(dá) 6710 億參數(shù)的 DeepSeek-V3;
? 而市面上同等參數(shù)規(guī)模的 GPT-4 訓(xùn)練花費(fèi)被認(rèn)為高達(dá) 10 億美元左右。
? 后續(xù)推出的 DeepSeek-R1 模型,推理成本僅為 OpenAI 最新模型(o1)的三十分之一。
這一系列數(shù)據(jù)意味著,過(guò)去在硅谷被視為“唯有斥巨資拼算力才可達(dá)頂尖”的大模型研發(fā)模式,可能并不是唯一解。
投資者猛然意識(shí)到,這種“降本增效”的技術(shù)路徑或許會(huì)動(dòng)搖硅谷多年構(gòu)筑的 AI 護(hù)城河,引發(fā)對(duì)現(xiàn)有產(chǎn)業(yè)估值和商業(yè)邏輯的集體反思。
三. Who:神秘的東方力量
DeepSeek 的創(chuàng)始人梁文峰,2023 年在杭州創(chuàng)建公司,擁有信息與電子工程背景,同時(shí)也是支持 DeepSeek 的對(duì)沖基金創(chuàng)始人。
據(jù)說(shuō)他曾在美國(guó)嚴(yán)格管控前,囤積了大量英偉達(dá) A100 芯片,據(jù)傳多達(dá) 5 萬(wàn)塊。
對(duì)外界而言,DeepSeek 更多像是一支低調(diào)卻“蓄謀已久”的團(tuán)隊(duì):
? 他們?cè)谒惴▋?yōu)化和工程實(shí)現(xiàn)上有深厚積累;
? 善用開(kāi)源社區(qū)與前沿研究的成果,再加上大規(guī)模 GPU 資源;
? 秉持“算法+工程”雙重驅(qū)動(dòng),迅速在 2024 年至 2025 年期間躥升為全球矚目的新銳力量。
梁文峰曾在 2024 年 7 月接受采訪時(shí)說(shuō):“我們沒(méi)想到定價(jià)會(huì)成為如此敏感的話(huà)題。我們只是在按自己的節(jié)奏計(jì)算成本,并以此來(lái)定價(jià)?!?nbsp;
這番話(huà)看似平淡,卻讓業(yè)界對(duì)其背后的低成本、高效率算法模型投來(lái)更多猜測(cè)和研究。
四. 讓世界震驚的AI技術(shù)突破
DeepSeek 的崛起迅速成為全球關(guān)注焦點(diǎn):
? BBC 報(bào)道:DeepSeek 官方 App 在數(shù)天內(nèi)登頂美國(guó)應(yīng)用商店下載榜,超越了 ChatGPT 等明星應(yīng)用。
? 硅谷多位風(fēng)投大佬將 DeepSeek 稱(chēng)為“AI 的斯普特尼克時(shí)刻”,意指其象征意義類(lèi)似 1957 年蘇聯(lián)人造衛(wèi)星發(fā)射對(duì)美國(guó)的沖擊。
? 花旗、摩根士丹利等投行紛紛發(fā)報(bào)告指出,DeepSeek 的低成本模式,可能迫使市場(chǎng)重新評(píng)估 AI 芯片和大模型公司的盈利預(yù)期。
在下游行業(yè)來(lái)看,DeepSeek 的出現(xiàn)不僅是對(duì)芯片巨頭英偉達(dá)的短期重?fù)?,也讓更多?chuàng)業(yè)團(tuán)隊(duì)看見(jiàn)了大模型的另一種可能:
不必堆數(shù)萬(wàn)塊高端 GPU,也有望獲得近似 GPT-4 的性能。這樣的沖擊力堪稱(chēng)“地震級(jí)”。
五. How:創(chuàng)新的技術(shù)路徑
DeepSeek 的核心在于多項(xiàng)關(guān)鍵技術(shù)和工程策略:
1. 混合專(zhuān)家模型 (MoE)
將大模型拆分為多個(gè)專(zhuān)家模塊,只在需要時(shí)激活相應(yīng)模塊,借助“自然負(fù)載均衡”來(lái)避免單個(gè)專(zhuān)家過(guò)載。大幅減少無(wú)效計(jì)算,實(shí)現(xiàn)高度稀疏化訓(xùn)練與推理。
2. 多頭潛注意力 (MLA)
與傳統(tǒng)多頭注意力相比,額外引入潛向量,動(dòng)態(tài)調(diào)整注意力分配,從而減少內(nèi)存占用,并提升訓(xùn)練效率。
3. 雙重流水線 (DualPipe)
把 GPU 計(jì)算和數(shù)據(jù)傳輸交替運(yùn)行,提高資源利用率,避免 GPU 在等待數(shù)據(jù)或通信時(shí)出現(xiàn)空轉(zhuǎn)。
4. 強(qiáng)化學(xué)習(xí)與監(jiān)督微調(diào)相結(jié)合
在少量 SFT(監(jiān)督微調(diào))數(shù)據(jù)的基礎(chǔ)上,多輪強(qiáng)化學(xué)習(xí) (RL) 的策略讓模型能自發(fā)學(xué)會(huì)復(fù)雜推理(CoT)和自我反思(reflection),最終推動(dòng)模型整體質(zhì)量逼近甚至超過(guò) GPT-4 在部分領(lǐng)域的表現(xiàn)。
形象地說(shuō),硅谷的主流做法好比用 5 升排量的“大肌肉車(chē)”暴力驅(qū)動(dòng);DeepSeek 則像島國(guó)車(chē)廠,通過(guò)渦輪增壓、輕量化設(shè)計(jì)等精密工程,讓 2.5 升排量跑出了 5 升排量的性能。
六. But:被高估的光環(huán)?
面對(duì)如此驚艷的數(shù)字,一些質(zhì)疑聲隨之而起:
1. 真正的成本?
官方聲稱(chēng) 557.6 萬(wàn)美元只是訓(xùn)練開(kāi)銷(xiāo),但可能未包含人力、消融實(shí)驗(yàn)、數(shù)據(jù)清洗等隱形成本。真實(shí)總支出尚無(wú)定論。
2. 站在巨人肩膀上
DeepSeek 并非從零開(kāi)始發(fā)明新技術(shù),而是充分利用了 OpenAI、Meta 等公司在大模型領(lǐng)域打下的基礎(chǔ),然后專(zhuān)注“工程放大”。它的貢獻(xiàn)更多在“從 1 到 10”的優(yōu)化,而非“從 0 到 1”的顛覆。
3. 是否存在炒作?
英偉達(dá)股價(jià)的斷崖式下跌,讓許多人懷疑這是對(duì)沖基金與媒體的刻意配合,用“廉價(jià)大模型”來(lái)制造恐慌,從而大舉做空美股科技板塊。
七. 長(zhǎng)期利好:杰文斯悖論再現(xiàn)
19 世紀(jì)時(shí),杰文斯在研究蒸汽機(jī)時(shí)發(fā)現(xiàn):
當(dāng)效率提高、成本下降,人們反而會(huì)使用更多煤炭。
這就是所謂杰文斯悖論。
類(lèi)似地,AI 成本的急劇下降,可能刺激更多企業(yè)、機(jī)構(gòu)部署大模型,從而整體算力需求不降反升。
? 短期看,英偉達(dá)和部分科技股大跌,投資者恐慌;
? 長(zhǎng)遠(yuǎn)看,隨著 AI 應(yīng)用擴(kuò)展到更多領(lǐng)域,GPU 及相關(guān)算力的需求量或會(huì)爆發(fā)式增長(zhǎng)。
“低成本” 并不意味著對(duì)硬件的永遠(yuǎn)利空;
相反,它可能正是讓 AI 普及走向全行業(yè)、日?;年P(guān)鍵一步。
八. 顛覆性影響已現(xiàn)
截至目前,DeepSeek 的模型已在多項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中取得突破,更重要的是,它啟示了整個(gè)行業(yè):
? AI 初創(chuàng)公司 無(wú)需與大廠在硬件規(guī)模上硬碰硬,也能通過(guò)算法和工程手段繞出一條新道路;
? 下游產(chǎn)業(yè) 可以更快、更低門(mén)檻地享受到大模型紅利;
? OpenAI、Meta 等巨頭 需要重新定義競(jìng)賽策略,或轉(zhuǎn)向更靈活、更輕量的技術(shù)路徑來(lái)維持領(lǐng)先。
DeepSeek 亦證明了純粹的結(jié)果獎(jiǎng)勵(lì) (outcome reward RL) 就能將大模型推向接近 GPT-4 的水平,這是對(duì)“過(guò)程監(jiān)督”必要性的挑戰(zhàn),其學(xué)術(shù)與產(chǎn)業(yè)價(jià)值不容小覷。
九. AI 泡沫的警鐘
DeepSeek 這一事件短期內(nèi)刺破了部分 AI 估值的“泡沫感”。
英偉達(dá)單日蒸發(fā) 5888 億美元市值,Meta、微軟、谷歌等科企也大幅下跌,表明市場(chǎng)對(duì)“燒錢(qián)堆算力、利潤(rùn)必然滾滾而來(lái)”的邏輯開(kāi)始動(dòng)搖。
硅谷數(shù)年里高舉的“只要有算力就能贏”論斷,正面臨劇烈震蕩。
美國(guó)科技行業(yè)被迫思考:
當(dāng)有人找到另一條更廉價(jià)、更高效的路,還能繼續(xù)依賴(lài)硬件制裁或大額融資拉開(kāi)差距嗎?
還是說(shuō)必須在軟件算法、工程調(diào)度等層面重新下功夫?
十. 一朵“便宜而美麗的郁金香”?
17世紀(jì)的荷蘭,郁金香球莖一度被炒至天價(jià)。傳說(shuō)中,某個(gè)被隨意扔在地上后壓壞的球莖,讓投機(jī)者如夢(mèng)初醒,“郁金香泡沫”自此轟然倒塌。
現(xiàn)如今,DeepSeek 有點(diǎn)兒像那朵“便宜而美麗的郁金香”,似乎正扮演類(lèi)似的“泡沫刺破者”角色。
但要警惕的是,AI 并非純粹的投機(jī)產(chǎn)物,其價(jià)值并不只在“炒作”與“稀缺”,而是真真切切能賦能產(chǎn)業(yè)、提升效率、變革社會(huì)。
所以,AI 并不是17世紀(jì)荷蘭的郁金香。它的真正意義在于技術(shù)革命與產(chǎn)業(yè)升級(jí),而非一時(shí)的狂熱投機(jī)。
DeepSeek 確實(shí)像一朵“廉價(jià)卻驚艷”的新式郁金香,引得市場(chǎng)震動(dòng),卻也可能預(yù)示新的時(shí)代風(fēng)潮:
? 若其低成本模式被進(jìn)一步驗(yàn)證,將大幅降低 AI 入場(chǎng)門(mén)檻;
? 整個(gè)行業(yè)可能因這次“低成本沖擊”而演化出多元化路線,更大規(guī)模的 AI 落地也將隨之加速;
? 那些仍在盲目燒錢(qián)、單純依賴(lài)算力壁壘的巨頭,或?qū)⒅匦略u(píng)估自身定位。
最終,DeepSeek 能否持續(xù)帶來(lái)改變,尚需時(shí)間檢驗(yàn)。
但毫無(wú)疑問(wèn),它讓我們看到了 AI 的另一種未來(lái):
不只有昂貴的 GPU、大規(guī)模融資才能推動(dòng)變革,以巧妙的工程與算法創(chuàng)新,一朵“便宜而美麗”的 AI 郁金香也能在國(guó)際舞臺(tái)上綻放。
這或許正是 2025 年開(kāi)年以來(lái),最值得銘記的一幕。
從技術(shù)走向現(xiàn)實(shí),誰(shuí)能以更合理的成本、更具創(chuàng)造力的思路,將 AI 力量釋放到千行百業(yè)?
DeepSeek 已經(jīng)給出它的答案,未來(lái)尚有更多可能,等待我們共同見(jiàn)證。