DeepSeek:AI領(lǐng)域的“破局者”
尹鑫
發(fā)布于 云南 2025-02-07 · 1.1w瀏覽 4贊

在2025年的蛇年春節(jié),DeepSeek成為了人們熱議的話題。在高鐵上、飛機(jī)場(chǎng)、前往景點(diǎn)的路上,到處都能聽到人們談?wù)撨@個(gè)AI應(yīng)用。很多家庭的老人在這個(gè)春節(jié)第一次向孩子詢問“啥是AI”,而很多人也通過DeepSeek的熱點(diǎn)分析,第一次了解到世界AI領(lǐng)域的競(jìng)爭(zhēng)格局,更有人第一次體會(huì)到了基于推理的大模型帶來的震撼。

1月20日,國內(nèi)的AI初創(chuàng)公司深度求索推出了大模型DeepSeek R1,僅用兩天就震撼了整個(gè)AI界。在隨后的兩周里,AI界“滿城盡帶DeepSeek”,英偉達(dá)、華為云、天翼云、亞馬遜、微軟Azure,以及阿里云、百度智能云、騰訊云、京東云等,紛紛宣布接入DeepSeek R1。那么,DeepSeek到底厲害在哪里?它后續(xù)又將帶來哪些影響?那些被DeepSeek熱度掩蓋的、同樣至關(guān)重要的事情又是什么?

01、DeepSeek的“厲害之處”

DeepSeek的厲害之處可以用三個(gè)詞概括:性能、開源、成本。

性能卓越

從性能上看,媒體和專業(yè)機(jī)構(gòu)的測(cè)評(píng)用詞是,DeepSeek R1的實(shí)際性能對(duì)標(biāo)GPT-o1,有些能力甚至超過o1。比如在電影產(chǎn)業(yè)相關(guān)問題的回答上,DeepSeek在深度思考模式下的回答是最好的,而且在一些邏輯細(xì)節(jié)上要遠(yuǎn)超其他產(chǎn)品。在回答之前,它還會(huì)逐字分析提出的問題,確保準(zhǔn)確理解后再給出回答。

開源共享

整個(gè)模型不僅開源,而且開發(fā)團(tuán)隊(duì)還把研發(fā)過程寫成論文,公開發(fā)布。在過去兩周里,全世界的AI實(shí)驗(yàn)室都在研讀這篇論文。從16個(gè)月之前,DeepSeek就在開源社區(qū)(GitHub)持續(xù)提交自己的每一個(gè)版本,而且全部都是MIT協(xié)議,這是開源社區(qū)中對(duì)使用者要求最低的協(xié)議。

使用者只要聲明版權(quán),就可以隨意使用,可以用于學(xué)術(shù),也可以用于商業(yè),即使拿走之后自己改造,改造過的版本不再開源也行。而在此之前,性能好的模型很貴,開源不要錢的模型性能又不太行。

DeepSeek是第一個(gè)開源且性能對(duì)標(biāo)o1的大模型,而且這是一個(gè)中國AI初創(chuàng)公司做的。英偉達(dá)資深研究員Jim Fan評(píng)價(jià)說,DeepSeek是一家非美國公司,在延續(xù)OpenAI最初的、真正開放的前沿研究,賦能所有人。Meta的首席人工智能科學(xué)家楊立昆也表示,這是開源模型超越了專有模型,是開源世界的勝利。

成本可控

很多人說DeepSeek擺脫了對(duì)GPU的依賴,英偉達(dá)的股價(jià)都被DeepSeek搞垮了。但這個(gè)說法其實(shí)不準(zhǔn)確。從參數(shù)上看,R1是一個(gè)比較小的大模型,總共有6710億個(gè)參數(shù),一次推理調(diào)用的參數(shù)只有370億個(gè),而GPT-4的參數(shù)有1.76萬億個(gè)。

據(jù)研究機(jī)構(gòu)SemiAnalysis的報(bào)告,DeepSeek一共有6萬張計(jì)算卡,其中A100、H800、H100各一萬張,H20三萬張。這些計(jì)算卡的算力加起來,大概是255萬,配置遠(yuǎn)低于同規(guī)格的其他大模型。外界盛傳R1的成本只有600萬美元,但這是不準(zhǔn)確的。600萬美元只是DeepSeek R1的上一版DeepSeekV3的預(yù)訓(xùn)練費(fèi)用。實(shí)際上,DeepSeek并不是租用算力做的模型,而是自己買計(jì)算卡,自己搭建服務(wù)器。目前DeepSeek大概有150名員工,還會(huì)定期從北大、浙大招募人才,有潛力的候選人年薪能達(dá)到900多萬元。而且DeepSeek背后的投資方,幻方量化早在2021年就買入了10000塊A100計(jì)算卡。

2023年5月,DeepSeek從幻方拆分出來,全面專注于AI業(yè)務(wù)。這期間,前前后后購買GPU的總花費(fèi)是7億美元,搭建服務(wù)器等各類系統(tǒng)的費(fèi)用大概9億美元,再加上期間的運(yùn)營(yíng)成本等等。根據(jù)SemiAnalysis的估算,總費(fèi)用應(yīng)該在26億美元。但這26億美元買入的硬件后續(xù)還會(huì)持續(xù)使用,并不是針對(duì)R1的成本。而僅僅是這600萬美元的訓(xùn)練成本,也已經(jīng)比市面上的同類模型低了一個(gè)數(shù)量級(jí)。比如,Meta去年7月發(fā)布的Llama 3.1大模型,訓(xùn)練費(fèi)用是6000萬美元,是R1的10倍。

關(guān)于R1的性價(jià)比,還有一個(gè)更直觀的例子,就是得到研發(fā)的新產(chǎn)品Get筆記。其中有一個(gè)潤(rùn)色環(huán)節(jié),假如使用GPT-4o,那么每天在潤(rùn)色環(huán)節(jié)上的花費(fèi)大概是2000美元,而假如用當(dāng)時(shí)DeepSeek的V2,也就是R1的前一個(gè)版本V3的再前一個(gè)版本,那么每天的花費(fèi)能降低到120美元。一年算下來,能節(jié)省450萬人民幣。也許對(duì)于很多產(chǎn)品來說,因?yàn)楦鼡Q這個(gè)模型,公司就能從虧損企業(yè)變成盈利企業(yè)。

02、對(duì)AI領(lǐng)域的深遠(yuǎn)影響

技術(shù)突破與競(jìng)爭(zhēng)格局

DeepSeek R1的成功,得益于其公開的論文中提到的沒有人為干預(yù)的強(qiáng)化學(xué)習(xí)技術(shù)。工程師并不告訴模型應(yīng)該如何推理,而是只要模型做對(duì)了,就讓它獲得獎(jiǎng)勵(lì),然后在這個(gè)反饋機(jī)制里一步步摸索,就好像AI在自己引導(dǎo)自己、自己調(diào)整自己一樣。

這一技術(shù)的出現(xiàn),讓很多科技公司對(duì)算力的迷信有所改變。不需要幾十萬張算力卡,也能做出厲害的大模型。目前包括OpenAI在內(nèi)的幾個(gè)科技巨頭,都在用R1的核心技術(shù)微調(diào)自己的模型,大家都想把算力的消耗降下來。然而,這并不意味著英偉達(dá)等算力巨頭就會(huì)不行。事實(shí)上,英偉達(dá)的H100算力卡的價(jià)格在R1推出后,是在持續(xù)上漲的,因?yàn)樾枨笞兌嗔?。出海的成本越低,大航海時(shí)代來得越猛。

DeepSeek R1自己也面臨著一些挑戰(zhàn),如技術(shù)工程化的問題。現(xiàn)在R1的接口服務(wù)還不夠穩(wěn)定,訪問用戶太多時(shí),可能會(huì)出現(xiàn)卡頓和超時(shí)。不過,盡管如此,它依然是獨(dú)樹一幟的重量級(jí)存在。而從AI領(lǐng)域的競(jìng)爭(zhēng)格局來看,先發(fā)優(yōu)勢(shì)固然重要,但后來居上的顛覆式創(chuàng)新也一直在發(fā)生。比如,OpenAI毫無預(yù)兆地發(fā)布了Deep Research功能,展現(xiàn)了巨大的優(yōu)勢(shì),這也可以看作是一個(gè)信號(hào),依然不能低估競(jìng)爭(zhēng)者的野心。

國家戰(zhàn)略與社會(huì)影響

DeepSeek的出現(xiàn),不僅僅是技術(shù)層面的突破,更有著深遠(yuǎn)的國家戰(zhàn)略和社會(huì)意義。在國家戰(zhàn)略層面,DeepSeek彌補(bǔ)了我國在大語言模型上的短缺,讓中國可以在AI領(lǐng)域撼動(dòng)美國人工智能巨頭。

2月5日,廣東召開了高質(zhì)量發(fā)展大會(huì),省委書記黃坤明專門提到了DeepSeek,稱其以不怕虎的勇氣銳氣撼動(dòng)美國AI巨頭。這表明,DeepSeek的影響力已經(jīng)超出了一個(gè)普通科技產(chǎn)品的范疇,它成為了國家戰(zhàn)略層面的重要支撐。對(duì)于普通老百姓來說,DeepSeek只是一個(gè)工具,就像手機(jī)、電腦、冰箱、洗衣機(jī)一樣,服務(wù)于自己的生活。雖然人工智能可能會(huì)替代掉一些行業(yè),但未來也會(huì)衍生出一些新的行業(yè)。比如,文案寫作、活動(dòng)策劃等工作可能會(huì)受到一定影響,但寫作等需要作者情緒和個(gè)人特色的工作,當(dāng)前的DeepSeek很難做到。

而隨著AI規(guī)模的壯大和使用場(chǎng)景的增多,新的行業(yè)也會(huì)不斷涌現(xiàn)。對(duì)于DeepSeek的使用,關(guān)鍵在于提問能力。它是一個(gè)推理型的大模型,不需要我們列出太多詳細(xì)的流程,只需要提需求,然后不斷地追問,越問答案越清晰。這與它的底層訓(xùn)練邏輯——強(qiáng)化學(xué)習(xí)有關(guān)。我們?cè)谔釂枙r(shí),要能夠說到點(diǎn)上,讓它理解我們的訴求,然后給到我們滿意的答復(fù)。比如,有個(gè)網(wǎng)友分享的萬能提問模板:背景+需求+約束條件(可選),就比較實(shí)用。

不過,也要注意不能過度依賴DeepSeek,否則會(huì)讓人失去思考能力??此频玫搅撕芏嘈畔⒑退^的知識(shí),但如果沒有自己的思考和架構(gòu),這些知識(shí)很容易就會(huì)被遺忘。

03、信息時(shí)代的思考

隨著人工智能的到來,信息還會(huì)再次出現(xiàn)爆炸式增長(zhǎng),收集和整理也會(huì)變得更加容易。但這也帶來了信息過載的問題,導(dǎo)致人的專注力和思考力存在缺陷。

就像之前食物匱乏時(shí)沒啥胖子,工業(yè)生產(chǎn)上來后,大家不愁吃喝,脂肪多了不少,然后又開始減肥。信息也是如此,只是很多人還沒有意識(shí)到這個(gè)問題的嚴(yán)重性。對(duì)于DeepSeek,我們既不能抗拒,也不能沉迷,合理使用才是最重要的。

總之,DeepSeek的出現(xiàn),為AI領(lǐng)域帶來了新的機(jī)遇和挑戰(zhàn)。它不僅在技術(shù)上取得了突破,更在國家戰(zhàn)略和社會(huì)層面產(chǎn)生了深遠(yuǎn)影響。我們期待DeepSeek在未來能夠不斷發(fā)展和完善,為人類社會(huì)的進(jìn)步做出更大的貢獻(xiàn)。

尹鑫
愛美之心人皆有之~
瀏覽 1.1w
4
相關(guān)推薦
最新評(píng)論
贊過的人 4
評(píng)論加載中...

暫無評(píng)論,快來評(píng)論吧!