DeepSeek:AI領域的“破局者”
尹鑫
發(fā)布于 云南 2025-02-07 · 9928瀏覽 4贊

在2025年的蛇年春節(jié),DeepSeek成為了人們熱議的話題。在高鐵上、飛機場、前往景點的路上,到處都能聽到人們談論這個AI應用。很多家庭的老人在這個春節(jié)第一次向孩子詢問“啥是AI”,而很多人也通過DeepSeek的熱點分析,第一次了解到世界AI領域的競爭格局,更有人第一次體會到了基于推理的大模型帶來的震撼。

1月20日,國內的AI初創(chuàng)公司深度求索推出了大模型DeepSeek R1,僅用兩天就震撼了整個AI界。在隨后的兩周里,AI界“滿城盡帶DeepSeek”,英偉達、華為云、天翼云、亞馬遜、微軟Azure,以及阿里云、百度智能云、騰訊云、京東云等,紛紛宣布接入DeepSeek R1。那么,DeepSeek到底厲害在哪里?它后續(xù)又將帶來哪些影響?那些被DeepSeek熱度掩蓋的、同樣至關重要的事情又是什么?

01、DeepSeek的“厲害之處”

DeepSeek的厲害之處可以用三個詞概括:性能、開源、成本。

性能卓越

從性能上看,媒體和專業(yè)機構的測評用詞是,DeepSeek R1的實際性能對標GPT-o1,有些能力甚至超過o1。比如在電影產業(yè)相關問題的回答上,DeepSeek在深度思考模式下的回答是最好的,而且在一些邏輯細節(jié)上要遠超其他產品。在回答之前,它還會逐字分析提出的問題,確保準確理解后再給出回答。

開源共享

整個模型不僅開源,而且開發(fā)團隊還把研發(fā)過程寫成論文,公開發(fā)布。在過去兩周里,全世界的AI實驗室都在研讀這篇論文。從16個月之前,DeepSeek就在開源社區(qū)(GitHub)持續(xù)提交自己的每一個版本,而且全部都是MIT協(xié)議,這是開源社區(qū)中對使用者要求最低的協(xié)議。

使用者只要聲明版權,就可以隨意使用,可以用于學術,也可以用于商業(yè),即使拿走之后自己改造,改造過的版本不再開源也行。而在此之前,性能好的模型很貴,開源不要錢的模型性能又不太行。

DeepSeek是第一個開源且性能對標o1的大模型,而且這是一個中國AI初創(chuàng)公司做的。英偉達資深研究員Jim Fan評價說,DeepSeek是一家非美國公司,在延續(xù)OpenAI最初的、真正開放的前沿研究,賦能所有人。Meta的首席人工智能科學家楊立昆也表示,這是開源模型超越了專有模型,是開源世界的勝利。

成本可控

很多人說DeepSeek擺脫了對GPU的依賴,英偉達的股價都被DeepSeek搞垮了。但這個說法其實不準確。從參數上看,R1是一個比較小的大模型,總共有6710億個參數,一次推理調用的參數只有370億個,而GPT-4的參數有1.76萬億個。

據研究機構SemiAnalysis的報告,DeepSeek一共有6萬張計算卡,其中A100、H800、H100各一萬張,H20三萬張。這些計算卡的算力加起來,大概是255萬,配置遠低于同規(guī)格的其他大模型。外界盛傳R1的成本只有600萬美元,但這是不準確的。600萬美元只是DeepSeek R1的上一版DeepSeekV3的預訓練費用。實際上,DeepSeek并不是租用算力做的模型,而是自己買計算卡,自己搭建服務器。目前DeepSeek大概有150名員工,還會定期從北大、浙大招募人才,有潛力的候選人年薪能達到900多萬元。而且DeepSeek背后的投資方,幻方量化早在2021年就買入了10000塊A100計算卡。

2023年5月,DeepSeek從幻方拆分出來,全面專注于AI業(yè)務。這期間,前前后后購買GPU的總花費是7億美元,搭建服務器等各類系統(tǒng)的費用大概9億美元,再加上期間的運營成本等等。根據SemiAnalysis的估算,總費用應該在26億美元。但這26億美元買入的硬件后續(xù)還會持續(xù)使用,并不是針對R1的成本。而僅僅是這600萬美元的訓練成本,也已經比市面上的同類模型低了一個數量級。比如,Meta去年7月發(fā)布的Llama 3.1大模型,訓練費用是6000萬美元,是R1的10倍。

關于R1的性價比,還有一個更直觀的例子,就是得到研發(fā)的新產品Get筆記。其中有一個潤色環(huán)節(jié),假如使用GPT-4o,那么每天在潤色環(huán)節(jié)上的花費大概是2000美元,而假如用當時DeepSeek的V2,也就是R1的前一個版本V3的再前一個版本,那么每天的花費能降低到120美元。一年算下來,能節(jié)省450萬人民幣。也許對于很多產品來說,因為更換這個模型,公司就能從虧損企業(yè)變成盈利企業(yè)。

02、對AI領域的深遠影響

技術突破與競爭格局

DeepSeek R1的成功,得益于其公開的論文中提到的沒有人為干預的強化學習技術。工程師并不告訴模型應該如何推理,而是只要模型做對了,就讓它獲得獎勵,然后在這個反饋機制里一步步摸索,就好像AI在自己引導自己、自己調整自己一樣。

這一技術的出現,讓很多科技公司對算力的迷信有所改變。不需要幾十萬張算力卡,也能做出厲害的大模型。目前包括OpenAI在內的幾個科技巨頭,都在用R1的核心技術微調自己的模型,大家都想把算力的消耗降下來。然而,這并不意味著英偉達等算力巨頭就會不行。事實上,英偉達的H100算力卡的價格在R1推出后,是在持續(xù)上漲的,因為需求變多了。出海的成本越低,大航海時代來得越猛。

DeepSeek R1自己也面臨著一些挑戰(zhàn),如技術工程化的問題?,F在R1的接口服務還不夠穩(wěn)定,訪問用戶太多時,可能會出現卡頓和超時。不過,盡管如此,它依然是獨樹一幟的重量級存在。而從AI領域的競爭格局來看,先發(fā)優(yōu)勢固然重要,但后來居上的顛覆式創(chuàng)新也一直在發(fā)生。比如,OpenAI毫無預兆地發(fā)布了Deep Research功能,展現了巨大的優(yōu)勢,這也可以看作是一個信號,依然不能低估競爭者的野心。

國家戰(zhàn)略與社會影響

DeepSeek的出現,不僅僅是技術層面的突破,更有著深遠的國家戰(zhàn)略和社會意義。在國家戰(zhàn)略層面,DeepSeek彌補了我國在大語言模型上的短缺,讓中國可以在AI領域撼動美國人工智能巨頭。

2月5日,廣東召開了高質量發(fā)展大會,省委書記黃坤明專門提到了DeepSeek,稱其以不怕虎的勇氣銳氣撼動美國AI巨頭。這表明,DeepSeek的影響力已經超出了一個普通科技產品的范疇,它成為了國家戰(zhàn)略層面的重要支撐。對于普通老百姓來說,DeepSeek只是一個工具,就像手機、電腦、冰箱、洗衣機一樣,服務于自己的生活。雖然人工智能可能會替代掉一些行業(yè),但未來也會衍生出一些新的行業(yè)。比如,文案寫作、活動策劃等工作可能會受到一定影響,但寫作等需要作者情緒和個人特色的工作,當前的DeepSeek很難做到。

而隨著AI規(guī)模的壯大和使用場景的增多,新的行業(yè)也會不斷涌現。對于DeepSeek的使用,關鍵在于提問能力。它是一個推理型的大模型,不需要我們列出太多詳細的流程,只需要提需求,然后不斷地追問,越問答案越清晰。這與它的底層訓練邏輯——強化學習有關。我們在提問時,要能夠說到點上,讓它理解我們的訴求,然后給到我們滿意的答復。比如,有個網友分享的萬能提問模板:背景+需求+約束條件(可選),就比較實用。

不過,也要注意不能過度依賴DeepSeek,否則會讓人失去思考能力??此频玫搅撕芏嘈畔⒑退^的知識,但如果沒有自己的思考和架構,這些知識很容易就會被遺忘。

03、信息時代的思考

隨著人工智能的到來,信息還會再次出現爆炸式增長,收集和整理也會變得更加容易。但這也帶來了信息過載的問題,導致人的專注力和思考力存在缺陷。

就像之前食物匱乏時沒啥胖子,工業(yè)生產上來后,大家不愁吃喝,脂肪多了不少,然后又開始減肥。信息也是如此,只是很多人還沒有意識到這個問題的嚴重性。對于DeepSeek,我們既不能抗拒,也不能沉迷,合理使用才是最重要的。

總之,DeepSeek的出現,為AI領域帶來了新的機遇和挑戰(zhàn)。它不僅在技術上取得了突破,更在國家戰(zhàn)略和社會層面產生了深遠影響。我們期待DeepSeek在未來能夠不斷發(fā)展和完善,為人類社會的進步做出更大的貢獻。

尹鑫
愛美之心人皆有之~
瀏覽 9928
4
相關推薦
最新評論
贊過的人 4
評論加載中...

暫無評論,快來評論吧!