Seed持續(xù)領(lǐng)跑,國(guó)產(chǎn)開源模型異軍突起丨多模態(tài)模型8月最新榜單揭曉
尹鑫
發(fā)布于 云南 2025-09-19 · 4541瀏覽 3贊

多模態(tài)大模型正在成為通往通用人工智能(AGI)的關(guān)鍵引擎。它打破了文本、圖像、語(yǔ)音、視頻等多模態(tài)信息之間的邊界,讓 AI 不再局限于單一任務(wù),而是能夠整合多源信息,實(shí)現(xiàn)更立體的世界認(rèn)知。這種能力不僅推動(dòng)了感知與理解的提升,更讓模型在推理、決策與協(xié)作等層面展現(xiàn)出高階智能,讓 AI 能夠像人一樣理解世界、解決問題,帶來更流暢、更可信賴的體驗(yàn)。隨著模型基礎(chǔ)能力的持續(xù)增強(qiáng),多模態(tài)智能正在滲透到越來越多的行業(yè)和場(chǎng)景中,推動(dòng)智能新時(shí)代的加速到來。

基于閉源評(píng)測(cè)基準(zhǔn),近期針對(duì)國(guó)內(nèi)外主流多模態(tài)模型進(jìn)行了全面評(píng)測(cè),現(xiàn)公布司南多模態(tài)模型 8 月評(píng)測(cè)榜單。

本期榜單共包含 71 個(gè)多模態(tài)模型,其中包含:4 個(gè)國(guó)內(nèi) API 模型,20 個(gè)海外 API 模型以及 47 個(gè)開源多模態(tài)模型。需要提示的是:由于榜單規(guī)則,為提升閉源評(píng)測(cè)集榜單的時(shí)效性與先進(jìn)性,對(duì)部分舊模型進(jìn)行了移除,并測(cè)試了他們的最新版本。

整體性能排名

  • 在本次評(píng)測(cè)中,多模態(tài)大模型的整體表現(xiàn)差異再次被拉大,平均得分從 17.60(最低)到 61.05 (最高)。性能排名最高的模型是 Seed1.6-vision-250815 ,而最低的則是 LLaVA-v1.5-7B。

  • 在整體性能上,閉源模型 Seed1.6-vision-250815 在通用感知、空間感知和信息圖表理解三個(gè)維度上領(lǐng)跑所有模型,表現(xiàn)優(yōu)異。但在視覺質(zhì)量感知、多模態(tài)推理和多模態(tài)創(chuàng)作這些維度上仍有提升空間,尤其在視覺質(zhì)量感知上,該模型位列榜單中游,說明對(duì)圖像質(zhì)量屬性、美學(xué)價(jià)值及主觀視覺效果的評(píng)估能力仍為一個(gè)待突破的方向。

  • 在開源模型中,GLM-4.5V 憑借其在通用感知、空間感知等方面的出眾能力,占據(jù)了榜單次名。而新近發(fā)布的 GPT-5-20250807 多方面能力均衡,并在多模態(tài)創(chuàng)作、多模態(tài)推理方面占據(jù)上風(fēng),展現(xiàn)出其獨(dú)到之處,位列榜單第 3。

  • 在以上三者之后,GPT-5-mini-20250807,  InternVL3.5-241B-A28B 這 2 個(gè)模型分別占據(jù)了榜單的第 4、5 名。

深層洞察

模型放慢迭代腳步,開源模型能堪大任

  • 相比 5 月榜單,模型整體迭代速度有所減慢,最好模型的性能相比上期只增長(zhǎng)了不到 2 分,說明由于數(shù)據(jù)量飽和或整體架構(gòu)的瓶頸,目前多模態(tài)大模型整體迭代已進(jìn)入瓶頸期,整體性能階段性的提升被按下了暫停鍵。

  • 開源模型正迎頭趕上,不斷拉近與閉源模型領(lǐng)頭羊的距離。相比原先的開源模型領(lǐng)頭羊 Qwen2.5-VL-72B,GLM-4.5V 提升了近 10 分,與頭名的差距從上期的十余分拉近到本期的近一分;同時(shí) InternVL3.5-241B-A28B也在原先基礎(chǔ)上不斷迭代,進(jìn)入 Top5 的行列,這說明了開源多模態(tài)大模型通過數(shù)據(jù)與后訓(xùn)練方面的不斷創(chuàng)新,已經(jīng)逐漸突破了固有的護(hù)城河,正在接近多模態(tài)大模型整體的能力上限。

 

國(guó)產(chǎn)模型持續(xù)發(fā)力,對(duì)海外模型實(shí)現(xiàn)一定壓制,但在部分方面仍有差距

 

  • 本次榜單中前 5 名中,國(guó)產(chǎn)模型占據(jù) 3 席,其中最領(lǐng)先的開源模型和閉源模型都為國(guó)產(chǎn)模型,這進(jìn)一步體現(xiàn)了國(guó)產(chǎn)模型的性能優(yōu)勢(shì)與出眾的技術(shù)力。

  • 在多模態(tài)創(chuàng)作等領(lǐng)域,GPT-5-20250807 等海外模型仍具有一定優(yōu)勢(shì),同時(shí)整體的性能與榜單頭名的差距也從上期的 6 分拉近到了本期的不到 2 分,說明海外模型在部分能力上仍具有不可替代的優(yōu)勢(shì),整體性能迭代勢(shì)頭不可小覷。

 

隔代模型迭代快速,性能展現(xiàn)顯著提升,感知與推理能力協(xié)同并進(jìn)

 

  • 關(guān)于開源模型,InternVL3.5-241B-A28B 相比 InternVL3-78B 在信息圖像感知、多模態(tài)創(chuàng)作等維度均有不同程度的進(jìn)步,GLM-4.5V 相比上一代更是展現(xiàn)出不小的提升。

  • 關(guān)于閉源模型,領(lǐng)頭羊 Seed1.6-vision-250815 相比 Seed1.5-VL 整體性能有小幅提升,GPT-5-20250807 則是相比 GPT-4.1-20250414 和 ChatGPT-4o-latest 展現(xiàn)出全方面的性能提升,在多模態(tài)推理方面尤為顯著。

 

榜單規(guī)則說明

 

本榜單基于閉源測(cè)試數(shù)據(jù),對(duì)不同多模態(tài)模型在 通用感知、空間感知、視覺質(zhì)量感知、信息圖形理解、多模態(tài)推理、多模態(tài)創(chuàng)作 六大能力維度上的表現(xiàn)進(jìn)行了評(píng)測(cè),并基于 歸一化分?jǐn)?shù) 計(jì)算模型的平均得分進(jìn)行排序。閉源評(píng)測(cè)基準(zhǔn)擁有較為豐富的題目類型,包含單選、多選、填空、開放性創(chuàng)作等,且為中英文雙語(yǔ),可以同時(shí)考驗(yàn)?zāi)P偷亩嗾Z(yǔ)言理解能力。

尹鑫
愛美之心人皆有之~
瀏覽 4541
3
相關(guān)推薦
最新評(píng)論
贊過的人 3
評(píng)論加載中...

暫無(wú)評(píng)論,快來評(píng)論吧!