国內一级黄色视频|少妇91导航日韩第一页久久|黄色三A视频色爽网站|亚洲精品无码一区二区在直播间|成人高清国产无码|aaa成人免费视频|国产一级一片免费播放放a|我要看免费的毛片|动漫a片免费观看|日韩欧美国产视频

<samp id="syuoq"><em id="syuoq"></em></samp>

<code id="syuoq"></code>

<button id="syuoq"></button>

<dl id="mg48w"><nav id="mg48w"></nav></dl>

Seed持續(xù)領(lǐng)跑，國(guó)產(chǎn)開源模型異軍突起丨多模態(tài)模型8月最新榜單揭曉

發(fā)布于云南 2025-09-19 · 4541瀏覽 3贊

多模態(tài)大模型正在成為通往通用人工智能（AGI）的關(guān)鍵引擎。它打破了文本、圖像、語(yǔ)音、視頻等多模態(tài)信息之間的邊界，讓 AI 不再局限于單一任務(wù)，而是能夠整合多源信息，實(shí)現(xiàn)更立體的世界認(rèn)知。這種能力不僅推動(dòng)了感知與理解的提升，更讓模型在推理、決策與協(xié)作等層面展現(xiàn)出高階智能，讓 AI 能夠像人一樣理解世界、解決問題，帶來更流暢、更可信賴的體驗(yàn)。隨著模型基礎(chǔ)能力的持續(xù)增強(qiáng)，多模態(tài)智能正在滲透到越來越多的行業(yè)和場(chǎng)景中，推動(dòng)智能新時(shí)代的加速到來。

基于閉源評(píng)測(cè)基準(zhǔn)，近期針對(duì)國(guó)內(nèi)外主流多模態(tài)模型進(jìn)行了全面評(píng)測(cè)，現(xiàn)公布司南多模態(tài)模型 8 月評(píng)測(cè)榜單。

本期榜單共包含 71 個(gè)多模態(tài)模型，其中包含：4 個(gè)國(guó)內(nèi) API 模型，20 個(gè)海外 API 模型以及 47 個(gè)開源多模態(tài)模型。需要提示的是：由于榜單規(guī)則，為提升閉源評(píng)測(cè)集榜單的時(shí)效性與先進(jìn)性，對(duì)部分舊模型進(jìn)行了移除，并測(cè)試了他們的最新版本。

整體性能排名

在本次評(píng)測(cè)中，多模態(tài)大模型的整體表現(xiàn)差異再次被拉大，平均得分從 17.60（最低）到 61.05 （最高）。性能排名最高的模型是 Seed1.6-vision-250815 ，而最低的則是 LLaVA-v1.5-7B。
在整體性能上，閉源模型 Seed1.6-vision-250815 在通用感知、空間感知和信息圖表理解三個(gè)維度上領(lǐng)跑所有模型，表現(xiàn)優(yōu)異。但在視覺質(zhì)量感知、多模態(tài)推理和多模態(tài)創(chuàng)作這些維度上仍有提升空間，尤其在視覺質(zhì)量感知上，該模型位列榜單中游，說明對(duì)圖像質(zhì)量屬性、美學(xué)價(jià)值及主觀視覺效果的評(píng)估能力仍為一個(gè)待突破的方向。
在開源模型中，GLM-4.5V 憑借其在通用感知、空間感知等方面的出眾能力，占據(jù)了榜單次名。而新近發(fā)布的 GPT-5-20250807 多方面能力均衡，并在多模態(tài)創(chuàng)作、多模態(tài)推理方面占據(jù)上風(fēng)，展現(xiàn)出其獨(dú)到之處，位列榜單第 3。
在以上三者之后，GPT-5-mini-20250807, InternVL3.5-241B-A28B 這 2 個(gè)模型分別占據(jù)了榜單的第 4、5 名。

深層洞察

模型放慢迭代腳步，開源模型能堪大任

相比 5 月榜單，模型整體迭代速度有所減慢，最好模型的性能相比上期只增長(zhǎng)了不到 2 分，說明由于數(shù)據(jù)量飽和或整體架構(gòu)的瓶頸，目前多模態(tài)大模型整體迭代已進(jìn)入瓶頸期，整體性能階段性的提升被按下了暫停鍵。
開源模型正迎頭趕上，不斷拉近與閉源模型領(lǐng)頭羊的距離。相比原先的開源模型領(lǐng)頭羊 Qwen2.5-VL-72B，GLM-4.5V 提升了近 10 分，與頭名的差距從上期的十余分拉近到本期的近一分；同時(shí) InternVL3.5-241B-A28B也在原先基礎(chǔ)上不斷迭代，進(jìn)入 Top5 的行列，這說明了開源多模態(tài)大模型通過數(shù)據(jù)與后訓(xùn)練方面的不斷創(chuàng)新，已經(jīng)逐漸突破了固有的護(hù)城河，正在接近多模態(tài)大模型整體的能力上限。

國(guó)產(chǎn)模型持續(xù)發(fā)力，對(duì)海外模型實(shí)現(xiàn)一定壓制，但在部分方面仍有差距

本次榜單中前 5 名中，國(guó)產(chǎn)模型占據(jù) 3 席，其中最領(lǐng)先的開源模型和閉源模型都為國(guó)產(chǎn)模型，這進(jìn)一步體現(xiàn)了國(guó)產(chǎn)模型的性能優(yōu)勢(shì)與出眾的技術(shù)力。
在多模態(tài)創(chuàng)作等領(lǐng)域，GPT-5-20250807 等海外模型仍具有一定優(yōu)勢(shì)，同時(shí)整體的性能與榜單頭名的差距也從上期的 6 分拉近到了本期的不到 2 分，說明海外模型在部分能力上仍具有不可替代的優(yōu)勢(shì)，整體性能迭代勢(shì)頭不可小覷。

隔代模型迭代快速，性能展現(xiàn)顯著提升，感知與推理能力協(xié)同并進(jìn)

關(guān)于開源模型，InternVL3.5-241B-A28B 相比 InternVL3-78B 在信息圖像感知、多模態(tài)創(chuàng)作等維度均有不同程度的進(jìn)步，GLM-4.5V 相比上一代更是展現(xiàn)出不小的提升。
關(guān)于閉源模型，領(lǐng)頭羊 Seed1.6-vision-250815 相比 Seed1.5-VL 整體性能有小幅提升，GPT-5-20250807 則是相比 GPT-4.1-20250414 和 ChatGPT-4o-latest 展現(xiàn)出全方面的性能提升，在多模態(tài)推理方面尤為顯著。

榜單規(guī)則說明

本榜單基于閉源測(cè)試數(shù)據(jù)，對(duì)不同多模態(tài)模型在通用感知、空間感知、視覺質(zhì)量感知、信息圖形理解、多模態(tài)推理、多模態(tài)創(chuàng)作六大能力維度上的表現(xiàn)進(jìn)行了評(píng)測(cè)，并基于歸一化分?jǐn)?shù) 計(jì)算模型的平均得分進(jìn)行排序。閉源評(píng)測(cè)基準(zhǔn)擁有較為豐富的題目類型，包含單選、多選、填空、開放性創(chuàng)作等，且為中英文雙語(yǔ)，可以同時(shí)考驗(yàn)?zāi)Ｐ偷亩嗾Z(yǔ)言理解能力。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

尹鑫

愛美之心人皆有之~

瀏覽 4541

贊 3

相關(guān)推薦

最新評(píng)論

贊過的人 3

評(píng)論加載中...

暫無(wú)評(píng)論，快來評(píng)論吧!

<center id="c8oom"><cite id="c8oom"></cite></center>

<delect id="c8oom"><wbr id="c8oom"></wbr></delect>

<strike id="c8oom"></strike>

<center id="c8oom"></center>