多模態(tài)大模型正在成為通往通用人工智能(AGI)的關鍵引擎。它打破了文本、圖像、語音、視頻等多模態(tài)信息之間的邊界,讓 AI 不再局限于單一任務,而是能夠整合多源信息,實現(xiàn)更立體的世界認知。這種能力不僅推動了感知與理解的提升,更讓模型在推理、決策與協(xié)作等層面展現(xiàn)出高階智能,讓 AI 能夠像人一樣理解世界、解決問題,帶來更流暢、更可信賴的體驗。隨著模型基礎能力的持續(xù)增強,多模態(tài)智能正在滲透到越來越多的行業(yè)和場景中,推動智能新時代的加速到來。
基于閉源評測基準,近期針對國內外主流多模態(tài)模型進行了全面評測,現(xiàn)公布司南多模態(tài)模型 8 月評測榜單。
本期榜單共包含 71 個多模態(tài)模型,其中包含:4 個國內 API 模型,20 個海外 API 模型以及 47 個開源多模態(tài)模型。需要提示的是:由于榜單規(guī)則,為提升閉源評測集榜單的時效性與先進性,對部分舊模型進行了移除,并測試了他們的最新版本。
整體性能排名
-
在本次評測中,多模態(tài)大模型的整體表現(xiàn)差異再次被拉大,平均得分從 17.60(最低)到 61.05 (最高)。性能排名最高的模型是 Seed1.6-vision-250815 ,而最低的則是 LLaVA-v1.5-7B。
-
在整體性能上,閉源模型 Seed1.6-vision-250815 在通用感知、空間感知和信息圖表理解三個維度上領跑所有模型,表現(xiàn)優(yōu)異。但在視覺質量感知、多模態(tài)推理和多模態(tài)創(chuàng)作這些維度上仍有提升空間,尤其在視覺質量感知上,該模型位列榜單中游,說明對圖像質量屬性、美學價值及主觀視覺效果的評估能力仍為一個待突破的方向。
-
在開源模型中,GLM-4.5V 憑借其在通用感知、空間感知等方面的出眾能力,占據(jù)了榜單次名。而新近發(fā)布的 GPT-5-20250807 多方面能力均衡,并在多模態(tài)創(chuàng)作、多模態(tài)推理方面占據(jù)上風,展現(xiàn)出其獨到之處,位列榜單第 3。
-
在以上三者之后,GPT-5-mini-20250807, InternVL3.5-241B-A28B 這 2 個模型分別占據(jù)了榜單的第 4、5 名。
深層洞察
模型放慢迭代腳步,開源模型能堪大任
-
相比 5 月榜單,模型整體迭代速度有所減慢,最好模型的性能相比上期只增長了不到 2 分,說明由于數(shù)據(jù)量飽和或整體架構的瓶頸,目前多模態(tài)大模型整體迭代已進入瓶頸期,整體性能階段性的提升被按下了暫停鍵。
-
開源模型正迎頭趕上,不斷拉近與閉源模型領頭羊的距離。相比原先的開源模型領頭羊 Qwen2.5-VL-72B,GLM-4.5V 提升了近 10 分,與頭名的差距從上期的十余分拉近到本期的近一分;同時 InternVL3.5-241B-A28B也在原先基礎上不斷迭代,進入 Top5 的行列,這說明了開源多模態(tài)大模型通過數(shù)據(jù)與后訓練方面的不斷創(chuàng)新,已經(jīng)逐漸突破了固有的護城河,正在接近多模態(tài)大模型整體的能力上限。
國產模型持續(xù)發(fā)力,對海外模型實現(xiàn)一定壓制,但在部分方面仍有差距
-
本次榜單中前 5 名中,國產模型占據(jù) 3 席,其中最領先的開源模型和閉源模型都為國產模型,這進一步體現(xiàn)了國產模型的性能優(yōu)勢與出眾的技術力。
-
在多模態(tài)創(chuàng)作等領域,GPT-5-20250807 等海外模型仍具有一定優(yōu)勢,同時整體的性能與榜單頭名的差距也從上期的 6 分拉近到了本期的不到 2 分,說明海外模型在部分能力上仍具有不可替代的優(yōu)勢,整體性能迭代勢頭不可小覷。
隔代模型迭代快速,性能展現(xiàn)顯著提升,感知與推理能力協(xié)同并進
-
關于開源模型,InternVL3.5-241B-A28B 相比 InternVL3-78B 在信息圖像感知、多模態(tài)創(chuàng)作等維度均有不同程度的進步,GLM-4.5V 相比上一代更是展現(xiàn)出不小的提升。
-
關于閉源模型,領頭羊 Seed1.6-vision-250815 相比 Seed1.5-VL 整體性能有小幅提升,GPT-5-20250807 則是相比 GPT-4.1-20250414 和 ChatGPT-4o-latest 展現(xiàn)出全方面的性能提升,在多模態(tài)推理方面尤為顯著。
榜單規(guī)則說明
本榜單基于閉源測試數(shù)據(jù),對不同多模態(tài)模型在 通用感知、空間感知、視覺質量感知、信息圖形理解、多模態(tài)推理、多模態(tài)創(chuàng)作 六大能力維度上的表現(xiàn)進行了評測,并基于 歸一化分數(shù) 計算模型的平均得分進行排序。閉源評測基準擁有較為豐富的題目類型,包含單選、多選、填空、開放性創(chuàng)作等,且為中英文雙語,可以同時考驗模型的多語言理解能力。





暫無評論,快來評論吧!