AI如何獲得多模態(tài)能力
ll飛行日記
發(fā)布于 云南 2025-07-17 · 1921瀏覽 2贊

與人類的眼耳口鼻多感互通的先天性獲得的功能不同,傳統(tǒng)的AI往往只具有一個(gè)特定方向的感知:文字、聲音、圖像。

 

早些時(shí)候的AI往往是單一模態(tài)的專家,各有專長(zhǎng)。
單一模態(tài)專家模型例如:早期的ChatGPT、 Claude2、Claude3、Qwen2等屬于文本向LLM;Stable Diffusion系列,DALL-E 3等輸入圖像向LLM;MiniMax、Whisper等語(yǔ)音向LLM。


科技的進(jìn)步在逐漸打破這個(gè)界限。AI也逐步在成為全能選手。
例如Llama 4、Gemini2.5、LLaVA、doubao1.6等

 


多模態(tài)模型如何誕生?


第一步單模態(tài)訓(xùn)練

多個(gè)模態(tài)分開進(jìn)行單獨(dú)訓(xùn)練,獲得成長(zhǎng)。

這一階段的關(guān)鍵是讓每個(gè)模態(tài)各司其職。文本模型專注于語(yǔ)言規(guī)律,圖像模型深耕視覺特征,語(yǔ)音模型聚焦聲學(xué)信號(hào),通過(guò)足夠的數(shù)據(jù)量和訓(xùn)練迭代,各自形成對(duì)單一模態(tài)數(shù)據(jù)的認(rèn)知體系。

 

第二步多個(gè)模態(tài)學(xué)會(huì)互相理解,即學(xué)會(huì)“對(duì)齊”

關(guān)鍵在于如何在相同的概念上達(dá)成共識(shí)。

例如“狗”不管在文字、圖像、聲音上如何描述的、體現(xiàn),它們都是在描述同一個(gè)概念。

具體怎么做呢?通俗的講,典型的訓(xùn)練方式(例如多模態(tài)對(duì)比學(xué)習(xí)CLIP),就是讓AI來(lái)玩一個(gè)配對(duì)游戲。
首先給出一個(gè)正確的示例與錯(cuò)誤示例,再給出幾組文本-圖片,讓AI一一匹配出最相似的文本描述。
經(jīng)過(guò)不斷地訓(xùn)練,AI就會(huì)逐漸學(xué)會(huì)如何匹配文字、圖像。在這個(gè)過(guò)程中數(shù)據(jù)也會(huì)逐漸形成映射關(guān)系。
最終學(xué)成的AI就能在你給出圖片時(shí),匹配一段最適合的描述文本;給出文本描述時(shí)也能匹配最合適的圖片。

聽起來(lái)理論很簡(jiǎn)單,實(shí)際上有很多的困難:
因?yàn)閿?shù)據(jù)類型不同,模態(tài)的差異、質(zhì)量的差異,所以會(huì)導(dǎo)致模型很難進(jìn)行整合;如何精準(zhǔn)去對(duì)齊也是很難的,例如克服匹配過(guò)程中胡說(shuō)八道的問(wèn)題。另外數(shù)據(jù)質(zhì)量也很難保證。


第三步實(shí)戰(zhàn)訓(xùn)練,使模型最終處理效果更符合實(shí)際要求
接受人類的反饋來(lái)提升自己,這一步的專業(yè)術(shù)語(yǔ)叫做基于反饋的強(qiáng)化學(xué)習(xí)。
主要過(guò)程就是收集反饋-得到評(píng)分模型,也就是獎(jiǎng)勵(lì)模型-在評(píng)分模型的指導(dǎo)下進(jìn)行強(qiáng)化訓(xùn)練-得到最終的多模態(tài)模型。


 

目前的多模態(tài)模型主要聚焦于視覺和語(yǔ)言,未來(lái)的多模態(tài)模型的進(jìn)化方向會(huì)更接近人類的感官,加入除了視覺、語(yǔ)言外的聽覺、環(huán)境、觸覺、互動(dòng)等,加強(qiáng)其對(duì)物里世界的了解。

ll飛行日記
低空飛行~
瀏覽 1921
2
相關(guān)推薦
最新評(píng)論
贊過(guò)的人 2
評(píng)論加載中...

暫無(wú)評(píng)論,快來(lái)評(píng)論吧!