a级视频在线婷婷综合,91AV在线看A级黄色生活片

AI如何獲得多模態(tài)能力

發(fā)布于云南 2025-07-17 · 1921瀏覽 2贊

與人類的眼耳口鼻多感互通的先天性獲得的功能不同，傳統(tǒng)的AI往往只具有一個(gè)特定方向的感知：文字、聲音、圖像。

早些時(shí)候的AI往往是單一模態(tài)的專家，各有專長(zhǎng)。
單一模態(tài)專家模型例如：早期的ChatGPT、 Claude2、Claude3、Qwen2等屬于文本向LLM；Stable Diffusion系列，DALL-E 3等輸入圖像向LLM；MiniMax、Whisper等語(yǔ)音向LLM。

科技的進(jìn)步在逐漸打破這個(gè)界限。AI也逐步在成為全能選手。
例如Llama 4、Gemini2.5、LLaVA、doubao1.6等

多模態(tài)模型如何誕生？

第一步單模態(tài)訓(xùn)練

多個(gè)模態(tài)分開進(jìn)行單獨(dú)訓(xùn)練，獲得成長(zhǎng)。

這一階段的關(guān)鍵是讓每個(gè)模態(tài)各司其職。文本模型專注于語(yǔ)言規(guī)律，圖像模型深耕視覺特征，語(yǔ)音模型聚焦聲學(xué)信號(hào)，通過(guò)足夠的數(shù)據(jù)量和訓(xùn)練迭代，各自形成對(duì)單一模態(tài)數(shù)據(jù)的認(rèn)知體系。

第二步多個(gè)模態(tài)學(xué)會(huì)互相理解，即學(xué)會(huì)“對(duì)齊”

關(guān)鍵在于如何在相同的概念上達(dá)成共識(shí)。

例如“狗”不管在文字、圖像、聲音上如何描述的、體現(xiàn)，它們都是在描述同一個(gè)概念。

具體怎么做呢？通俗的講，典型的訓(xùn)練方式（例如多模態(tài)對(duì)比學(xué)習(xí)CLIP），就是讓AI來(lái)玩一個(gè)配對(duì)游戲。
首先給出一個(gè)正確的示例與錯(cuò)誤示例，再給出幾組文本-圖片，讓AI一一匹配出最相似的文本描述。
經(jīng)過(guò)不斷地訓(xùn)練，AI就會(huì)逐漸學(xué)會(huì)如何匹配文字、圖像。在這個(gè)過(guò)程中數(shù)據(jù)也會(huì)逐漸形成映射關(guān)系。
最終學(xué)成的AI就能在你給出圖片時(shí)，匹配一段最適合的描述文本；給出文本描述時(shí)也能匹配最合適的圖片。

聽起來(lái)理論很簡(jiǎn)單，實(shí)際上有很多的困難：
因?yàn)閿?shù)據(jù)類型不同，模態(tài)的差異、質(zhì)量的差異，所以會(huì)導(dǎo)致模型很難進(jìn)行整合；如何精準(zhǔn)去對(duì)齊也是很難的，例如克服匹配過(guò)程中胡說(shuō)八道的問(wèn)題。另外數(shù)據(jù)質(zhì)量也很難保證。

第三步實(shí)戰(zhàn)訓(xùn)練，使模型最終處理效果更符合實(shí)際要求
接受人類的反饋來(lái)提升自己，這一步的專業(yè)術(shù)語(yǔ)叫做基于反饋的強(qiáng)化學(xué)習(xí)。
主要過(guò)程就是收集反饋-得到評(píng)分模型，也就是獎(jiǎng)勵(lì)模型-在評(píng)分模型的指導(dǎo)下進(jìn)行強(qiáng)化訓(xùn)練-得到最終的多模態(tài)模型。

目前的多模態(tài)模型主要聚焦于視覺和語(yǔ)言，未來(lái)的多模態(tài)模型的進(jìn)化方向會(huì)更接近人類的感官，加入除了視覺、語(yǔ)言外的聽覺、環(huán)境、觸覺、互動(dòng)等，加強(qiáng)其對(duì)物里世界的了解。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

ll飛行日記

低空飛行~

贊 2

相關(guān)推薦