與人類的眼耳口鼻多感互通的先天性獲得的功能不同,傳統(tǒng)的AI往往只具有一個特定方向的感知:文字、聲音、圖像。
早些時候的AI往往是單一模態(tài)的專家,各有專長。
單一模態(tài)專家模型例如:早期的ChatGPT、 Claude2、Claude3、Qwen2等屬于文本向LLM;Stable Diffusion系列,DALL-E 3等輸入圖像向LLM;MiniMax、Whisper等語音向LLM。
科技的進步在逐漸打破這個界限。AI也逐步在成為全能選手。
例如Llama 4、Gemini2.5、LLaVA、doubao1.6等
多模態(tài)模型如何誕生?
第一步單模態(tài)訓練
多個模態(tài)分開進行單獨訓練,獲得成長。
這一階段的關(guān)鍵是讓每個模態(tài)各司其職。文本模型專注于語言規(guī)律,圖像模型深耕視覺特征,語音模型聚焦聲學信號,通過足夠的數(shù)據(jù)量和訓練迭代,各自形成對單一模態(tài)數(shù)據(jù)的認知體系。
第二步多個模態(tài)學會互相理解,即學會“對齊”
關(guān)鍵在于如何在相同的概念上達成共識。
例如“狗”不管在文字、圖像、聲音上如何描述的、體現(xiàn),它們都是在描述同一個概念。
具體怎么做呢?通俗的講,典型的訓練方式(例如多模態(tài)對比學習CLIP),就是讓AI來玩一個配對游戲。
首先給出一個正確的示例與錯誤示例,再給出幾組文本-圖片,讓AI一一匹配出最相似的文本描述。
經(jīng)過不斷地訓練,AI就會逐漸學會如何匹配文字、圖像。在這個過程中數(shù)據(jù)也會逐漸形成映射關(guān)系。
最終學成的AI就能在你給出圖片時,匹配一段最適合的描述文本;給出文本描述時也能匹配最合適的圖片。
聽起來理論很簡單,實際上有很多的困難:
因為數(shù)據(jù)類型不同,模態(tài)的差異、質(zhì)量的差異,所以會導致模型很難進行整合;如何精準去對齊也是很難的,例如克服匹配過程中胡說八道的問題。另外數(shù)據(jù)質(zhì)量也很難保證。
第三步實戰(zhàn)訓練,使模型最終處理效果更符合實際要求
接受人類的反饋來提升自己,這一步的專業(yè)術(shù)語叫做基于反饋的強化學習。
主要過程就是收集反饋-得到評分模型,也就是獎勵模型-在評分模型的指導下進行強化訓練-得到最終的多模態(tài)模型。
目前的多模態(tài)模型主要聚焦于視覺和語言,未來的多模態(tài)模型的進化方向會更接近人類的感官,加入除了視覺、語言外的聽覺、環(huán)境、觸覺、互動等,加強其對物里世界的了解。







暫無評論,快來評論吧!