AI繪畫有一個(gè)一直困擾大家的難題——人物一致性難以保持,即在生成例如一本繪本的時(shí)候,主角形象僅能靠提示詞描述來(lái)固定住形象。但這種方式是弱固定,無(wú)法保證人物形象在每一張圖中完全不變。這是幾乎所有閉源AI繪畫軟件的時(shí)候都會(huì)遇到的一個(gè)難題。
并且,由于閉源軟件的局限性,無(wú)法用諸如midjourney,即夢(mèng)一類軟件,復(fù)刻或是延展出我們已有的,由人工設(shè)計(jì)出的ip形象。例如某公司由人工設(shè)計(jì)的ip形象,或是某本漫畫由人工繪制的ip形象。
但深度學(xué)習(xí)領(lǐng)域的lora模型訓(xùn)練可以解決此類問(wèn)題。通過(guò)收集素材圖片、調(diào)整圖片長(zhǎng)寬比、AI提示詞反推器給每張圖片打標(biāo)、人工修改每張圖片標(biāo)簽、調(diào)整合適的參數(shù)進(jìn)行l(wèi)ora訓(xùn)練,這五大步驟。我們會(huì)得到一個(gè)lora模型,用于生成圖片。
值得一提的是:lora訓(xùn)練全流程及用訓(xùn)練出來(lái)的lora模型生成圖片是完全免費(fèi)并完全基于本地計(jì)算機(jī)的。
以某本漫畫中的形象為例,由于素材量問(wèn)題,本次訓(xùn)練僅用了14張圖片,即獲得了一個(gè)良好的lora模型,此模型具有較好的泛化性,可用性很高。
原始素材如下:
這里可以看到,原始素材所包含的圖片中,沒(méi)有此動(dòng)漫人物的背面圖片。但通過(guò)這14張圖片訓(xùn)練出來(lái)的模型,能夠很好的推理出此動(dòng)漫人物的后視圖,并延展出來(lái)了該角色吃冰淇淋、騎老虎等的圖片。同時(shí)值得注意的是,該人物的服裝,五官,發(fā)飾等細(xì)節(jié)并未發(fā)生變化。保持住了該動(dòng)漫人物的個(gè)人特征。
甚至,結(jié)合我的另外一個(gè)工作流,我生成了一個(gè)有趣的連環(huán)畫小故事“項(xiàng)羽馴虎記”





暫無(wú)評(píng)論,快來(lái)評(píng)論吧!