人工智能本就是拿來解決實際問題的一種技術工具,本質上遵循現(xiàn)實問題抽象化為概念,概念抽象為符號與運算,符號與運算抽象為二進制計算的三部曲技術框架?,F(xiàn)實問題抽象化為概念是科學觀察與實驗獲取的,符號與運算抽象為二進制計算是計算機工程師解決的。因此,人工智能發(fā)展的瓶頸很長時間以來都是卡在“概念抽象為符號與運算”這個階段。這個階段在不同學科有不同的體現(xiàn),例如化學信息學就試圖把分子物理化學性質變成可計算問題,生物信息學則想沿著中心法則構建從基因到蛋白的完整信息流,環(huán)境科學則想通過對環(huán)境變量建模討論污染物或環(huán)境因子對人的影響。雖然不同學科訴求不同,但本質上都是想用計算補充“現(xiàn)實問題抽象化為概念”這一階段實驗與觀察缺失的部分信息,而我們驗證技術工具的方法一般也是拿實驗與觀察得到的已知理論來評價其計算后的符合度。
那么,究竟是什么讓人工智能成為前沿?技術進步,或者說計算能力的進步,也就是三部曲的“符號與運算抽象為二進制計算”部分。而最先獲得突破的領域其實是兩塊:圖像處理與自然語言處理。幾乎所有的深度學習算法框架都是這兩個部分互相學習迭代出來的,而深度學習的出現(xiàn)正是人工智能火熱的基石。這兩個領域有什么特點呢?數(shù)據(jù)量大。在工程師解決掉膠片數(shù)字化問題后,高質量圖片一直源源不斷產生,本質上可能已經窮盡了地面上所有存在的物體。而自然語言方面,文本電子化可能也已經把人類高質量知識的排列組合邏輯都過了一遍。一個訓練充分的模型在這兩個領域里其實直接替代了“概念抽象為符號與運算”這一步,也就是說,模型所知的圖片類型或語言排列方式被替換成了特征值,而訓練過程就是從圖像與文本里提取所有特征值及其合理的排列組合模式。此時,模型本身已經包含了這兩個領域里大部分已知與未知信息,但沒有具體的問題,模型本身就是個悶葫蘆。在這個訓練好的模型上進行引導性訓練,就可以直接回答具體的問題,這是所謂“遷移學習”的本質。在一組圖片種類足夠豐富的數(shù)據(jù)集上訓練的分類模型通常已經訓練好了提取特征值與其排列組合模式的框架,在新數(shù)據(jù)集上二次訓練收斂速度會很快。而終極的遷移學習模型本身是自己訓練自己,自己找到圖片或文字里所有可能模式,這個框架恰恰是注意力機制所擅長的。因此,圖像處理與自然語言處理模型很快就都抽象成了從高質量數(shù)據(jù)集里自訓練出大模型然后按照實際問題出應用的狀態(tài),例如ChatGPT本質就是GPT大模型在對話語境下訓練出來的一個應用。
我們現(xiàn)在反過頭看三部曲技術框架會發(fā)現(xiàn),人工智能真正的競爭力其實是在信息模式的窮舉,也就是前面說的“概念抽象為符號與運算”。當某一學科可訓練數(shù)據(jù)多到一定程度后,利用數(shù)據(jù)本身就可以訓練出一個學科知識模型。而最先突破的圖像與語言這兩塊的大模型恰好提供了模型里知識可視化與自然語言化的模塊,這樣理論上借助既有圖像與語言大模型,我們可以直接把包含現(xiàn)實問題信息的數(shù)據(jù)送到學科模型里,然后輸出那些現(xiàn)實問題里缺失的部分。例如我們去看alphafold 2,這個蛋白結構模型預測的訓練數(shù)據(jù)是已知蛋白質里氨基酸序列、蛋白結構數(shù)據(jù)、同源蛋白質序列及物理化學約束條件,這些基本就是跟蛋白結構相關所有的信息,當模型識別到了信息里的模式后,新的蛋白序列空間構型就可以較為準確的預測出來。
然而,這個論斷前提有兩個,一個是學科可訓練數(shù)據(jù)足夠多,另一個是有包含現(xiàn)實問題信息的數(shù)據(jù),這兩個前提在很多學科并不成熟。不同于圖像與文字,環(huán)境監(jiān)測數(shù)據(jù)在很多領域是長期缺失的,此時想訓練一種新發(fā)現(xiàn)污染物的環(huán)境行為模型最靠譜的辦法是去找那些物理化學性質接近的污染物做類比;而在另一些領域,雖然分析技術可以采集到大量的數(shù)據(jù),但這些數(shù)據(jù)可能不包括未知科學問題所需的信息,例如新冠初期我就看到有人申請了用頭發(fā)樣本通過機器學習來尋找新冠標記物的項目,這就屬于搞笑了,新冠從發(fā)病到痊愈或入土也就兩周,頭發(fā)兩周也就長幾毫米,且不說刮頭皮這事患者會不會同意,就算采集到了,頭發(fā)主要成分也是角蛋白,這玩意新冠病毒能改的可能性幾乎為零,不是說機器學習模型不行,而是實在沒法在南極找到北極熊。
因此,科研用人工智能最大的瓶頸在于分析技術是否能產生足夠的高質量數(shù)據(jù)。另一個更難,那就是如何把學科內概念抽象為符號與運算,也就是如何訓練出一個能有效提取學科已知未知概念的模型。對于第一個問題,當前常見的情況就是樣本數(shù)遠小于測量維度,經??匆娨粋€實驗就不到一百個樣品,每個樣品測幾千個蛋白或基因或代謝物,此時想訓練出靠譜模型就很難受。一般要么就是把基因蛋白代謝物對應到已知通路里搞個驗證,要么就是想辦法排除掉無關測量,前者不會發(fā)現(xiàn)任何新知識,后者則否定了組學研究的基礎。而當數(shù)據(jù)滿足條件后,第二個問題有效的解決方法應該是先想辦法把已知通路進行編碼,然后用實驗數(shù)據(jù)去更新通路的細節(jié),這個具體如何實現(xiàn)就需要模型設計者的巧思了。
也就是說,科研用人工智能難點不在模型通用性,而在于科學問題的針對性?,F(xiàn)在很多原本做人工智能的想把通用人工智能搞到具體學科里,我認為最多做個自然語言或可視化的交互接口,屬于外包裝,而且這也解決不了具體科學問題。更實際的應用路徑是具體學科的研究人員與模型工程師坐下來討論下如何合理的把學科概念抽象為符號與運算,這里要搞清楚學科里最基礎的概念單元及單元本身與交互的限制條件,然后用變形金剛也好,新設計構架也好,想辦法在數(shù)據(jù)充足的條件下自訓練出一個靠譜模型。當然,還有一種取巧的方法,那就是把已知學科數(shù)據(jù)轉換成圖像或自然語言,然后用圖像或自然語言既有的模型構架提取信息然后解決問題,但你得確認這個轉換過程不損失信息。
總結一下,現(xiàn)階段科研用人工智能火爆很大程度依賴圖像與自然語言處理方面模型的成功,想復制這個成功到其他領域,要針對性設計概念抽象為符號與運算的自訓練模型,否則很可能南轅北轍。





暫無評論,快來評論吧!