最近到處都在討論「智能體」(Agents),但最重要的一次智能體突破卻幾乎無人察覺。
2025年1月,OpenAI發(fā)布了名為 DeepResearch 的O3模型變種,專門用于網(wǎng)頁和文檔搜索。得益于在瀏覽任務(wù)上的強化學(xué)習(xí)訓(xùn)練,DeepResearch具備了制定搜索策略、交叉核對信息源、甚至利用反饋獲得深層次知識的能力。無獨有偶,Anthropic的Claude Sonnet 3.7也成功地將同樣的強化學(xué)習(xí)方法應(yīng)用于代碼領(lǐng)域,在復(fù)雜的編程任務(wù)中展現(xiàn)出超越以往所有模型編排系統(tǒng)的能力。
正如William Brown在演講中所說的:「LLM智能體能夠完成長時間、多步驟的任務(wù)了?!?/div>
這一進展促使我們重新思考:什么才是真正的LLM智能體?去年12月,Anthropic提出了一個全新的定義:「LLM智能體能動態(tài)地決定自己的執(zhí)行流程和工具使用方式,并自主控制任務(wù)的完成過程?!?/div>
與之相對,目前更為普遍的所謂智能體實際上都是工作流系統(tǒng)(workflows),也就是通過預(yù)設(shè)的代碼和規(guī)則來協(xié)調(diào)LLM和工具的系統(tǒng)。例如最近備受關(guān)注的Manus AI,經(jīng)過我的親自測試后發(fā)現(xiàn),它其實仍存在明顯缺陷,這些缺陷早在AutoGPT時代就已經(jīng)很明顯了,特別是在搜索方面表現(xiàn)更差:
- 不能有效制定計劃,經(jīng)常中途卡殼;
- 不能記憶內(nèi)容,無法處理超過5-10分鐘的任務(wù);
- 無法長期有效執(zhí)行任務(wù),容易因連續(xù)的小錯誤最終徹底失敗。
因此,這篇文章提出一個更嚴謹?shù)摹窵LM智能體」定義,試圖結(jié)合有限的官方信息、開放研究進展以及我個人的一些推測,解釋智能體究竟是什么、它們將如何改變世界。
---
LLM智能體的「苦澀教訓(xùn)」
傳統(tǒng)的智能體與基礎(chǔ)大語言模型(base LLM)完全不同。
在經(jīng)典的強化學(xué)習(xí)中,智能體生活在有限制的環(huán)境里,就像在迷宮里行走。智能體的每個動作都有物理或規(guī)則上的約束。隨著訓(xùn)練,它們會逐漸記住路徑、總結(jié)經(jīng)驗,并探索最佳策略。這一過程被稱為「搜索」(search),類似于我們?nèi)粘J褂盟阉饕娴狞c擊行為。去年曾經(jīng)熱議的OpenAI Q-star算法,據(jù)傳就是從1968年著名的搜索算法A-star衍生出來的。
然而,大語言模型(LLM)的基礎(chǔ)邏輯恰恰相反:
- 智能體能記住環(huán)境,但基礎(chǔ)LLM不能,它們只能處理當前窗口內(nèi)的信息;
- 智能體受現(xiàn)實條件限制,但基礎(chǔ)LLM生成的是概率最高的文本,隨時可能「跑題」;
- 智能體能規(guī)劃長期策略,基礎(chǔ)LLM卻只能做好單步推理,面對多步推理任務(wù)很快就會「超載」。
目前,大部分「LLM智能體」的做法都是利用預(yù)定義的提示詞(prompt)和規(guī)則來引導(dǎo)模型。然而,這種方法注定要遇到「苦澀教訓(xùn)」(Bitter Lesson)。所謂苦澀教訓(xùn)是指,人們經(jīng)常傾向于將自己的知識硬編碼進系統(tǒng)中,短期內(nèi)效果很好,但長期卻嚴重限制了系統(tǒng)的發(fā)展。真正的突破總是來自搜索與學(xué)習(xí)能力的提升,而非人為規(guī)則的增加。
這就是為什么類似Manus AI這類工作流系統(tǒng)無法順利地訂機票或教你徒手打虎——它們本質(zhì)上是被苦澀教訓(xùn)咬了一口??刻崾驹~和規(guī)則無法持續(xù)擴展,你必須從根本上設(shè)計能夠真正搜索、規(guī)劃、行動的系統(tǒng)。
---
RL+推理:LLM智能體的制勝秘訣
真正的LLM智能體,應(yīng)該長什么樣呢?官方信息雖然少,但從現(xiàn)有的研究中可以歸納出一些共同特征:
1. 強化學(xué)習(xí)(RL)
LLM智能體采用強化學(xué)習(xí)進行訓(xùn)練,類似傳統(tǒng)的游戲智能體:定義一個目標(獎勵),再訓(xùn)練模型通過反復(fù)嘗試獲得這個獎勵。
2. 草稿模式(Drafts)
模型并非逐字逐句進行訓(xùn)練,而是一次生成一整段文字(draft),再整體進行評估和反饋,從而加強模型的推理能力。
3. 結(jié)構(gòu)化輸出(rubric)
模型的輸出被限定成明確的結(jié)構(gòu),以便于快速、準確地進行獎勵驗證。
4. 多步訓(xùn)練(如DeepSeek提出的GRPO算法)
模型不是單步訓(xùn)練,而是連續(xù)多步訓(xùn)練。例如搜索任務(wù)中,模型會不斷調(diào)整策略、回溯、重新搜索等,逐步提高效率。
上述過程能在不耗費過多計算資源的情況下實現(xiàn),從而逐漸走向大眾化,這將成為未來LLM智能體爆發(fā)的基礎(chǔ)。
---
等等,這東西能規(guī)?;瘑??
然而,要真正實現(xiàn)像DeepResearch這樣的搜索智能體,還有一個大問題:我們根本沒有足夠的訓(xùn)練數(shù)據(jù)!
過去搜索模型往往只能靠歷史數(shù)據(jù),而現(xiàn)有的公開數(shù)據(jù)集中,幾乎找不到真正體現(xiàn)用戶規(guī)劃和搜索行為的數(shù)據(jù)(如點擊軌跡)。類似谷歌用戶搜索歷史這種數(shù)據(jù),幾乎只能從大公司獲得,但這些數(shù)據(jù)幾乎是不對外開放的。
目前能想到的解決方案是:用模擬方式創(chuàng)造數(shù)據(jù)。我們可以把互聯(lián)網(wǎng)內(nèi)容包裝成一個虛擬的「網(wǎng)絡(luò)模擬器」,讓模型在里面反復(fù)嘗試搜索目標,不斷優(yōu)化搜索路徑。這種訓(xùn)練過程耗費巨大,但可以通過技術(shù)優(yōu)化來減輕負擔。
我推測OpenAI和Anthropic這樣的公司,可能就是用類似方法在訓(xùn)練DeepResearch這樣的模型:
- 創(chuàng)建虛擬的網(wǎng)絡(luò)環(huán)境,訓(xùn)練模型自由地進行搜索;
- 先用輕量的監(jiān)督微調(diào)(SFT)進行預(yù)熱;
- 再用強化學(xué)習(xí)多步訓(xùn)練,不斷提高搜索策略;
- 最后再訓(xùn)練模型更好地整理輸出結(jié)果。
---
真正的LLM智能體,根本不需要「提示」
當真正的LLM智能體出現(xiàn)之后,它會和現(xiàn)在基于提示詞和規(guī)則的系統(tǒng)完全不同。回到Anthropic的定義:
> LLM智能體動態(tài)地決定自己的流程和工具用法,完全自主。
以搜索任務(wù)為例:
- 模型自動分析用戶需求,如果不明確,會主動詢問;
- 模型自主選擇最佳的信息源或API接口;
- 模型會自己規(guī)劃搜索路徑,能在走錯路時主動調(diào)整;
- 所有過程都有記錄,提升了可解釋性和信任度。
LLM智能體可以直接操縱現(xiàn)有的搜索基礎(chǔ)設(shè)施,用戶再也不用特意學(xué)習(xí)如何使用「提示詞」了。
這種方法同樣可以延伸到金融、網(wǎng)絡(luò)運維等多個領(lǐng)域:未來,一個真正的智能體不再是個花哨的AI助手,而是一個懂你需求、主動幫你完成任務(wù)的真正代理。
---
2025:智能體元年?
目前,只有少數(shù)幾家大公司有能力開發(fā)出真正的LLM智能體。雖然短期內(nèi)這樣的技術(shù)可能仍集中在巨頭手里,但長遠來看,這種局面必須被打破。
我不喜歡過度炒作新技術(shù),但LLM智能體的爆發(fā)力不容忽視。2025年會是智能體真正崛起的一年嗎?答案還要看我們?nèi)绾涡袆印?/div>
讓我們拭目以待!
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
chenxiaoyun
半自動人工智障點贊機
瀏覽 1448
相關(guān)推薦





暫無評論,快來評論吧!