一、什么是 Agentic Document Workflows(ADW)?
傳統(tǒng)的基于 RAG(檢索增強生成)的問答方式雖然可以讓 LLMs 理解文檔,但遠遠無法滿足企業(yè)對自動化處理文檔的需求。ADW 是一種參考架構(gòu),用于構(gòu)建可自動執(zhí)行、結(jié)構(gòu)化且可審計的企業(yè)級智能文檔工作流。
ADW 主要應(yīng)對的是企業(yè)中常見的文檔格式(如 PDF、PPT、Excel 等),通過 LLM 的能力,突破了以往“僅供人類閱讀”的自動化瓶頸,實現(xiàn)真正的 智能文檔處理流程。
二、ADW 的四個核心階段
每個 ADW 系統(tǒng)由以下四個階段組成,彼此通過“類型化消息(如 Pydantic 模型)”銜接,確保流程清晰、錯誤可控,并支持人工審核介入:
階段:Parse(解析)
主要職責:將原始文檔轉(zhuǎn)為結(jié)構(gòu)化對象,比如文本塊、表格、圖片等。
常見技術(shù):LlamaParse、多模態(tài) OCR、自定義抽取器。
階段:Retrieve(檢索)
主要職責:獲取與當前任務(wù)相關(guān)的上下文內(nèi)容,并能追溯信息來源。
常見技術(shù):混合檢索(BM25 + 向量檢索)、元數(shù)據(jù)過濾、遞歸查詢。
階段:Reason(推理)
主要職責:應(yīng)用策略規(guī)則,進行多步驟邏輯處理,同時保持上下文狀態(tài)。
常見技術(shù):ReAct 方法、函數(shù)調(diào)用循環(huán)、聲明式工作流 DSL、保護機制(guardrails)。
階段:Act(執(zhí)行)
主要職責:將推理結(jié)果提交到下游系統(tǒng),同時輸出審計日志以供追蹤。
常見技術(shù):Webhook 調(diào)用、SQL 數(shù)據(jù)庫寫入、ERP/CRM 接口集成、消息推送機器人。
每一步之間的“類型化數(shù)據(jù)傳遞”是 ADW 與傳統(tǒng) RAG/Agent 最大的不同,支持更嚴謹?shù)腻e誤處理、重試機制與人工介入。
三、構(gòu)建 ADW 所需的四大基礎(chǔ)組件
-
Parsing Engine(解析引擎):能識別復雜布局、表格、圖像等內(nèi)容,生成結(jié)構(gòu)化數(shù)據(jù)。
-
Knowledge Layer(知識層):支持檢索和索引,讓代理(Agent)具備訪問企業(yè)數(shù)據(jù)的能力。
-
Agent Orchestration(代理編排):融合確定性邏輯與 LLM 靈活推理的機制,確保流程受控。
-
Action Connectors(動作連接器):與 ERP、CRM、數(shù)據(jù)庫等企業(yè)系統(tǒng)集成,實現(xiàn)任務(wù)自動落地。
在整個體系中,**Human-in-the-Loop(人工審查)**可在關(guān)鍵節(jié)點提供反饋、審核與干預(yù),提升流程可靠性。
四、典型應(yīng)用場景示例:合同風險分析
以實際客戶案例為例:自動分析供應(yīng)商合同中的風險條款并推送到 CLM 系統(tǒng)。
階段:解析
行動:使用 LlamaParse 將 PDF 轉(zhuǎn)換為 Markdown 格式和包含段落信息的 JSON 列表。
輸出數(shù)據(jù):clauses[],包含條款 ID、頁碼和原文內(nèi)容。
可選人工介入:可以對每條條款進行審查。
階段:檢索
行動:將每條條款與風險策略庫中的禁用或可議條款進行匹配。
輸出數(shù)據(jù):matches[],對應(yīng)條款 ID 和匹配到的風險規(guī)則及其評分。
可選人工介入:對匹配結(jié)果進行校驗。
階段:推理
行動:對風險等級、問題條款和建議的替換語言進行匯總。
輸出數(shù)據(jù):red_flag_report,以 JSON 結(jié)構(gòu)形式呈現(xiàn)。
可選人工介入:審核匯總報告。
階段:執(zhí)行
行動:通知合同生命周期管理(CLM)系統(tǒng),并通過 Slack 推送通知。
輸出數(shù)據(jù):tool_call,包含任務(wù) ID 和輸入信息。
可選人工介入:審核并簽署執(zhí)行任務(wù)。







暫無評論,快來評論吧!