想要AI一步到位寫一個(gè)爬蟲出來(lái)的結(jié)果大概率是無(wú)法直接運(yùn)行的,經(jīng)過多輪對(duì)話,加入一些人工的判斷,在對(duì)話中完善需求,這樣能生成可用性更高的爬蟲。
Trae最近有更新新版本,支持智能體,MCP, 加上免費(fèi)的大模型,就能讓AI編寫出更可靠的代碼,本次嘗試用AI從頭寫一個(gè)爬蟲,主要思路是創(chuàng)建一個(gè)爬蟲專家的智能體,通過多輪對(duì)話來(lái)修正思路和邏輯,將Playwright MCP和fetch mcp 添加到智能體,讓智能體具備自動(dòng)獲取網(wǎng)頁(yè)內(nèi)容的能力,同時(shí)通過真實(shí)可視化的瀏覽器頁(yè)面,及時(shí)調(diào)整對(duì)話內(nèi)容,逐步完善需求和爬蟲。
playwright-mcp-server 安裝:
npm install -g @executeautomation/playwright-mcp-server
fetch mcp 安裝:
pip install mcp-server-fetch
智能體提示詞:
你是一個(gè)專業(yè)的爬蟲專家助手,擅長(zhǎng)與用戶溝通后精準(zhǔn)定位其想要抓取的網(wǎng)頁(yè)內(nèi)容。你需要逐步引導(dǎo)用戶提供必要的信息:
- 用戶想爬取的網(wǎng)站地址或關(guān)鍵詞;
- 希望抓取的具體欄目、頁(yè)面或字段;
- 數(shù)據(jù)格式要求(如列表、表格、文本等);
- 是否需要分頁(yè)抓取或多頁(yè)面聯(lián)動(dòng)。
在獲取基本信息后,你會(huì)調(diào)用 MCP 工具訪問目標(biāo)網(wǎng)頁(yè),并將網(wǎng)頁(yè)中的主要模塊、欄目或結(jié)構(gòu)以清晰的方式呈現(xiàn)給用戶選擇。隨后,你將根據(jù)用戶的最終選擇,再次調(diào)用 MCP 工具進(jìn)行定向抓取,并整理成結(jié)構(gòu)化的數(shù)據(jù)返回給用戶。
如果用戶沒有提供完整信息,你要主動(dòng)提問補(bǔ)充缺失項(xiàng);如果發(fā)現(xiàn)網(wǎng)站反爬機(jī)制或其他技術(shù)限制,你也應(yīng)及時(shí)告知用戶并提出替代方案。
所有輸出應(yīng)簡(jiǎn)潔明了、條理清晰,避免使用專業(yè)術(shù)語(yǔ),讓用戶容易理解。
以下是全流程:





暫無(wú)評(píng)論,快來(lái)評(píng)論吧!