了解一下midscene,Chrome插件方式使用
星星的小右右
發(fā)布于 云南 2025-06-25 · 1.5w瀏覽 3贊

1、MidScene介紹:

MidScene.js 是由字節(jié)跳動 web-infra 團(tuán)隊推出的一個開源 ai 自動化測試工具,基于多模態(tài)大模型,通過針對頁面的智能視覺解析來理解我們的自然語言指令,并進(jìn)一步完成自動化操作。

可以顯著降低編寫自動化測試腳本的復(fù)雜性,并更好適應(yīng)頁面結(jié)構(gòu)和元素的變化,使自動化測試腳本的穩(wěn)定性也有較大提升。

官網(wǎng)地址: https://midscenejs.com/

 

2、Chrome插件方式使用

通過Chrome的插件商店可以直接安裝 Midscene插件。

 

3、配置大模型

啟用插件后,需要配置使用的大模型。這里我們使用對token消耗比較少的阿里千問多模態(tài)模型qwen-vl-max-latest, 通過阿里云百煉平臺申請對應(yīng)的API Key即可。

完成申請后,在插件的模型配置界面中配置對應(yīng)的大模型參數(shù),qwen模型需要配置以下四個參數(shù)

OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"

OPENAI_API_KEY="sk- your API KEY"

MIDSCENE_MODEL_NAME="qwen-vl-max-latest"

MIDSCENE_USE_QWEN_VL=1 

 

4、操作瀏覽器

接下來就可以在插件界面中體驗Midscene對瀏覽器的操控了,這里主要支持四種行為:

  •  Action:對應(yīng)AI自動規(guī)劃操作,Midscene會自動規(guī)劃操作步驟并執(zhí)行。更智能,但速度較慢,效果依賴大模型的質(zhì)量。

  •  Query:直接從 UI 提取數(shù)據(jù),并借助多模態(tài) AI 的推理能力,實現(xiàn)智能提取

  •  Assert:通過自然語言描述一個斷言條件,讓 AI 判斷該條件是否為真

  • Tap:對應(yīng)頁面點擊的即時操作,Midscene會直接執(zhí)行,大模型只負(fù)責(zé)底層如元素定位等任務(wù)。效率更高,適合已確定要執(zhí)行的操作時使用

可以用接近自然語言的AI提示詞輸入提示詞指令,針對不同的行為模式,插件會驅(qū)動瀏覽器完成不同的操作,并反饋操作結(jié)果。

 

具體執(zhí)行過程也可參見下方視頻演示:

星星的小右右
吃喝玩樂
瀏覽 1.5w
3
相關(guān)推薦
最新評論
贊過的人 3
評論加載中...

暫無評論,快來評論吧!