OpenAI 今日發表了一款全新的研究預覽版本代理工具——Operator,該工具可透過網頁執行多項任務。Operator 的核心技術是「電腦使用代理」(Computer-Using Agent, CUA),該模型將 GPT-4o 的視覺能力與強化學習的進階推理相結合,讓 AI 能像人類一樣操作圖形使用者介面(GUI),而無需依賴特定的作業系統或網頁 API。
CUA 技術亮點
CUA 建立於多年的多模態理解與推理研究之上,透過整合進階的 GUI 感知能力與結構化的問題解決方法,它能將任務拆解為多步驟計畫,並在遇到挑戰時自我修正。此技術的發展標誌著 AI 向前邁進的重要一步,使其能夠靈活地使用人類日常操作的工具,為未來的應用開闢了更多可能性。
儘管 CUA 尚處於早期階段並有其局限性,但它已經在多項基準測試中取得突破性的成就。在 OSWorld 的完整電腦使用任務中,CUA 的成功率達到 38.1%;在 WebArena 與 WebVoyager 的網頁任務測試中,分別達到 58.1% 與 87%。這些結果顯示,CUA 在不同的環境中能夠使用相同的通用行動空間,展現其跨平台操作的潛力。
如何運作
CUA 的運作原理基於圖像像素資料解析,能透過虛擬滑鼠與鍵盤執行任務。它能夠完成多步驟的操作流程、處理錯誤並適應意外變化,例如填寫表單與瀏覽網站,無需使用特定 API。
CUA 的運作過程如下:
-
感知(Perception):透過螢幕截圖獲取系統狀態,提供即時畫面資訊。
-
推理(Reasoning):透過「思維鏈」方式推導下一步行動,綜合當前與過去的畫面與行動記錄。
-
行動(Action):執行點擊、滾動、輸入等操作,並在完成任務或需要使用者確認時暫停。
研究成果與未來展望
CUA 在 OSWorld、WebArena 與 WebVoyager 等基準測試中創下了新的標竿,展現了其在電腦使用與網頁操作的能力。然而,與人類相比,CUA 在複雜任務上的表現仍有提升空間。
在安全性方面,OpenAI 為 CUA 設計了多層防護措施,避免其被濫用。這些措施包括:
-
拒絕執行有害或非法活動
-
建立黑名單,阻擋訪問高風險網站
-
即時監控與離線檢測
-
針對高風險操作(如輸入敏感資訊)要求使用者確認
目前,CUA 以研究預覽的方式,透過 Operator 在 operator.chatgpt.com 提供給美國的 Pro 版用戶使用。OpenAI 期望透過收集真實世界的回饋,持續優化 CUA 的功能與安全性。
總結
CUA 代表著 AI 在多模態推理與自動化方面的重大進展,將 AI 從單純的語言處理擴展至全面的數位環境操作。未來,OpenAI 計畫將 CUA 引入 API,讓開發者能夠建立自己的電腦使用代理,擴展 AI 的應用邊界。