OpenAI 推出全新代理工具 Operator,探索可操作 GUI 的 AI 自動化新可能

OpenAI 今日發表了一款全新的研究預覽版本代理工具——Operator,該工具可透過網頁執行多項任務。Operator 的核心技術是「電腦使用代理」(Computer-Using Agent, CUA),該模型將 GPT-4o 的視覺能力與強化學習的進階推理相結合,讓 AI 能像人類一樣操作圖形使用者介面(GUI),而無需依賴特定的作業系統或網頁 API。

CUA 技術亮點

CUA 建立於多年的多模態理解與推理研究之上,透過整合進階的 GUI 感知能力與結構化的問題解決方法,它能將任務拆解為多步驟計畫,並在遇到挑戰時自我修正。此技術的發展標誌著 AI 向前邁進的重要一步,使其能夠靈活地使用人類日常操作的工具,為未來的應用開闢了更多可能性。

儘管 CUA 尚處於早期階段並有其局限性,但它已經在多項基準測試中取得突破性的成就。在 OSWorld 的完整電腦使用任務中,CUA 的成功率達到 38.1%;在 WebArena 與 WebVoyager 的網頁任務測試中,分別達到 58.1% 與 87%。這些結果顯示,CUA 在不同的環境中能夠使用相同的通用行動空間,展現其跨平台操作的潛力。

如何運作

CUA 的運作原理基於圖像像素資料解析,能透過虛擬滑鼠與鍵盤執行任務。它能夠完成多步驟的操作流程、處理錯誤並適應意外變化,例如填寫表單與瀏覽網站,無需使用特定 API。

CUA 的運作過程如下:

  1. 感知(Perception):透過螢幕截圖獲取系統狀態,提供即時畫面資訊。

  2. 推理(Reasoning):透過「思維鏈」方式推導下一步行動,綜合當前與過去的畫面與行動記錄。

  3. 行動(Action):執行點擊、滾動、輸入等操作,並在完成任務或需要使用者確認時暫停。

研究成果與未來展望

CUA 在 OSWorld、WebArena 與 WebVoyager 等基準測試中創下了新的標竿,展現了其在電腦使用與網頁操作的能力。然而,與人類相比,CUA 在複雜任務上的表現仍有提升空間。

在安全性方面,OpenAI 為 CUA 設計了多層防護措施,避免其被濫用。這些措施包括:

  • 拒絕執行有害或非法活動

  • 建立黑名單,阻擋訪問高風險網站

  • 即時監控與離線檢測

  • 針對高風險操作(如輸入敏感資訊)要求使用者確認

目前,CUA 以研究預覽的方式,透過 Operator 在 operator.chatgpt.com 提供給美國的 Pro 版用戶使用。OpenAI 期望透過收集真實世界的回饋,持續優化 CUA 的功能與安全性。

總結

CUA 代表著 AI 在多模態推理與自動化方面的重大進展,將 AI 從單純的語言處理擴展至全面的數位環境操作。未來,OpenAI 計畫將 CUA 引入 API,讓開發者能夠建立自己的電腦使用代理,擴展 AI 的應用邊界。

課程推薦

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

利用 AI 提升網站設計效率與 SEO 排名!了解如何透過 ChatGPT 等工具快速建立 HTML 架構,優化關鍵字與用戶體驗,讓網站更具競爭力。

輸入折扣碼 TC1533SL 還可以額外獲得 NT$500 優惠喔。

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

《PChome雜誌》攜手 5 位在 AI 領域的專業講師,打造上述 6 堂實用課程,教你學會時下最好用的 AI 工具,導入生成式 AI 來產製工作內容,改造並升級你的工作流程。

輸入折扣碼 ZERO2024 還可以額外獲得 NT$400 優惠喔。

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

本課程專為希望深入了解 HTML 並有效結合 SEO 策略的學員設計。我們將重點放在 HTML 的深度學習與應用上,同時穿插介紹如何透過搜索引擎優化提升網站能見度。透過即時互動式的直播教學,加上 ChatGPT 的輔助,您將學習到如何建立一個結構優良、美觀且符合 SEO 標準的網站。這不僅會提升網站的用戶體驗,還會大幅提高網站的搜索引擎排名,進而增加訪客流量和潛在客戶。
用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

在快速變遷的職場中,提升競爭力成為關鍵。透過引領潮流的AI技術,ChatGPT和Midjourney將助您勇攀高峰。無論您是AI新手還是專家,這個課程將引導您從入門到精通,解密AI的奧秘,並學習如何運用於職場。
GitHub Copilot AI 程式碼編輯工具應用實務班

GitHub Copilot AI 程式碼編輯工具應用實務班

讓學員瞭解有效地使用該工具來加速開發流程、提高程式碼品質和生產力。課程重點放在以 JavaScript 程式語言為例,介紹 Copilot 的基本原理、使用方法和最佳實踐。

輸入折扣碼 TC1456JA 還可以額外獲得 NT$500 優惠喔。

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

掌握Clipchamp AI的操作技巧,靈活運用Clipchamp AI進行影片編輯和創作,實現創意表達和傳播目的。

輸入折扣碼 TC1451JAN 還可以額外獲得 NT$500 優惠喔。

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

Looker Studio除了可協助使用者監控網站流量、廣告成效、選擇匯入資源的管道之外,還可以將數據資料多平台整合、數據報表即時更新、數據範本可重複套用的效益,透過自動化系統,將數據全部匯入同一個報表平台,是企業不可或缺的重要工具。

輸入折扣碼 TC1270JIA 還可以額外獲得 NT$500 優惠喔。

和我們交流

加入我們的社群,裡面會有一些技術的內容、有趣的技術梗,以及職缺的分享,歡迎和我們一起討論。