Codex 使用電腦的三種方式

目前 Codex 提供三種不同的電腦操作方式:Computer Use(電腦控制)Chrome 擴充功能以及內建 Browser(瀏覽器)。三者功能有部分重疊,因此容易讓人混淆,但實際上各自適合不同的使用情境。

簡單來說,如果有現成的 API、外掛程式(Plugin)或 MCP 工具可用,通常優先使用這些結構化工具會更有效率。例如透過 Slack 外掛直接讀取討論串,會比模擬滑鼠點擊 Slack 網頁來得快速且精準;GitHub 外掛執行操作,也比直接控制 GitHub 網站更容易檢查與追蹤。視覺化控制最適合用於結構化工具無法涵蓋的最後一哩路。

Computer Use:直接操作電腦

Computer Use 是功能最完整的操作方式,能讓 Codex 透過視覺辨識與介面操作來控制 macOS 或 Windows 上的應用程式,包括視窗、選單、鍵盤輸入與剪貼簿等功能。

由於它必須像真人一樣觀看畫面、判斷位置、點擊操作並等待介面回應,因此速度通常比直接呼叫 API 慢。然而,它最大的優勢是即使沒有 API 的軟體,也能進行操作。

在 macOS 上,Computer Use 還能在背景執行工作,不一定會干擾使用者當前的操作。它可以控制許多桌面應用程式,例如 Spotify、Xcode、系統設定、iOS 模擬器,甚至透過 iPhone Mirroring 操作手機畫面。若工作流程涉及多個應用程式,它也能在不同程式之間切換完成任務。

適合使用 Computer Use 的情境包括:

  • 桌面應用程式操作(如 Spotify、財務軟體)
  • iOS 模擬器或 iPhone Mirroring
  • 系統與應用程式設定調整
  • 沒有 API 的資料來源
  • 跨多個應用程式的工作流程
  • 現有工具缺少某個特定功能時的補足方案

安裝方式是在 Codex 的「Settings → Computer Use」中進行安裝,使用時只需在提示詞中提及 @Computer 即可。

Chrome:使用已登入的瀏覽器環境

Chrome 擴充功能讓 Codex 可以使用你目前登入中的 Chrome 瀏覽器環境,包括 Cookie、帳號登入狀態、瀏覽器設定以及已開啟的分頁。

這非常適合需要身份驗證的工作,例如:

  • Gmail
  • LinkedIn
  • Salesforce
  • 客服後台系統
  • 企業內部網站
  • 已登入的研究與資料查詢
  • 依賴瀏覽器擴充功能的表單或系統

Chrome 模式最大的優勢在於能同時理解多個分頁之間的關聯。它不只是記錄畫面上的位置,而是真正理解瀏覽器中的工作流程,因此能在不同分頁之間讀取資訊、比較內容並持續執行任務。

例如:

  • 比對客戶資料與客服工單
  • 檢查 Gmail 郵件內容
  • 查看 LinkedIn 資訊
  • 長期追蹤社群媒體私訊與通知
  • 處理已登入系統中的工作流程

如果整個任務都發生在瀏覽器內,而且需要登入身分,Chrome 通常會比 Computer Use 更合適。

Browser:適合開發與測試網站

內建 Browser 是一個直接存在於 Codex 對話中的瀏覽器,使用者與 Codex 可以共同查看同一個網頁畫面,因此特別適合網站開發與除錯工作。

常見用途包括:

  • 本機開發伺服器(localhost)
  • HTML 預覽頁面
  • 不需登入的公開網站
  • 重現前端 Bug
  • 響應式設計測試
  • UI 與版面設計審查

Browser 最大的特點是隔離性。它不會使用你的 Chrome 帳號、Cookie、擴充功能或現有分頁,因此非常適合作為安全的測試環境。

例如:

  • 測試 Vite、React、Vue 專案
  • 修正版面溢位問題
  • 驗證手機版與桌面版畫面
  • 調整字體、間距與色彩配置
  • 針對頁面元素進行標註與評論

在設計流程中,開發者可以直接在畫面上標註問題,例如:

  • 「這裡的資訊層級不對」
  • 「這個按鈕空間太小」
  • 「整體看起來太像卡片設計」
  • 「這套字體比例應該統一」

Codex 會根據標註內容修改程式碼並重新開啟頁面進行驗證,形成快速迭代的設計流程。

Appshots:快速提供畫面上下文

Appshot 並不是第四種控制方式,而是一種快速將目前畫面內容提供給 Codex 的方法。

在 macOS 上,可以按下指定快捷鍵擷取目前最前方視窗的內容。Codex 會取得該畫面的截圖以及可讀取的文字資訊。

可以用來分享:

  • 錯誤訊息
  • 電子郵件內容
  • UI 設計稿
  • 系統設定頁面
  • 不熟悉的操作介面

Appshot 的用途是讓 Codex 理解你目前正在看的內容,而不需要立即授權它控制該程式。

情境 建議使用
操作桌面應用程式 Computer Use
修改系統設定 Computer Use
控制 iPhone Mirroring 或模擬器 Computer Use
使用 Gmail、LinkedIn 等已登入網站 Chrome
處理企業內部系統 Chrome
多分頁研究與資料比對 Chrome
本機網站開發 Browser
前端 UI 除錯 Browser
響應式版面測試 Browser
提供目前畫面給 Codex 分析 Appshot

 

簡單記憶方式:

  • Appshot:告訴 Codex「我正在看什麼」
  • Browser:操作開發中的網站
  • Chrome:操作你已登入的瀏覽器環境
  • Computer Use:直接操作整台電腦

這也是官方建議的原則:優先使用範圍最小、權限最少的工具,只有在需要時才提升到更高權限的操作方式。

原文整理自 X Three Ways Codex Can Use a Computer

如果您喜歡我們的網站,並且希望支持我們的工作,您可以考慮捐款。我們接受各種形式的捐款,包括一次性捐款和定期捐款。您的捐款將幫助我們維護和改進網站,並為用戶提供更好的體驗。

課程推薦

AI虛擬角色生成實戰班

AI虛擬角色生成實戰班

本課程將帶你從 AI 虛擬角色的概念出發,認識 AI Persona 的生成流程與應用方式,學會打造專屬自己的 AI 分身。課程中會學習 Prompt 提示詞撰寫、真人感人像生成、固定角色模板建立,並延伸出同一角色的多場景、多服裝與多情境照片。

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

本課程從安裝部署、身份設定、技能安裝到實戰應用,帶你從零建立一個專屬的 AI 工作助手-OpenClaw 龍蝦,這個 AI 助手可以替你蒐集情報、摘要文件、整理郵件、生成內容、定時提醒,全部自動完成。

輸入折扣碼 TC1625FR 還可以額外獲得 NT$500 優惠喔。

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

如何只用文字說明提示就生成不同的圖像結果?亦或是會議上的語音檔轉文字?這是一堂通盤性、全面性的Google Gemini AI多媒體生成工具應用實戰!

輸入折扣碼 TC1609EW 還可以額外獲得 NT$500 優惠喔。

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

本門課將教你如何善用 AI 功能與工具,進行自動分析數據提供有幫助的建議與洞察,以及使用 AI 驅動的公式自動化計算。

輸入折扣碼 TC1615VU 還可以額外獲得 NT$500 優惠喔。

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

這門課程將帶你循序漸進掌握 n8n 的自動化技巧,從基礎認識與操作入門,到進階節點應用與流程控制,再到 Google 服務的整合實作,最後延伸至部署思維與 OpenAI API 的智慧化串接。

輸入折扣碼 TC1600UY 還可以額外獲得 NT$500 優惠喔。

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

利用 AI 提升網站設計效率與 SEO 排名!了解如何透過 ChatGPT 等工具快速建立 HTML 架構,優化關鍵字與用戶體驗,讓網站更具競爭力。

輸入折扣碼 TC1533SL 還可以額外獲得 NT$500 優惠喔。

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

《PChome雜誌》攜手 5 位在 AI 領域的專業講師,打造上述 6 堂實用課程,教你學會時下最好用的 AI 工具,導入生成式 AI 來產製工作內容,改造並升級你的工作流程。

輸入折扣碼 ZERO2024 還可以額外獲得 NT$400 優惠喔。

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

本課程專為希望深入了解 HTML 並有效結合 SEO 策略的學員設計。我們將重點放在 HTML 的深度學習與應用上,同時穿插介紹如何透過搜索引擎優化提升網站能見度。透過即時互動式的直播教學,加上 ChatGPT 的輔助,您將學習到如何建立一個結構優良、美觀且符合 SEO 標準的網站。這不僅會提升網站的用戶體驗,還會大幅提高網站的搜索引擎排名,進而增加訪客流量和潛在客戶。
用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

在快速變遷的職場中,提升競爭力成為關鍵。透過引領潮流的AI技術,ChatGPT和Midjourney將助您勇攀高峰。無論您是AI新手還是專家,這個課程將引導您從入門到精通,解密AI的奧秘,並學習如何運用於職場。
GitHub Copilot AI 程式碼編輯工具應用實務班

GitHub Copilot AI 程式碼編輯工具應用實務班

讓學員瞭解有效地使用該工具來加速開發流程、提高程式碼品質和生產力。課程重點放在以 JavaScript 程式語言為例,介紹 Copilot 的基本原理、使用方法和最佳實踐。

輸入折扣碼 TC1456JA 還可以額外獲得 NT$500 優惠喔。

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

掌握Clipchamp AI的操作技巧,靈活運用Clipchamp AI進行影片編輯和創作,實現創意表達和傳播目的。

輸入折扣碼 TC1451JAN 還可以額外獲得 NT$500 優惠喔。

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

Looker Studio除了可協助使用者監控網站流量、廣告成效、選擇匯入資源的管道之外,還可以將數據資料多平台整合、數據報表即時更新、數據範本可重複套用的效益,透過自動化系統,將數據全部匯入同一個報表平台,是企業不可或缺的重要工具。

輸入折扣碼 TC1270JIA 還可以額外獲得 NT$500 優惠喔。

和我們交流

加入我們的社群,裡面會有一些技術的內容、有趣的技術梗,以及職缺的分享,歡迎和我們一起討論。