Fara:Microsoft 開源的電腦操作 AI,讓 Agent 真正幫你使用瀏覽器完成任務

Fara 是 Microsoft Research 推出的開源 Computer Use Agent(CUA,電腦操作代理)模型與執行框架,核心目標是讓 AI 不只是回答問題,而是真正能夠「操作電腦完成任務」。與一般大型語言模型專注於文字生成不同,Fara 被設計成能夠觀看螢幕截圖、理解網頁內容,並直接執行點擊、輸入、搜尋、瀏覽等操作,進而完成訂餐、找工作、規劃旅遊、資料查詢等多步驟任務。

從 AI Agent 發展趨勢來看,Fara 屬於近年快速崛起的「Computer Use Agent」類別。這類系統的目標不再只是提供建議,而是能像真人使用電腦一樣完成工作流程。例如使用者只需輸入一句「幫我找下週東京機票」或「幫我比較三家飯店價格」,Agent 就會自行打開網站、搜尋資訊、分析結果並執行後續操作。Fara 正是 Microsoft 在這個領域的重要開源成果之一。

Fara 的核心模型為 Fara-7B,這是 Microsoft 推出的首款 Agentic Small Language Model(SLM),模型規模僅 70 億參數,但專門針對電腦操作場景進行訓練。與許多需要數百億甚至上千億參數的大型代理系統相比,Fara-7B 強調以較小模型達到接近大型系統的 Computer Use 能力,同時具備更低的部署成本與本地執行潛力。

其運作方式與傳統聊天模型有明顯差異。Fara 的輸入包含:

  • 使用者目標(Task)
  • 當前螢幕截圖
  • 過往操作歷史
  • Agent 執行紀錄

模型會根據這些資訊推理下一步動作,例如:

  • 點擊按鈕
  • 輸入文字
  • 捲動畫面
  • 開啟連結
  • 搜尋資訊
  • 提交表單

它不是產生一段建議文字,而是直接輸出具體操作指令與座標位置。

從功能面來看,Fara 的主要特色可整理如下:

  • 專為 Computer Use Agent 設計
  • 使用螢幕截圖理解介面內容
  • 透過點擊座標控制網頁
  • 支援多步驟任務規劃與執行
  • 可本機部署或雲端執行
  • 開源模型權重與程式碼
  • 支援 vLLM、LM Studio、Ollama 等部署方式
  • 採用 MIT 授權釋出
  • 可與 Browser Automation 工作流整合
  • 支援高達 128K Context Length

這些設計讓 Fara 不只是模型,而是一個完整的 Agent 執行框架。

其中最值得關注的特色,是其訓練方式並非依靠大量真人操作資料,而是透過 Microsoft 提出的 FaraGen 系統自動產生訓練資料。由多個 Agent 組成的資料生成流程會自動建立任務、產生解法、驗證結果,再將成功案例納入訓練資料。這讓 Microsoft 能夠在缺乏大量真人電腦操作紀錄的情況下,快速建立大規模 Computer Use Dataset。

從技術架構來看,Fara 採用視覺語言模型(Vision-Language Model)路線。它不像傳統瀏覽器自動化工具直接讀取 DOM 結構,而是透過螢幕截圖理解介面內容。換句話說,它看到的是人類看到的畫面,而非網站底層程式碼。這種方法的優點是能適用於更多網站與應用程式,降低對特定網頁結構的依賴。

除了開源模型之外,Fara 也被整合進 Microsoft 的 Magentic-UI 生態中。官方文件指出,Magentic-UI 會搭配 Fara 作為瀏覽器操作模型,形成完整的 Agent 工作流程。這代表未來 Microsoft 的 Agent 系統將不只是聊天,而是逐漸發展成能夠執行實際工作的數位助手。

從使用情境來看,Fara 特別適合以下類型任務:

  • 網頁資料搜尋與整理
  • 飯店與機票比較
  • 線上表單填寫
  • 求職網站瀏覽
  • 商品比價
  • SaaS 系統操作
  • 網站測試自動化
  • 重複性瀏覽器工作流程

對於開發者而言,它也能作為 Browser Agent 或 Web Automation Agent 的基礎模型使用。

不過,Fara 目前仍屬於相對早期的 Computer Use Agent 技術。Microsoft 也在相關文件中強調,模型主要建議用於受控環境與低風險任務,涉及敏感帳號、金融交易或高風險操作時仍需人類監督。由於模型直接參與操作決策,因此安全性、權限管理與驗證機制仍是重要課題。

整體而言,Fara 不只是另一個開源語言模型,而是 Microsoft 對未來 Agent 時代的重要佈局。當生成式 AI 已逐漸從「回答問題」走向「完成任務」,Computer Use Agent 將成為下一波發展重點。Fara 透過小型化模型、開源權重與電腦操作能力,展示了 AI 從資訊提供者轉變為數位執行者的可能性,也讓更多開發者有機會在本機部署真正能操作電腦的 AI Agent。

如果您喜歡我們的網站,並且希望支持我們的工作,您可以考慮捐款。我們接受各種形式的捐款,包括一次性捐款和定期捐款。您的捐款將幫助我們維護和改進網站,並為用戶提供更好的體驗。

課程推薦

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

本課程從安裝部署、身份設定、技能安裝到實戰應用,帶你從零建立一個專屬的 AI 工作助手-OpenClaw 龍蝦,這個 AI 助手可以替你蒐集情報、摘要文件、整理郵件、生成內容、定時提醒,全部自動完成。

輸入折扣碼 TC1625FR 還可以額外獲得 NT$500 優惠喔。

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

如何只用文字說明提示就生成不同的圖像結果?亦或是會議上的語音檔轉文字?這是一堂通盤性、全面性的Google Gemini AI多媒體生成工具應用實戰!

輸入折扣碼 TC1609EW 還可以額外獲得 NT$500 優惠喔。

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

本門課將教你如何善用 AI 功能與工具,進行自動分析數據提供有幫助的建議與洞察,以及使用 AI 驅動的公式自動化計算。

輸入折扣碼 TC1615VU 還可以額外獲得 NT$500 優惠喔。

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

這門課程將帶你循序漸進掌握 n8n 的自動化技巧,從基礎認識與操作入門,到進階節點應用與流程控制,再到 Google 服務的整合實作,最後延伸至部署思維與 OpenAI API 的智慧化串接。

輸入折扣碼 TC1600UY 還可以額外獲得 NT$500 優惠喔。

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

利用 AI 提升網站設計效率與 SEO 排名!了解如何透過 ChatGPT 等工具快速建立 HTML 架構,優化關鍵字與用戶體驗,讓網站更具競爭力。

輸入折扣碼 TC1533SL 還可以額外獲得 NT$500 優惠喔。

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

《PChome雜誌》攜手 5 位在 AI 領域的專業講師,打造上述 6 堂實用課程,教你學會時下最好用的 AI 工具,導入生成式 AI 來產製工作內容,改造並升級你的工作流程。

輸入折扣碼 ZERO2024 還可以額外獲得 NT$400 優惠喔。

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

本課程專為希望深入了解 HTML 並有效結合 SEO 策略的學員設計。我們將重點放在 HTML 的深度學習與應用上,同時穿插介紹如何透過搜索引擎優化提升網站能見度。透過即時互動式的直播教學,加上 ChatGPT 的輔助,您將學習到如何建立一個結構優良、美觀且符合 SEO 標準的網站。這不僅會提升網站的用戶體驗,還會大幅提高網站的搜索引擎排名,進而增加訪客流量和潛在客戶。
用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

在快速變遷的職場中,提升競爭力成為關鍵。透過引領潮流的AI技術,ChatGPT和Midjourney將助您勇攀高峰。無論您是AI新手還是專家,這個課程將引導您從入門到精通,解密AI的奧秘,並學習如何運用於職場。
GitHub Copilot AI 程式碼編輯工具應用實務班

GitHub Copilot AI 程式碼編輯工具應用實務班

讓學員瞭解有效地使用該工具來加速開發流程、提高程式碼品質和生產力。課程重點放在以 JavaScript 程式語言為例,介紹 Copilot 的基本原理、使用方法和最佳實踐。

輸入折扣碼 TC1456JA 還可以額外獲得 NT$500 優惠喔。

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

掌握Clipchamp AI的操作技巧,靈活運用Clipchamp AI進行影片編輯和創作,實現創意表達和傳播目的。

輸入折扣碼 TC1451JAN 還可以額外獲得 NT$500 優惠喔。

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

Looker Studio除了可協助使用者監控網站流量、廣告成效、選擇匯入資源的管道之外,還可以將數據資料多平台整合、數據報表即時更新、數據範本可重複套用的效益,透過自動化系統,將數據全部匯入同一個報表平台,是企業不可或缺的重要工具。

輸入折扣碼 TC1270JIA 還可以額外獲得 NT$500 優惠喔。

和我們交流

加入我們的社群,裡面會有一些技術的內容、有趣的技術梗,以及職缺的分享,歡迎和我們一起討論。