Google 最新推出的 Gemini API File Search,等於是把 AI 世界裡最麻煩、最燒錢、也是最難搞的那一段——文件處理、向量化、與語意檢索 —— 全部幫你打包好了。
簡單來說,這是一顆專為中小企業設計的「RAG 核心引擎積木」,讓過去只有大公司才玩得起的 AI 知識庫,變成一個「插上就能用」的工具。
這篇文章將帶你一步步了解並實作 File Search(檔案搜尋) 功能,讓 Gemini 模型能根據你提供的文件資料,生成更準確、更有依據的回答。
一、什麼是 File Search?
File Search 是 Gemini API 的一項高階功能,用來讓模型能夠在自己的檔案中「找資料」。
它的運作概念如下:
-
你先建立一個「檔案搜尋商店(File Search Store)」。
-
將文件、PDF、程式碼、筆記等上傳到這個商店。
-
系統會自動將檔案內容分塊(chunking)、建立語意索引(embedding)。
-
當你發出查詢時,Gemini 會:
-
將你的問題轉換成語意向量;
-
在檔案中搜尋最相似的段落;
-
將找到的段落作為「背景資料」,生成更有根據的回覆。
-
這讓 AI 能「理解你的資料」,而非只靠模型內建知識回答。
二、適合應用的情境
File Search 的核心優勢是能讓 Gemini 直接查閱你的專屬文件,常見應用包括:
-
企業內部知識庫:上傳技術文件、產品手冊、流程說明,讓員工直接問 AI。
-
教學與學習輔助:將教材上傳,學生可用自然語言查詢知識點。
-
工程專案輔助:上傳專案說明、API 文件、程式碼,讓 AI 快速協助查詢。
-
客服與問答系統:整合 FAQ、政策文件,打造智慧回覆系統。
三、基本架構與流程

檔案搜尋的索引和查詢程序
以下是使用 File Search 的標準流程(以Python說明):
步驟 1:建立檔案搜尋商店
file_search_store = client.file_search_stores.create(
config={'display_name': 'my-file-store'}
)
步驟 2:上傳並匯入檔案
你有兩種方式:
方式 A:直接上傳並匯入
operation = client.file_search_stores.upload_to_file_search_store(
file='guide.pdf',
file_search_store_name=file_search_store.name,
config={'display_name': 'Project Guide'}
)
operation.result() # 等待匯入完成
方式 B:先上傳再匯入
sample_file = client.files.upload(
file='manual.txt',
config={'name': 'Manual'}
)
operation = client.file_search_stores.import_file(
file_search_store_name=file_search_store.name,
file_name=sample_file.name
)
operation.result()
步驟 3:設定分塊策略(可選)
你可以指定檔案被切成每塊多少 token,例如:
chunking_config = {
'white_space_config': {
'max_tokens_per_chunk': 200,
'max_overlap_tokens': 20
}
}
這樣 AI 會在搜尋時有更精準的語意比對。
步驟 4:在生成內容時啟用 File Search
讓 Gemini 在回答問題時參考檔案內容:
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="請說明這份文件的主要架構",
config={
"tools": {
"file_search": {
"file_search_store_names": [file_search_store.name]
}
}
}
)
print(response.text)
模型將會自動引用你上傳的資料來回答問題。
你也可以從回傳結果中查看 grounding_metadata,知道模型引用了哪一段文字。
四、功能亮點與優勢
| 功能 | 說明 |
|---|---|
| 語意搜尋 | 使用嵌入向量(embedding)進行語意比對,而非單純關鍵字搜尋。 |
| 多格式支援 | 支援 PDF、TXT、CSV、Word、Excel、LaTeX、程式碼檔等。 |
| 智慧引用 | 回覆中可顯示引用段落,方便查證內容來源。 |
| 多文件管理 | 可建立多個商店或用 metadata 進行篩選搜尋。 |
| 模型整合 | 可與 Gemini 生成 API 搭配,打造自有知識型 AI 助理。 |
五、費用與限制
| 項目 | 限制/說明 |
|---|---|
| 單一檔案上限 | 100 MB |
| 免費用戶總容量 | 1 GB |
| 付費等級容量 | 最高 1 TB(依等級不同) |
| 最佳效能建議 | 每個商店低於 20 GB |
| 嵌入費用 | 約 USD 0.15 / 100 萬 token |
| 檔案保留 | 上傳的原始檔案 48 小時後刪除,匯入資料會持續保存 |
Gemini API File Search 讓 AI 知識庫從「大企業專案」變成「人人能玩的積木」。
它不僅代表成本革命,更是 AI 應用進入全民化的分水嶺。
真正的問題已經不再是:
「做一個 AI 系統要花多少錢?」
而是:
「我手上的這些文件,可以幫我解決什麼問題?」
這將使得 AI 不再遙不可及,中小企業第一次能用上大企業等級的技術,來解決每天真實的營運痛點,對於這類專屬於企業的知識庫的開發有需求的,不妨趕快來試試看。
參考文章:檔案搜尋