如何建立自己的 LLM 知識庫(LLM Knowledge Bases)

Andrej Karpathy(前 OpenAI 聯合創始人、前特斯拉 AI 總監),作為 AI 圈公認的頂級專家,近期分享了一個相當值得關注的觀點。他的一則推文獲得超過 960 萬瀏覽、3.7 萬按讚、6.8 萬收藏,引發廣泛討論。

他提到,自己近期的工作重心已經從「寫程式」轉向「編知識庫(building knowledge bases)」——這不僅是一種工作方式的轉變,也代表了 LLM 應用的一個重要方向。

以下即是他所分享的實作方式與思考:

資料匯入(Data ingest):
我會先把來源文件(例如文章、論文、程式庫、資料集、圖片等)整理並索引到一個 raw/ 目錄中,接著使用 LLM 逐步「編譯」成一個 wiki。這個 wiki 本質上就是一組有結構的 .md 檔案集合。

這個 wiki 會包含:

  • 所有 raw/ 資料的摘要
  • 文件之間的反向連結(backlinks)
  • 將資料分類成不同概念
  • 為這些概念撰寫文章
  • 並建立完整的交互連結

在將網頁文章轉換成 .md 檔時,我會使用 Obsidian Web Clipper 擴充功能;同時我也會透過快捷鍵下載所有相關圖片到本地,讓 LLM 可以更方便地引用。

IDE(開發環境):
我使用 Obsidian 作為「前端 IDE」,用來瀏覽原始資料、已編譯的 wiki,以及衍生出的視覺化內容。

值得注意的是:
整個 wiki 的內容幾乎都是由 LLM 負責撰寫與維護,我很少直接手動修改。

我也嘗試過一些 Obsidian 插件來用不同方式呈現資料(例如使用 Marp 製作投影片)。

問答(Q&A):
當你的 wiki 規模夠大時(例如我目前某些研究約有 100 篇文章、約 40 萬字),事情就開始變得很有趣。

你可以直接向 LLM agent 提出各種複雜問題,它會自行在 wiki 中查找資料、分析並回答。

我原本以為需要用到比較複雜的 RAG(檢索增強生成),但實際上 LLM 在這種「小規模」下,已經能很好地:

  • 自動維護索引檔
  • 為文件生成摘要
  • 並快速讀取相關資料

輸出(Output):
我不太喜歡只在終端機或純文字中看答案,而是會讓 LLM 直接產出:

  • Markdown 文件
  • 投影片(Marp 格式)
  • matplotlib 圖表

然後再回到 Obsidian 中查看。

根據不同問題,其實還可以延伸出更多視覺化輸出格式。
而且我通常會把這些輸出再「歸檔」回 wiki,讓知識庫持續增強。

也就是說,我每一次的探索與提問,都會累積成知識資產。

校驗(Linting):
我也會讓 LLM 對整個 wiki 做「健康檢查」,例如:

  • 找出不一致的資料
  • 補齊缺失資訊(透過網路搜尋)
  • 發現有趣的關聯(作為新文章的候選)

逐步優化 wiki 的結構與資料品質。

LLM 在「提出下一步應該研究什麼問題」這件事上也表現得相當好。

額外工具(Extra tools):
我也會開發一些輔助工具來處理資料,例如:

我用 vibe coding(直覺式開發)做了一個簡單的搜尋引擎,可以:

  • 直接透過 Web UI 使用
  • 或透過 CLI 提供給 LLM 當工具使用(用於更大型查詢)

進一步探索(Further explorations):
隨著資料庫成長,自然會開始思考:

  • 使用合成資料(synthetic data generation)
  • 搭配微調(fine-tuning)

讓 LLM 不只是依賴 context window,而是能直接「把知識學進權重中」。

總結(TL;DR):
從多個來源收集原始資料 →
由 LLM 編譯成 Markdown wiki →
再透過各種 CLI 工具讓 LLM 進行問答與持續優化 →
最後在 Obsidian 中統一瀏覽。

整個過程中,你幾乎不需要手動編輯 wiki,因為那是 LLM 負責的領域。

如果您喜歡我們的網站,並且希望支持我們的工作,您可以考慮捐款。我們接受各種形式的捐款,包括一次性捐款和定期捐款。您的捐款將幫助我們維護和改進網站,並為用戶提供更好的體驗。

課程推薦

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

本課程從安裝部署、身份設定、技能安裝到實戰應用,帶你從零建立一個專屬的 AI 工作助手-OpenClaw 龍蝦,這個 AI 助手可以替你蒐集情報、摘要文件、整理郵件、生成內容、定時提醒,全部自動完成。

輸入折扣碼 TC1625FR 還可以額外獲得 NT$500 優惠喔。

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

如何只用文字說明提示就生成不同的圖像結果?亦或是會議上的語音檔轉文字?這是一堂通盤性、全面性的Google Gemini AI多媒體生成工具應用實戰!

輸入折扣碼 TC1609EW 還可以額外獲得 NT$500 優惠喔。

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

本門課將教你如何善用 AI 功能與工具,進行自動分析數據提供有幫助的建議與洞察,以及使用 AI 驅動的公式自動化計算。

輸入折扣碼 TC1615VU 還可以額外獲得 NT$500 優惠喔。

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

這門課程將帶你循序漸進掌握 n8n 的自動化技巧,從基礎認識與操作入門,到進階節點應用與流程控制,再到 Google 服務的整合實作,最後延伸至部署思維與 OpenAI API 的智慧化串接。

輸入折扣碼 TC1600UY 還可以額外獲得 NT$500 優惠喔。

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

利用 AI 提升網站設計效率與 SEO 排名!了解如何透過 ChatGPT 等工具快速建立 HTML 架構,優化關鍵字與用戶體驗,讓網站更具競爭力。

輸入折扣碼 TC1533SL 還可以額外獲得 NT$500 優惠喔。

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

《PChome雜誌》攜手 5 位在 AI 領域的專業講師,打造上述 6 堂實用課程,教你學會時下最好用的 AI 工具,導入生成式 AI 來產製工作內容,改造並升級你的工作流程。

輸入折扣碼 ZERO2024 還可以額外獲得 NT$400 優惠喔。

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

本課程專為希望深入了解 HTML 並有效結合 SEO 策略的學員設計。我們將重點放在 HTML 的深度學習與應用上,同時穿插介紹如何透過搜索引擎優化提升網站能見度。透過即時互動式的直播教學,加上 ChatGPT 的輔助,您將學習到如何建立一個結構優良、美觀且符合 SEO 標準的網站。這不僅會提升網站的用戶體驗,還會大幅提高網站的搜索引擎排名,進而增加訪客流量和潛在客戶。
用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

在快速變遷的職場中,提升競爭力成為關鍵。透過引領潮流的AI技術,ChatGPT和Midjourney將助您勇攀高峰。無論您是AI新手還是專家,這個課程將引導您從入門到精通,解密AI的奧秘,並學習如何運用於職場。
GitHub Copilot AI 程式碼編輯工具應用實務班

GitHub Copilot AI 程式碼編輯工具應用實務班

讓學員瞭解有效地使用該工具來加速開發流程、提高程式碼品質和生產力。課程重點放在以 JavaScript 程式語言為例,介紹 Copilot 的基本原理、使用方法和最佳實踐。

輸入折扣碼 TC1456JA 還可以額外獲得 NT$500 優惠喔。

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

掌握Clipchamp AI的操作技巧,靈活運用Clipchamp AI進行影片編輯和創作,實現創意表達和傳播目的。

輸入折扣碼 TC1451JAN 還可以額外獲得 NT$500 優惠喔。

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

Looker Studio除了可協助使用者監控網站流量、廣告成效、選擇匯入資源的管道之外,還可以將數據資料多平台整合、數據報表即時更新、數據範本可重複套用的效益,透過自動化系統,將數據全部匯入同一個報表平台,是企業不可或缺的重要工具。

輸入折扣碼 TC1270JIA 還可以額外獲得 NT$500 優惠喔。

和我們交流

加入我們的社群,裡面會有一些技術的內容、有趣的技術梗,以及職缺的分享,歡迎和我們一起討論。