autoresearch：讓 AI 自己做實驗的自動化研究專案

網址

https://github.com/karpathy/autoresearch

2026-03-30 08:22:41

如果你平常會關注 Andrej Karpathy 的專案，那麼 GitHub 上的 autoresearch 很值得一看。這不是一般常見的 SaaS 網站，而是一個放在 GitHub 上的開源研究專案，核心概念很直接也很有話題性：把一個小型但真實可跑的 LLM 訓練環境交給 AI agent，讓它自己反覆修改程式、跑實驗、看結果是否變好，然後決定保留或捨棄變更。換句話說，這個專案想做的事情，不只是「用 AI 幫你寫程式」，而是進一步讓 AI 參與研究迭代本身。

從 GitHub 頁面來看，這個專案在目前已經累積相當高的人氣，星號數超過 6 萬、Fork 也超過 8 千，顯示它不只是概念吸睛，而是真的引發了很多工程師、研究者與 AI 愛好者的興趣。專案 README 也點出它的出發點：讓 AI agent 在夜間自動做一輪又一輪實驗，隔天人類醒來後，看到的是整晚的實驗紀錄，以及理想情況下更好的模型表現。

這個服務最有意思的地方，在於它把研究流程切得非常精簡。整個 repo 主要圍繞三個核心檔案：prepare.py、train.py、program.md。其中 prepare.py 負責資料準備、tokenizer、dataloader 與評估工具，設計上不讓 agent 修改；train.py 則是 AI agent 可以動手實驗的主戰場，包含模型、優化器與訓練迴圈；program.md 則像是一份給 agent 的操作說明書，定義它該怎麼開新實驗、怎麼記錄結果、什麼能改、什麼不能改。這種設計很聰明，因為它把自由度留在最值得試驗的地方，同時避免 agent 把整個專案改到失控。

如果要整理 autoresearch 的幾個重點特色，大概可以這樣看：

AI agent 自主研究迴圈：agent 會修改 train.py、執行訓練、讀取指標，然後判斷是否保留這次改動。
固定 5 分鐘訓練預算：每次實驗都在固定 wall clock 時間內跑完，方便比較不同架構、超參數與 batch 設定。README 甚至提到，這樣的設計大約可達每小時 12 次實驗、睡一覺約 100 次實驗。
單一關鍵指標：使用 val_bpb 作為驗證標準，而且是 vocab size 無關的比較方式，讓不同設計之間更公平。
單檔修改、低複雜度：agent 主要只動 train.py，讓 diff 可讀、審查容易，也降低整個 repo 被改壞的風險。
結果紀錄機制清楚：program.md 規定每次實驗都要寫進 results.tsv，包含 commit、val_bpb、記憶體用量、狀態與簡短描述，這對追蹤研究過程很實用。

就使用門檻來看，autoresearch 並不是那種「點開網頁就能立即體驗」的工具。README 寫得很清楚，它目前需要 單張 NVIDIA GPU、Python 3.10+ 與 uv，而且作者表示目前主要測試環境是 H100。也就是說，這比較像是給熟悉 Python、PyTorch、LLM 訓練流程的人玩的研究型專案，而不是一般使用者向的 AI 服務。

不過，也正因為它不是過度包裝的產品頁，反而更能看出 Karpathy 的思路：把 AI 當成研究夥伴，而不是只當程式碼補全工具。在實際閱讀 program.md 時，會很有感覺，它不是隨便丟幾句 prompt 而已，而是把研究流程制度化，例如先建立 baseline、每次只做一個可描述的實驗、結果不好就 reset 回去、結果好才往前推進。這種設計非常像真正的研究工作流，只是把執行者從人換成 agent。

以內容體驗來說，我會覺得 autoresearch 最適合兩類人。第一類是對 AI agent 自主迭代 有興趣的工程師，你會從這個 repo 看到「agentic coding」再往前一步可以長什麼樣子。第二類則是對 小型 LLM 訓練與研究自動化 有興趣的讀者，因為它不是空談概念，而是真的把資料準備、訓練、評估與實驗保留/捨棄邏輯串起來。

實際看完後，我對這個專案的感受是：它最吸引人的不是功能有多完整，而是想法夠清楚、實作夠克制。現在很多 AI 產品喜歡把功能越做越大，但 autoresearch 反而是反過來，把問題收斂到單 GPU、單一訓練檔、固定 5 分鐘與單一評估指標，讓 agent 能在受控環境裡快速試錯。這種收斂其實很重要，因為研究自動化最怕的不是「做不到」，而是變成一個太複雜、最後根本無法驗證成果的系統。

如果你想找的是一個能快速理解「AI 如何自己做模型實驗」的參考案例，那 autoresearch 很值得收藏。它不只是 GitHub 上一個熱門 repo，更像是一份對未來研究流程的提案：人類不一定要親手調每一個參數，而是可以把研究規則、邊界與評估方式寫清楚，接著交給 agent 去不斷探索。對想追 AI 開發趨勢、agent 工作流、或自動化機器學習研究的人來說，這個專案的可看性真的很高。