
如果你平常會關注 Andrej Karpathy 的專案,那麼 GitHub 上的 autoresearch 很值得一看。這不是一般常見的 SaaS 網站,而是一個放在 GitHub 上的開源研究專案,核心概念很直接也很有話題性:把一個小型但真實可跑的 LLM 訓練環境交給 AI agent,讓它自己反覆修改程式、跑實驗、看結果是否變好,然後決定保留或捨棄變更。換句話說,這個專案想做的事情,不只是「用 AI 幫你寫程式」,而是進一步讓 AI 參與研究迭代本身。
從 GitHub 頁面來看,這個專案在目前已經累積相當高的人氣,星號數超過 6 萬、Fork 也超過 8 千,顯示它不只是概念吸睛,而是真的引發了很多工程師、研究者與 AI 愛好者的興趣。專案 README 也點出它的出發點:讓 AI agent 在夜間自動做一輪又一輪實驗,隔天人類醒來後,看到的是整晚的實驗紀錄,以及理想情況下更好的模型表現。
這個服務最有意思的地方,在於它把研究流程切得非常精簡。整個 repo 主要圍繞三個核心檔案:prepare.py、train.py、program.md。其中 prepare.py 負責資料準備、tokenizer、dataloader 與評估工具,設計上不讓 agent 修改;train.py 則是 AI agent 可以動手實驗的主戰場,包含模型、優化器與訓練迴圈;program.md 則像是一份給 agent 的操作說明書,定義它該怎麼開新實驗、怎麼記錄結果、什麼能改、什麼不能改。這種設計很聰明,因為它把自由度留在最值得試驗的地方,同時避免 agent 把整個專案改到失控。
如果要整理 autoresearch 的幾個重點特色,大概可以這樣看:
- AI agent 自主研究迴圈:agent 會修改
train.py、執行訓練、讀取指標,然後判斷是否保留這次改動。 - 固定 5 分鐘訓練預算:每次實驗都在固定 wall clock 時間內跑完,方便比較不同架構、超參數與 batch 設定。README 甚至提到,這樣的設計大約可達每小時 12 次實驗、睡一覺約 100 次實驗。
- 單一關鍵指標:使用
val_bpb作為驗證標準,而且是 vocab size 無關的比較方式,讓不同設計之間更公平。 - 單檔修改、低複雜度:agent 主要只動
train.py,讓 diff 可讀、審查容易,也降低整個 repo 被改壞的風險。 - 結果紀錄機制清楚:
program.md規定每次實驗都要寫進results.tsv,包含 commit、val_bpb、記憶體用量、狀態與簡短描述,這對追蹤研究過程很實用。
就使用門檻來看,autoresearch 並不是那種「點開網頁就能立即體驗」的工具。README 寫得很清楚,它目前需要 單張 NVIDIA GPU、Python 3.10+ 與 uv,而且作者表示目前主要測試環境是 H100。也就是說,這比較像是給熟悉 Python、PyTorch、LLM 訓練流程的人玩的研究型專案,而不是一般使用者向的 AI 服務。
不過,也正因為它不是過度包裝的產品頁,反而更能看出 Karpathy 的思路:把 AI 當成研究夥伴,而不是只當程式碼補全工具。在實際閱讀 program.md 時,會很有感覺,它不是隨便丟幾句 prompt 而已,而是把研究流程制度化,例如先建立 baseline、每次只做一個可描述的實驗、結果不好就 reset 回去、結果好才往前推進。這種設計非常像真正的研究工作流,只是把執行者從人換成 agent。
以內容體驗來說,我會覺得 autoresearch 最適合兩類人。第一類是對 AI agent 自主迭代 有興趣的工程師,你會從這個 repo 看到「agentic coding」再往前一步可以長什麼樣子。第二類則是對 小型 LLM 訓練與研究自動化 有興趣的讀者,因為它不是空談概念,而是真的把資料準備、訓練、評估與實驗保留/捨棄邏輯串起來。
實際看完後,我對這個專案的感受是:它最吸引人的不是功能有多完整,而是想法夠清楚、實作夠克制。現在很多 AI 產品喜歡把功能越做越大,但 autoresearch 反而是反過來,把問題收斂到單 GPU、單一訓練檔、固定 5 分鐘與單一評估指標,讓 agent 能在受控環境裡快速試錯。這種收斂其實很重要,因為研究自動化最怕的不是「做不到」,而是變成一個太複雜、最後根本無法驗證成果的系統。
如果你想找的是一個能快速理解「AI 如何自己做模型實驗」的參考案例,那 autoresearch 很值得收藏。它不只是 GitHub 上一個熱門 repo,更像是一份對未來研究流程的提案:人類不一定要親手調每一個參數,而是可以把研究規則、邊界與評估方式寫清楚,接著交給 agent 去不斷探索。對想追 AI 開發趨勢、agent 工作流、或自動化機器學習研究的人來說,這個專案的可看性真的很高。