AI大神卡帕西“克隆”了一個ChatGPT

2026-02-12 航空器 evtol 合肥億航智能

文章圖片

文章圖片

文章圖片

智東西
編譯 | 王涵
編輯 | 漠影
智東西10月14日消息，昨夜，前特斯拉人工智能與自動駕駛視覺總監、OpenAI研究員安德烈·卡帕西（Andrej Karpathy）開源nanochat ，號稱可以只用不到100美元（約合人民幣711.5元）訓練出“簡易版ChatGPT” ，一經發布在GitHub上就獲得了5.6k星。
nanochat Github主頁（來源：Github）
開源地址：
Github：https://github.com/karpathy/nanochat
與其早期只涵蓋預訓練的nanoGPT不同， nanochat是一個極簡的、從零構建的全棧訓練/推理流程，用最精簡的依賴代碼庫實現了“簡易版ChatGPT” 。
安德烈·卡帕西（Andrej Karpathy）推文截圖（來源：X）
卡帕西在評論區中回復稱， nanochat的基本架構類似Meta的Llama ，但有所簡化，并吸收了modded-nanoGPT的一些改進。
他還透露，截至指令微調（SFT）階段，整個訓練耗時3小時51分鐘，總成本為92.4美元（約合人民幣657.4元）， “這樣我們甚至還能剩下8美元買個冰淇淋犒勞自己。 ”他開玩笑道。
值得注意的是，由于目前對強化學習（RL）的支持尚不完善，卡帕西稱他并未將其計入總運行時間。
也就是說，開發者只需啟動云GPU實例，運行單個腳本，只需不到100美元（約合人民幣711.5元），最快4小時，就能訓練出可進行簡單對話、創作故事詩歌、回答基礎問題的“簡易版ChatGPT” 。
訓練約12小時，模型即可在評估模型推理能力、知識基礎等基礎能力的CORE指標上超越GPT-2 。卡帕西還透露，當投入提升至約1000美元（約合人民幣7114.7元），訓練41.6小時后，模型表現還將顯著提升，能夠解決基礎數學/編程問題并通過選擇題測試。
例如，深度為30的模型訓練24小時（相當于GPT-3 Small 125M的計算量，約為GPT-3的千分之一）后，在多任務的語言理解基準MMLU得分超40分，在簡單常識推理任務ARC-Easy超70分，在數學推理能力基準測試GSM8K中獲得超20分的成績。
nanochat性能表格（來源：Github）
這個有著8304行代碼的項目實現了以下功能：
1、使用新的Rust實現訓練分詞器；
2、在FineWeb數據集上預訓練Transformer LLM ，并通過CORE指標多維度評估；
3、使用SmolTalk的用戶-助手對話數據、選擇題數據和工具使用數據進行中期訓練；
4、進行指令微調，在常識選擇題（ARC-E/C、MMLU）、數學（GSM8K）、代碼（HumanEval）等基準上評估聊天模型；
5、可選使用“GRPO”算法在GSM8K數據集上進行強化學習；
6、通過帶KV緩存的引擎實現高效推理，支持簡單預填充/解碼和工具調用（輕量級沙箱中的Python解釋器），可通過CLI或類ChatGPT網頁界面交互；
7、生成單頁Markdown評估報告，以游戲化方式總結全流程。
在原推文的評論區中，卡帕西還給出了一個nanochat與用戶對話的案例。在這個對話中，基礎版nanochat已經實現AI聊天機器人的對話功能，并且可以根據要求撰寫詩歌。
nanochat功能演示（來源：X）
在卡帕西的推文下，網友們發出一致好評，有人稱“非常受到啟發” ，甚至說“這個人（指卡帕西）簡直是個傳奇。 ”
網友評論節?。 ɡ叢矗篨）
【AI大神卡帕西“克隆”了一個ChatGPT】還有網友已經做出了nanochat的可交互實時代碼圖譜，能夠更加直觀地探索這個代碼庫：
nanochat實時代碼圖譜（來源：X）

結語：nanochat為AI開發成本控制路徑提供參考nanochat項目的推出，為AI模型開發的成本控制提供了新的參考。該項目證明了，在適當的架構設計和流程優化下，以100美元級別的成本實現基礎對話AI功能具備技術可行性。
雖然當前版本在性能上仍與商用大模型存在差距，但其展現的性價比優勢，為AI技術在更廣泛場景中的應用拓展了可能性。隨著開源社區對該項目的持續優化，這種高效開發模式或將為AI技術普及帶來新的推動力。

推薦閱讀

上一篇：斯坦福、英偉達和伯克利提出具身Test-Time Scaling Law

下一篇：蘋果第三方電容筆好用嗎？2025年推薦這10ipad第三方電容筆推薦！