AI大神卡帕西“克隆”了一個ChatGPT

AI大神卡帕西“克隆”了一個ChatGPT

文章圖片

AI大神卡帕西“克隆”了一個ChatGPT

文章圖片

AI大神卡帕西“克隆”了一個ChatGPT

文章圖片


智東西
編譯 | 王涵
編輯 | 漠影
智東西10月14日消息 , 昨夜 , 前特斯拉人工智能與自動駕駛視覺總監、OpenAI研究員安德烈·卡帕西(Andrej Karpathy)開源nanochat , 號稱可以只用不到100美元(約合人民幣711.5元)訓練出“簡易版ChatGPT” , 一經發布在GitHub上就獲得了5.6k星 。
nanochat Github主頁(來源:Github)
開源地址:
Github:https://github.com/karpathy/nanochat
與其早期只涵蓋預訓練的nanoGPT不同 , nanochat是一個極簡的、從零構建的全棧訓練/推理流程 , 用最精簡的依賴代碼庫實現了“簡易版ChatGPT” 。
安德烈·卡帕西(Andrej Karpathy)推文截圖(來源:X)
卡帕西在評論區中回復稱 , nanochat的基本架構類似Meta的Llama , 但有所簡化 , 并吸收了modded-nanoGPT的一些改進 。
他還透露 , 截至指令微調(SFT)階段 , 整個訓練耗時3小時51分鐘 , 總成本為92.4美元(約合人民幣657.4元) , “這樣我們甚至還能剩下8美元買個冰淇淋犒勞自己 。 ”他開玩笑道 。
值得注意的是 , 由于目前對強化學習(RL)的支持尚不完善 , 卡帕西稱他并未將其計入總運行時間 。
也就是說 , 開發者只需啟動云GPU實例 , 運行單個腳本 , 只需不到100美元(約合人民幣711.5元) , 最快4小時 , 就能訓練出可進行簡單對話、創作故事詩歌、回答基礎問題的“簡易版ChatGPT” 。
訓練約12小時 , 模型即可在評估模型推理能力、知識基礎等基礎能力的CORE指標上超越GPT-2 。 卡帕西還透露 , 當投入提升至約1000美元(約合人民幣7114.7元) , 訓練41.6小時后 , 模型表現還將顯著提升 , 能夠解決基礎數學/編程問題并通過選擇題測試 。
例如 , 深度為30的模型訓練24小時(相當于GPT-3 Small 125M的計算量 , 約為GPT-3的千分之一)后 , 在多任務的語言理解基準MMLU得分超40分 , 在簡單常識推理任務ARC-Easy超70分 , 在數學推理能力基準測試GSM8K中獲得超20分的成績 。
nanochat性能表格(來源:Github)
這個有著8304行代碼的項目實現了以下功能:
1、使用新的Rust實現訓練分詞器;
2、在FineWeb數據集上預訓練Transformer LLM , 并通過CORE指標多維度評估;
3、使用SmolTalk的用戶-助手對話數據、選擇題數據和工具使用數據進行中期訓練;
4、進行指令微調 , 在常識選擇題(ARC-E/C、MMLU)、數學(GSM8K)、代碼(HumanEval)等基準上評估聊天模型;
5、可選使用“GRPO”算法在GSM8K數據集上進行強化學習;
6、通過帶KV緩存的引擎實現高效推理 , 支持簡單預填充/解碼和工具調用(輕量級沙箱中的Python解釋器) , 可通過CLI或類ChatGPT網頁界面交互;
7、生成單頁Markdown評估報告 , 以游戲化方式總結全流程 。
在原推文的評論區中 , 卡帕西還給出了一個nanochat與用戶對話的案例 。 在這個對話中 , 基礎版nanochat已經實現AI聊天機器人的對話功能 , 并且可以根據要求撰寫詩歌 。
nanochat功能演示(來源:X)
在卡帕西的推文下 , 網友們發出一致好評 , 有人稱“非常受到啟發” , 甚至說“這個人(指卡帕西)簡直是個傳奇 。 ”
網友評論節?。 ɡ叢矗篨)
【AI大神卡帕西“克隆”了一個ChatGPT】還有網友已經做出了nanochat的可交互實時代碼圖譜 , 能夠更加直觀地探索這個代碼庫:
nanochat實時代碼圖譜(來源:X)

結語:nanochat為AI開發成本控制路徑提供參考nanochat項目的推出 , 為AI模型開發的成本控制提供了新的參考 。 該項目證明了 , 在適當的架構設計和流程優化下 , 以100美元級別的成本實現基礎對話AI功能具備技術可行性 。
雖然當前版本在性能上仍與商用大模型存在差距 , 但其展現的性價比優勢 , 為AI技術在更廣泛場景中的應用拓展了可能性 。 隨著開源社區對該項目的持續優化 , 這種高效開發模式或將為AI技術普及帶來新的推動力 。

    推薦閱讀