刷新世界記錄,40B模型+20萬億token,散戶組團挑戰算力霸權

刷新世界記錄,40B模型+20萬億token,散戶組團挑戰算力霸權

文章圖片

刷新世界記錄,40B模型+20萬億token,散戶組團挑戰算力霸權

文章圖片

刷新世界記錄,40B模型+20萬億token,散戶組團挑戰算力霸權

文章圖片

刷新世界記錄,40B模型+20萬億token,散戶組團挑戰算力霸權

文章圖片

刷新世界記錄,40B模型+20萬億token,散戶組團挑戰算力霸權

文章圖片

刷新世界記錄,40B模型+20萬億token,散戶組團挑戰算力霸權

文章圖片


全球網友用閑置顯卡組團訓練大模型 。 40B大模型、20萬億token , 創下了互聯網上最大規模的預訓練新紀錄!去中心化AI的反攻 , 正式開始 。 OpenAI等巨頭的算力霸權 , 這次真要涼了?
互聯網上最大規模的預訓練來了!
Nous Research宣布正式推出Psyche網絡(Psyche Network) , 通過去中心化方式革新人工智能(AI)訓練 。
Psyche網絡利用區塊鏈技術 , 匯聚全球計算資源 , 成功啟動了40B參數大語言模型Consilience的預訓練任務 , 總計20萬億token , 創下了迄今為止互聯網上最大規模的預訓練紀錄 。
大語言模型Consilience采用DeepSeek V3的多頭潛在注意力(MLA)架構 , 相較于Llama使用的GQA架構更具表達力 , 同時通過優化QKV投影矩陣減少計算開銷 。
三種注意力的對比
Psyche利用全球閑置的計算資源(如4090、A100和H100等消費級GPU) , 大幅降低訓練成本 。
通過并行實驗 , Psyche鼓勵開源社區提出新的模型架構和訓練方法 , 未來可能催生更多創新 。
Psyche網絡技術原理圖 , 核心在于DisTrO優化器與Solana區塊鏈
過去 , 人們總覺得「AI模型的去中心化訓練」不過是一種幻想 , 尤其在那些超越了愛好者規模的語言模型面前更是如此 。
但幾項關鍵技術突破——尤其是并行化和強化學習——正在逐漸打破這種局限 , 讓除了OpenAI、Anthropic這類大公司之外的小型團隊也開始進入這個賽道 。
現在看來 , 聰明的算法可以彌補基礎設施的不足 , 而像Nous Research這樣的去中心化參與者正希望抓住這個機會 。

砸碎算力墻近年來 , AI模型的訓練逐漸被大型科技公司壟斷 。
訓練一個前沿模型需要數千個高性能GPU和超高帶寬的集群 , 這使得普通研究者或小型團隊幾乎無法參與 。
這種集中化趨勢不僅限制了創新 , 還可能導致少數科技去投壟斷甚至控制AI模型 。
集中式AI , 可能會少數科技巨頭「比你更了解你自己」 。
Hermes系列中規模最大的模型——Hermes 3 405B , 是在基礎的Llama 3.1模型上進行微調完成的 。
整個訓練過程動用了128塊H100 GPU , 耗時約16小時(總計約2086GPU小時) 。
從成本上看其實并不離譜——目前租用8塊H100的計算節點每小時大約在16到24美元之間 , 因此一次完整訓練的開銷大約在5000美元左右 。
作為Nous Research Hermes系列的最新迭代 , Hermes 3 405B自Llama-3.1 405B的全參數微調模型 ,
但如果我們想更進一步 , 想得更大呢?
畢竟 , Hermes目前還是依賴Llama作為基礎模型 。
如果我們不再依賴已有的模型 , 而是從零開始構建自己的基礎模型 , 那我們就需要更龐大的“船”了 。
要以更大規模、低成本地實現類似的訓練成果 , 確實面臨不少挑戰 , 尤其是當訓練從集中化的GPU集群轉向基于互聯網的去中心化網絡時 。
Nous Research提出了Psyche網絡的解決方案:通過去中心化的方式 , 讓全球的計算資源參與AI模型訓練 , 降低進入門檻 , 推動AI發展的民主化 。
Nous Research的Psyche網絡成功實現了去中心化的AI訓練 , 開創了一個全新的模式 。
Psyche不僅降低了AI開發的門檻 , 還推動了全球協作和創新 。
Consilience模型的預訓練只是起點 , 未來Psyche網絡有望成為AI民主化的重要基石 , 為開源社區和小型團隊提供與科技巨頭抗衡的機會 。

用DisTrO解決帶寬瓶頸在去中心化訓練中 , 網絡帶寬一直是最令人擔憂的問題之一 。
在傳統的數據中心里 , GPU之間通過極高帶寬的連接(如NVLink或InfiniBand)相連 , 帶寬可達每秒幾百Gb(千兆位) 。
而相比之下 , 互聯網上的志愿者節點 , 往往只有幾十甚至幾百Mb(兆位)每秒的帶寬 。
質疑者認為 , 這種高達100倍甚至1000倍的帶寬差距 , 會讓跨互聯網的AI訓練變得無比緩慢、幾乎不可能 。
畢竟 , 傳統的訓練方式需要GPU之間持續地交換更新信息 , 而如果試圖用普通家用網絡來完成這些通信 , 很可能會陷入「災難級」的訓練體驗 。
在此前對DeMo(Decoupled Momentum Optimization)的研究基礎上 , Nous推出的DisTrO技術 , 能夠讓所有訓練節點保持高度同步 , 同時將所需帶寬降低1000到10000倍 。
2024年12月 , Nous與多位合作伙伴一起 , 在封閉測試網中 , 訓練了一個150億參數的基礎模型 , 并成功驗證了多項理論設想:
首次將DisTrO優化器系列大規模應用于訓練任務
驗證了節點中途掉線和新增節點時的容錯能力
證明了增加訓練節點確實能提升整體訓練速度
這次實驗標志著分布式、去中心化訓練邁出了從理論走向現實的關鍵一步 。

區塊鏈+AI在硅谷的一些圈子里 , 「加密」這個詞幾乎成了貶義詞 , 而Nous一直努力保持與AI開發者之間的開放交流橋梁不被切斷 。
也正因如此 , 他們這次將Psyche搭建在區塊鏈上 , 是一個值得關注的重要轉變 。
Psyche將成為Nous用于預訓練、微調和部署下一代模型的平臺 。
通過將技術棧遷移到Solana區塊鏈 , Nous希望釋放區塊鏈的以下三大優勢:
無需許可:任何人都可以貢獻計算資源
彈性與高可用性:不再依賴中心化基礎設施
激勵機制:協調并獎勵為網絡作出貢獻的參與者
將這一協議向整個市場開放 , 意味著任何人都能擁有其中的一部分 。 而其潛在的擴展性之大 , 顯然已經讓不少極客興奮不已 。

計劃概覽Nous的初期目標是先上線一個封閉測試網(Phase 0) , 驗證是否能在Solana上運行一個更大規模、分布式、具備容錯能力的DisTrO系統 。 后續階段會逐步引入更高級的功能 。
在Phase 0階段 , 貢獻者可以攜帶自己的GPU加入進來(明確提到支持4090、A100和H100等型號) , 并開始獲得獎勵 。 此階段會對參與者進行篩選 , 以防止惡意行為者加入 。
一旦系統穩定運行 , 權限將逐步開放 , 允許不同類型的計算資源(無論是專業的還是消費級的)自由接入網絡 , 協助訓練Llama、Diffusion等不同類型的模型架構 。

強化學習后訓練階段強化學習(Reinforcement Learning , RL)不依賴于預先準備好的數據集 , 而是通過模型與環境直接互動來學習 。
每個節點如果做出有助于模型進化的行為 , 就會獲得正反饋 , 反之則獲得負反饋 。
由于這些節點可以異步運行 , 分布式訓練在強化學習框架下反而運行良好 。
每個節點可以獨立行動 , 收集經驗 , 并定期與其他節點分享進展 。
這極大緩解了傳統訓練中常見的「同步難題」 , 特別是在硬件能力和網絡延遲差異大的情況下 。
通過RL , Psyche上的預訓練模型可以進一步學會推理能力和領域知識 。
而每個Psyche節點在訓練過程中的表現都將影響它的獎勵:計算能力更強或使用了更先進訓練方法的節點 , 可能會獲得更多代幣激勵 。

區塊鏈:回歸初心在常常被斥為「過度炒作又頻頻令人失望」的區塊鏈生態中 , 能看到真正的創新成果 , 確實令人欣慰——簡直讓人「冷漠的靈魂也重新燃起了熱情」 。
這一切 , 真的令人感到振奮 。
Nous并不是一開始就擁抱區塊鏈技術的 , 相反 , 他們幾乎是被「拖著、踢著、喊著」走上了這條路——
但原因很簡單:區塊鏈確實是解決他們問題最合適的工具 。
他們需要一種方式 , 不論對方來自哪里 , 都能吸引計算資源與人才并進行公平支付;區塊鏈 , 在這一點上表現得無比出色 。
他們需要一種手段 , 能夠協調并擴展大規模訓練任務;而協調與擴展 , 正是區塊鏈技術的「第二天性」 。
他們還需要一種不受停電、封禁、宕機等影響的托管機制 , 能讓項目「打不死」、無法被關閉;在這方面 , 區塊鏈(這次不再是諷刺)也的確提供了最可靠的保障 。
而最值得欣慰的是:這一次 , 人們選擇區塊鏈 , 不是出于投機炒作 , 而是出于對實際問題的認真思考與真實需求的回應 。
如果Psyche成功了 , 它不僅將證明去中心化訓練是切實可行的 , 更是回歸初心:為取代的集中化計算 , 提供了強有力的工具 。
參考資料:
https://x.com/NousResearch/status/1922744483571171605
https://nousresearch.com/nous-psyche/
【刷新世界記錄,40B模型+20萬億token,散戶組團挑戰算力霸權】https://x.com/563defi/status/1909976170990313594

    推薦閱讀