性能碾壓英偉達B200!這家把大模型“刻”進芯片的公司什么來頭?

性能碾壓英偉達B200!這家把大模型“刻”進芯片的公司什么來頭?

文章圖片

性能碾壓英偉達B200!這家把大模型“刻”進芯片的公司什么來頭?

文章圖片

性能碾壓英偉達B200!這家把大模型“刻”進芯片的公司什么來頭?

文章圖片


在人工智能競爭日益激烈的當下 , 延遲和成本已成為制約大模型部署主要瓶頸 。 對此 , 加拿大AI芯片初創公司Taalas 近日推出了號稱“可以將任何AI模型轉換為定制ASIC芯片”的技術平臺 。 其核心邏輯在于 , 將存儲和計算統一在單芯片上 , 將特定大模型的神經網絡映射到硅片電路中 , 在 DRAM 級密度下完成所有計算 。
Taalas表示 , “通過消除內存-計算邊界 , 并針對每個模型定制硅片 , 我們能夠從根本重新設計整個硬件棧 。 結果是一個不依賴復雜或特殊技術的系統 , 沒有HBM , 采用先進封裝、3D疊加、液冷和高速I/O 。 工程簡潔性使系統總成本降低了數量級 。 從收到一個此前未曾見過的模型開始 , 對應的硬件版本只需兩個月即可實現 。 ”
這種優勢源于其結構化ASIC設計理念:通過固定底層電路、僅調整兩層掩模的方式 , 將芯片開發周期從傳統6個月縮短至2個月 , 同時保持設計成本可控 。
在這一技術理念的指導下 , Taalas 打造了全球最快、成本最低的推理平臺——針對Llama 3.1 8B模型定制的AI芯片HC1 , 使得其運行Llama 3.1 8B模型的速度達到了驚人的單用戶每秒可生成近17000個Token , 是英偉達B200的48倍 , 這一數據意味著在實時交互和復雜推理任務中 , 用戶將獲得近乎零延遲的體驗 。 并且 , 由于沒有復雜的HBM存儲系統 , 成本和功耗也大幅降低 。

根據Taalas的官方說法 , 其HC1系統的速度幾乎是當前技術水平的10倍 , 制造成本只有當前領先方案1/20 , 功耗更是直接縮減到了當前方案的1/10 。
針對特定模型定制:混合ROM和SRAM , 拋棄HBM和高速I/O
雖然英偉達(NVIDIA)一直是云端人工智能(AI)芯片市場當之無愧的霸主 , 但隨著其GPU能耗和成本越來越高 , 市場上也涌現了很多主打高能效和性價比優勢的數據中心AI ASIC芯片廠商 。 比如 , Grop(已被英偉達以200億美元收購)、Etched、Grow、SambaNova、Cerebras和Tenstorrent等 。
相對于英偉達GPU來說 , 很多的AI ASIC廠商要么選擇增加大量的片上SRAM , 以提升大模型的運行效率;要么犧牲一些靈活性 , 針對特定的一些AI模型來優化加速 , 以提升性能、降低成本 。 比如芯片初創公司Etched在2025年6月就推出了一款針對 Transformer架構模型優化的ASIC芯片 , 號稱其AI芯片的性能達到了英偉達H100的20倍 。
在Taalas看來 , 雖然目前的AI模型仍在持續快速發展 , 但是已經有很多模型達到了在一些場景下可用的程度 , 與其等待AI模型的發展進入穩定期 , 或者是花大價錢去不停地去適應模型的變化 , 倒不如直接將一些可用的AI模型的推理權重直接編碼進芯片的晶體管里 , 消除所有試圖讓計算引擎具有可塑性、讓公司能不斷調整模型所帶來的軟件垃圾 。 這樣做 , 可以極大簡化AI設備的架構 , 消除所有串行和并行計算引擎 , 尤其是消除了GPU和AI XPU中存在的計算與內存之間的壁壘 , 無需通過HBM來獲得與浮點和整數性能相匹配的高速I/O接口 。

目前 , Taalas 對其HC1的硬編碼推理架構的具體工作細節保密 。 不過 , 據The next platform報道 , Taalas產品副總裁Paresh Kharya透露 , “HC1的架構基本上是這樣:我們將模型嵌入其中 , 把模型和權重硬編碼到我們稱之為'mask ROM recall fabric'(掩模只讀存儲器回憶結構)的結構中 , 并與一個SRAM recall fabric(靜態隨機存取存儲器回憶結構)配對 。 這兩者結合在一起 , 既能存儲模型 , 又能執行KV緩存的所有計算 。 我們還支持適配器和定制化——所有這些我們都支持 。 這種設計讓我們在計算和存儲方面都達到了超高密度 , 并且我們可以在存儲之上以極快的速度進行計算 , 這正是推動密度提升和成本降低的關鍵 。 \"
簡單來說 , Taalas創新性的存儲架構包含了兩部分:可編程SRAM區域 , 用于保存微調權重(如LoRA)和KV緩存;而模型主體則通過掩模ROM固化執行 。 而為彌補量化帶來的精度損失 , 其研究團隊開發了LaRA適配器進行重新訓練 , 并配置可調上下文窗口 , 在靈活性與性能間取得平衡 。
\"在當前這一代產品中 , 我們的密度是——芯片硬連線(Hard-wiring)部分可承載80億參數 , 再加上SRAM , 讓我們能夠處理KV緩存、微調等適應性調整 。 在我們的下一代產品中 , 一塊芯片將能夠承載高達200億參數 。 即使處理萬億參數的模型 , 我們也只需要幾十塊芯片 , 與當今市場上任何其他方案相比 , 這個數量都非常、非常小 。 \"
Taalas的CEO Ljubisa Bajic則補充道:“我們這種mask ROM recall fabric的方案——也就是硬連線部分——有一個巧妙之處:我們可以用單個晶體管存儲4bit數據 , 并同時完成與之相關的乘法運算——所有一切都在一個晶體管里完成 。 所以密度基本上是很瘋狂的 。 而且這不是什么核物理——它完全是數字電路 。 只是一個我們不想公開的巧妙技巧 。 但一旦你把一切都硬連線 , 你就會獲得這種機會 , 可以用完全不同的方式來布局 , 而不必像需要應對變化時那樣妥協 。 關鍵在于 , 我們可以把權重和與之相關的乘法全部塞進一個晶體管里 。 而你知道 , 乘法器基本上是計算芯片里的大塊頭 。 \"

“我們發明的東西其實也沒什么特別難的 。 只是一個巧妙的技巧 , 只是因為沒人走過這條路 , 所以沒人發現它 。 我們兩年多前成立時 , 就想徹底消除存儲器和計算之間的障礙 。 這就是這一切的起源 。 現在 , 我們想出來的第一種方法——也是當時我們基本上能看到唯一能在可預期的時間內做出產品的方法 , 因為我們不想當三年后搞出一些不工作的東西的研究教授——就是迅速轉向這種基于ROM的方法 。 我們開始詳細研究它 , 然后意識到這其實比我們最初想的還要好 。 ”
總結來說 , Taalas聲稱實現了一種存內計算的極致形態 。 他們利用了ROM陣列的特殊連接方式 , 讓流過晶體管的電流不僅代表存儲的值 , 還能在模擬或數字域直接參與運算 。 這相當于把乘法器“壓扁”進了存儲陣列里 。 正如Ljubisa Bajic所說 , “乘法器是計算里的大塊頭” , 如果能把它和存儲單元合二為一 , 密度的提升是指數級的 。
Ljubisa Bajic進一步指出:“實際上 , 所有這些我們都是從零開始內部設計的 。 我們沒有使用任何現成的組件 , 我們做了大量的晶體管級設計和手工布局——基本上我們整個努力最終就像是對1970年代的致敬 。 ”
這里需要解釋的是 , 在1970-80年代 , 芯片設計規模小 , 工程師為了追求極致的性能和面積 , 會親手擺放每一個晶體管的位置 , 也就是全定制設計 。 后來隨著EDA(電子設計自動化)工具的發展 , 大家更多采用標準單元庫 , 像搭積木一樣快速設計 。
Taalas選擇“手工布局”是因為他們要做的存內計算單元是全新的 , 沒有現成的庫可用 。 為了榨干每一寸面積、每一個晶體管的性能 , 他們必須回到最原始、最精細的設計方式 , 為這種新架構量身定制物理實現 。
HC1:性能是英偉達B200的48倍 , 延遲及成本大幅降低
Taalas 最新推出的全球最快、成本最低的推理平臺——針對Llama 3.1 8B模型定制的AI芯片HC1 , 是基于臺積電6nm制程 , 面積為815mm2 , 擁有530億顆晶體管 , 其中大多數很可能用于ROM和SRAM內存 。 HC1加速卡本身功耗僅200瓦 , 一臺集成了10張HC1加速卡的雙插槽X86服務器 , 功率也只有2500瓦 , 散熱也只需要空氣冷卻 。

那么 , 針對Llama 3.1 8B模型固化的AI芯片HC1芯片 , 在運行Llama 3.1 8B模型時 , 到底有多快 , 成本有多低呢?
根據Taalas公布的測試數據顯示 , 在單用戶的情況下 , 運行Llama 3.1 8B模型 , Taalas HC1每秒可生成16960個Token , 是排名第二的Cerebras(1981 Tokens/s)的近9倍 , 更遙遙領先于其他AI芯片 , 是英偉達B200的48倍 。

另外 , 為了解決單芯片容量不足的問題 , Taalas 采用了集群化擴展策略 。 在針對 DeepSeek R1 671B模型的測試中 , Taalas通過 30 顆HC1芯片的集群配置 , 實現了單用戶高達每秒12382個Token的生成速度 , 達到了8卡英偉達B200系統(每秒192個Token)的約64.5倍 。

這里需要強調的是 , 雖然Taalas并未解釋針對Llama 3.1 8B模型固化的HC1芯片為何在集群系統中運行更大的DeepSeek R1 671B也更高效 , 但是猜測Taalas應該也是設計了一個針對DeepSeek R1 671B優化的HC1集群版本 。 另外 , 由于其消除了“內存墻” , 創新地采用了將模型的不同部分(如SRAM用于動態KV緩存 , ROM用于固化權重)拆分到不同芯片上 , 實現高度專業化分工的協同計算 , 并且這30顆芯片之間采用了“分布式直連”的互聯 , 通信協議極簡、高效 , 也使得其應對DeepSeek R1 671B更具優勢 。
從每百萬Token的生產成本以及每個Token間的延遲(毫秒)對比來看 , Taalas的測試數據顯示 , 在Llama 3.1 8B模型下 , HC1的每百萬Token生成成本最低只有英偉達B200(延遲優化)的不到1/36 , 只有英偉達B200(吞吐量優化)的約1/5 , 每個Token間的延遲也只有英偉達B200約1/50;在DeepSeek R1 671B 模型下 , HC1的每百萬Token生成成本最低只有英偉達B200(延遲優化)的約1/6 , 只有英偉達B200(吞吐量優化)的約1/3 , 每個Token間的延遲也只有英偉達B200約1/65 。

因為HC1加速卡的速度足夠快 , 想要獲得低延遲推理不需要批量查詢 , 這意味著Taalas設備的帶寬壓力很低 。 低到如果客戶想利用多卡系統運行更大的模型 , PCI-Express總線就足夠了 , 無需英偉達AI系統所需的NVLink和NVSwitch進行復雜的通信 。 Taalas今年晚些時候會允許客戶通過流水線并行性將工作分配到HC卡之間 。
事實上 , 到今年夏天 , Taalas將推出第二個模型 , 仍基于Taalas的第一代芯片平臺(HC1) , 將支持Llama 3.1 20B模型 。 到今年年底時 , Taalas將推出第二代芯片平臺(HC2) , 支持一個前沿級大型語言模型——可能是更先進的Llama、DeepSeek模型 , 甚至兩個模型可以在一組HC卡上運行推理 。
總結來看 , Taalas HC1在這兩款模型的測試當中展現出了相比英偉達B200更低的成本和極低的延遲表現 。 對于已經大規模部署了Llama 3.1 8B 或 DeepSeek R1 671B 模型云服務廠商來說 , 部署Taalas HC1顯然非常具有性價比 。
Anthropic 和 OpenAI 很可能會拿起電話 , 希望Taalas為其模型向定制AI加速器 , 甚至谷歌也有可能想試試 。 目前 , Taalas已以Ljubisa Bajic名義申請了14項專利 , 涵蓋其多項關鍵技術 。
有不少業內人士也認為 , Taalas 走的路線可能確實是未來的一個方向 , 因為大模型的發展最終可能會趨于穩定 , 這種Token的輸出速度 , 以及其成本和功耗上的優勢 , 確實非常具有吸引力 。
但也有很多業內人士認為 , 當前的大語言模型還不夠可靠 , 特別是小模型帶來的幻覺問題也無法避免 , 新模型的迭代速度依然很快 , 現在就讓其中一個模型運行得更快其實意義不大 。 因為 , 一旦針對特定模型固化的ASIC芯片生產出來 , 它將無法去適應其他模型 , 后續也無法升級 。
雖然Taalas 專注于將開源模型的權重固化在其 HC 系列芯片上 , 但顯而易見的是 , 每次模型升級 , 比如從Llama 3.1到Llama 4 , Taalas都需要重新調整HC系列芯片 , 這同樣也可能會帶來很大的成本 。
成立不到3年 , 已獲超2億美元融資
Taalas 成立至今僅兩年半的時間 , 已通過三輪風險投資籌集超過2億美元 。 該公司總部位于加拿大多倫多 , 三位創始人都曾在明星AI芯片公司Tenstorrent工作 。
其中 , Taalas的CEO Ljubisa Bajic曾在AMD、英偉達擔任骨干架構師 , 也是Tenstorrent的聯合創始人 。 Ljubisa Bajic在互聯網熱潮后曾為Teralogic和Oak Technology設計視頻編碼器 , 隨后跳槽至AMD , 并在工程層級晉升 , 成為AMD公司PC和服務器混合CPU-GPU芯片設計的架構師和高級經理 。 他還曾在英偉達擔任高級架構師一年 , 然后回到AMD擔任集成電路設計總監兩年 。 在離開AMD后 , Ljubisa Bajic創立了Tenstorrent 。 2022年秋 , 芯片專家Jim Keller加入Tenstorrent后 , Ljubisa Bajic決定離開 。 在休息了六個月后 , Ljubisa Bajic開始開發一個完全不同的AI推理計算理念 , 并在多倫多創立了Taalas 。
Lejla Bajic是Taalas另一位聯合創始人 , 她是Taalas的首席運營官 , 也是Ljubisa Bajic的妻子 。 她曾在互聯網泡沫泡沫期間擔任FPGA制造商Altera的軟件工程師 , 隨后成為加拿大GPU制造商ATI的高級工程師 , 該公司于2006年7月被AMD以54億美元收購 。 Lejla Bajic也在AMD工程層級逐步晉升 , 最終成為系統工程高級經理 。 她于2017年10月加入Tenstorrent從事同樣的工作 , 并在丈夫離開后離開 。
Taalas 的第三位聯合創始人是 Drago Ignjatovic , 他曾是高級設計工程師 , 負責 AMD APU 和 GPU 項目 , 后來接替 Ljubisa Bajic , 擔任 ASIC 設計總監 。 在Ljubisa Bajic離職創辦 Tenstorrent九個月后 , Drago Ignjatovic加入Tenstorrent , 擔任硬件工程副總裁 , 并與Bajic夫婦共同創立了Taalas , 擔任該初創公司的首席技術官 。
值得注意的是 , Taalas 產品副總裁Paresh Kharya曾任谷歌數據中心業務產品管理與市場高級總監三年 , 隨后擔任Google Cloud的AI基礎設施產品管理總監(管理其GPU和TPU硬件及其軟件棧) 。
目前 , Taalas 擁有25名員工 , 大多數是曾在AMD、蘋果、谷歌、英偉達和Tenstorrent工作的工程師 , 他們擁有將芯片從創意轉化為系統的豐富經驗 。 據悉 , Taalas僅為剛發布HC1芯片投入了3000萬美元的研發 , 銀行中仍有超過1.7億美元的資金儲備 。
【性能碾壓英偉達B200!這家把大模型“刻”進芯片的公司什么來頭?】編輯:芯智訊-浪客劍

    推薦閱讀