AI芯片廠商Groq完成7.5億美元融資,投后估值69億美元

AI芯片廠商Groq完成7.5億美元融資,投后估值69億美元

文章圖片



近日 , 人工智能(AI)推理芯片企業Groq宣布完成7.5億美元新一輪融資 , 投后估值達69億美元 。
據介紹 , 該輪融資由Disruptive領投 , 貝萊德(Blackrock)、路博邁(Neuberger Berman)、德國電信資本合伙公司(Deutsche Telekom Capital Partners)以及一家美國西海岸大型共同基金管理公司也參與了投資 。 此外 , 三星、思科、D1、Altimeter、1789 Capital和Infinitum也繼續參與了本輪融資 。
此次領投的Disruptive是一家總部位于達拉斯的成長型投資公司 , 在過去十年中投資了一些最具變革性和最成功的公司 , 包括對Palantir、Airbnb、Spotify、Shield AI、Hims、Databricks、Stripe、Slack以及許多其他人工智能領軍企業和人工智能相關企業的巨額投資 。 Disruptive已向Groq投資近3.5億美元 。
Groq 創始人兼首席執行官喬納森·羅斯(Jonathan Ross)表示:“推理正在定義人工智能時代 , 我們正在構建能夠高速、低成本地實現這一目標的美國基礎設施 。 ”
Disruptive 創始人、董事長兼首席執行官 Alex Davis 表示:“隨著人工智能的擴展 , 其背后的基礎設施將與模型本身一樣重要 。 Groq 正在構建這一基礎 , 我們非常高興能夠與 Jonathan 和他的團隊合作 , 開啟爆炸式增長的新篇章 。 ”
【AI芯片廠商Groq完成7.5億美元融資,投后估值69億美元】值得注意的是 , 2024年8月Groq才成功以約 28 億美元的估值 , 獲得了6.4億美元的D輪融資 。 隨后又在2025年 , 成功從沙特阿拉伯籌集了 15 億美元融資 , 用于擴展其位于沙特阿拉伯的 AI 基礎設施 。
資料顯示 , Groq成立于 2016 年 , 總部位于美國加利福尼亞州山景城 , 是一家 AI 芯片生產商 , 旨在實現高吞吐量、低成本的推理 , 而不是訓練 。 該公司核心團隊來源于谷歌最初的張量處理單元(TPU)工程團隊 。 Groq 創始人兼CEO Jonathan Ross是谷歌TPU項目的核心研發人員 。 該公司硬件工程副總裁Jim Miller 曾是亞馬遜云計算服務AWS設計算力硬件的負責人 , 還曾在英特爾領導了所有 Pentium II 工程 。
2024年2月 , Groq推出了全球首個基于LPU(Language Processing Unit)方案的大模型推理芯片 , 作為一款基于全新的TSA 架構的Tensor Streaming Processor (TSP) 芯片 , 旨在提高機器學習和人工智能等計算密集型工作負載的性能 。

雖然Groq的LPU并沒有采用更本高昂的尖端制程工藝 , 而是選擇了14nm制程 , 但是憑借自研的TSA 架構 , Groq LPU 芯片具有高度的并行處理能力 , 可以同時處理數百萬個數據流 , 并該芯片還集成了230MB容量的SRAM來替代DRAM , 以保證內存帶寬 , 其片上內存帶寬高達80TB/s 。
根據官方的數據顯示 , Groq的LPU芯片的性能表現相當出色 , 可以提供高達1000 TOPS (Tera Operations Per Second) 的計算能力 , 并且在某些機器學習模型上的性能表現可以比常規的 GPU 和 TPU 提升10到100倍 。
Groq表示 , 基于其LPU芯片的云服務器在Llama2或Mistreal模型在計算和響應速度上遠超基于NVIDIA AI GPU的ChatGPT , 其每秒可以生成高達500個 token 。 相比之下 , 目前ChatGPT-3.5的公開版本每秒只能生成大約40個token 。 由于ChatGPT-3.5主要是基于NVIDIA的GPU , 也就是說 , Groq LPU芯片的響應速度達到了NVIDIA  GPU的10倍以上 。 Groq表示 , 相對于其他云平臺廠商的大模型推理性能 , 基于其LPU芯片的云服務器的大模型推理性能最終實現了比其他云平臺廠商快18倍 。
另外 , 在能耗方面 , 英偉達GPU需要大約10到30焦耳才能生成響應中的tokens , 而Groq LPU芯片僅需1到3焦耳 , 在推理速度大幅提升10倍的同時 , 其能耗成本僅有英偉達GPU的十分之一 , 這等于是性價比提高了100倍 。
Groq的策略是使用光纖互連將數百個LPU拼接在一起 , 每個LPU都裝有片上SRAM 。 通過使用 576 個 LPU 的集群 , Groq 聲稱它能夠在 Meta 的 Llama 2 70B 模型上實現每秒超過 300 個令牌的生成速率 , 是具有 8 個 GPU 的 HGX H100 系統的 10 倍 , 同時消耗十分之一的功率 。
Groq公司在演示中展示了其芯片的強大性能 , 支持Mistral AI的Mixtral8x7B SMoE , 以及Meta的Llama2的7B和70B等多種模型 , 支持使用4096字節的上下文長度 , 并可直接體驗Demo 。 不僅如此 , Groq當時還喊話各大公司 , 揚言在三年內超越英偉達 。
根據Groq最新披露的數據顯示 , 其已經為超過 200 萬開發人員和眾多全球領先的財富 500 強企業提供快速、經濟的計算能力 , 并正在擴大其全球影響力 , 在北美、歐洲和中東現有的數據中心的基礎上進行建設 。
編輯:芯智訊-浪客劍

    推薦閱讀