實時交互 AI 技術基建,Soul 打出了王牌

實時交互 AI 技術基建,Soul 打出了王牌

文章圖片

實時交互 AI 技術基建,Soul 打出了王牌

從2025年到2026年 , Soul 的開源動作幾乎沒有停歇 。
3 月 16 日 , Soul AI 團隊(Soul AI Lab) 發布了新的開源模型 SoulX-LiveAct , 技術報告中具體提到 , 該工作能夠在 2 張 H100/H200 條件下 , 達到 20 FPS 的實時流式推理能力 , 且支持輸入圖像、音頻和指令驅動 , 即可生成表情生動、情緒可控、擁有豐富全身動作的實時數字人視頻 。
在此之前 , 這個團隊已先后開源了多個模型 , 包括了實時數字人生成方向(SoulX-FlashHead、SoulX-FlashTalk) , 歌聲合成方向(SoulX-Singer) , 播客語音合成方向(SoulX-Podcast)等 , 覆蓋圍繞交互的多個維度 。
傳統印象中 , Soul 一直被視為「應用平臺」 , 如今選擇開源本身便充滿了討論點 。 這不僅意味著平臺攜手開源社區構建起豐富 AI 應用生態的新可能 , 更重要的是 , 這些工作圍繞的核心點是「多模態實時交互」與「真實場景可用」 , 指向了「AI 社交」時代核心技術標準的重新定義 。

01
實時數字人:從能用到好用

關注到「Soul AI Lab」這個標簽 , 是因為近來 , 它高頻出現在 AI 社區分享交流群中 。
近期 , 這個團隊最新發布的 SoulX-LiveAct 面向實時數字人生成領域 。
年初 , 字節旗下音視頻生成模型 Seedance 展現出驚艷的運鏡能力和細膩的視頻效果 , 讓大眾意識到了 AI 在影視、內容創作的巨大潛力 , 也再次反映出在「落地」成為 AI 領域共識的當下 , 行業對于大模型的需求已經不再是「能不能用」而是「好不好用」 。
實時數字人領域 , 高畫質、長時穩定性、低部署成本長期被視為「不可能三角」 。 行業在具體落地技術時 , 其實長期面臨一個問題:視頻生成時長一旦拉長 , 畫面穩定性與人物一致性會明顯下降 , 常見的 Bug 包括身份漂移、細節丟失、畫面閃爍 , 以及實時推理成本隨時長上升等等 。 通過底層算法的重構 , SoulX-LiveAct 想要嘗試解決這些問題 。
不同于傳統的 AR diffusion 對歷史記憶的無節制依賴 , SoulX-LiveAct 在「條件傳播方式」和「歷史記憶管理」兩個維度實現了技術閉環 , 拋棄了隨時長線性增長的沉重緩存機制 , 通過全局特征鎖定極致 , 既能精準「帶得動」超長時段的歷史上下文 , 又不會因緩存膨脹拖累推理效率 。 這意味著 , 數字人具備了在小時級甚至全天候長直播中的實戰能力 。
通常情況下 , 長視頻最容易「翻車」的不是第一分鐘 , 而是第十分鐘、第三十分鐘:可能是臉漂、發型/衣紋漂移 , 也可能是飾品忽隱忽現 , 甚至口型逐步失配 。 SoulX-LiveAct 能在更長時間窗口內保持身份一致性與關鍵細節持續穩定 。
商業落地層面 , SoulX-LiveAct 展現了極強的工程化能力與成本控制優勢 。 僅需 2 張 H100/H200 即可達到 20 FPS 的實時流式推理能力 , 端到端延遲被壓縮至約 0.94s 。 通過單幀計算成本降低到 27.2 TFLOPs / frame , SoulX-LiveAct 顯著減輕了算力壓力 , 讓原本專屬于頂級服務器的高品質實時交互 , 具備了向消費級硬件下放的可能 。
https://v.youku.com/v_show/id_XNjUxOTEwMTUzNg==.html
視頻由 SoulX-LiveAct 生成 , 人聲由 Soul 開源的另一個工作 SoulX-Podcast 生成
事實上 , 面對實時數字人方向的「能用」到「好用」 , Soul 已經推出了多個解決方案 。
春節前 , Soul AI Lab 發布的 SoulX-FlashTalk——行業中首個能夠實現 0.87s 亞秒級超低延時、32fps 高幀率 , 并支持超長視頻穩定生成的 14B 數字人模型 。 在開源后 , 快速沖入全球最大 AI 開源社區 Hugging Face I2V(Image To Video)趨勢榜 TOP5 , 目前在 Github 已積累了 1.1k+Star 。
而另一個同樣是春節前推出的 1.3B 參數輕量化模型 SoulX-FlashHead , Lite 版本在單張消費級顯卡(RTX 4090)上跑出 96FPS 的工業級速度 , 同時能夠實現高質量畫質 , 在發布后也快速進入 HuggingFace I2V 趨勢榜 TOP4 。

02
實時交互:AI 時代的技術基建

為什么 Soul 在持續死磕「實時交互」方向?
【實時交互 AI 技術基建,Soul 打出了王牌】舉個簡單的例子 , 大模型爆火后 , 或許是 ChatGPT 定義了面向 C 端的基本形態 , 后續所有的產品基本均采用了類似的交互模式——用文字或語音 , 人與 AI 交互過程中 , 完成信息的獲取和內容的處理、創作 。
而實時數字人生成技術則意味著這種交互升維到視覺層面 。 ta 擁有一個完整的 , 可互動的視覺形象 , 且這個視頻互動的過程是「雙向」的 , ta 不只是會回應你的問題和指令 , 還會自動根據語境 , 判斷互動時機、節奏 。 是一種再自然不過 , 類似現實交流的場景 。
此前 , 極客公園張鵬曾有一個判斷 , Location(位置)作為一條技術棧 , 最終成為了整個移動互聯網時代最不可或缺的底層基礎設施之一 。 而「有效的主動性」將成為 AI 時代至關重要的技術棧 。 「它讓你原有的產品 , 突破了純工具的被動 , 擁有了主動對用戶一次次滿足預期 , 甚至超預期中建立信任的可能 。 在此過程中形成的「關系」 , 正是 AI 產品獨有的延伸資產 , 是你突破用戶 LTV(life time value , 生命周期總價值)天花板、構筑真正護城河的關鍵 。 」
如今 , 實時交互 , 同樣創造了一種超預期的體驗 , 這也是 AI 在社交場景的核心技術難點之一 。
因此 , 聚焦實時交互 , Soul 在多模態方向均有探索 , 除了實時數字人方向 , 此前 , Soul 還先后開源了語音合成模型 SoulX-Podcast、歌聲合成模型 SoulX-Singer、全雙工語音對話控制模塊 SoulX-Duplug 。
其中 , SoulX-Podcast 是一款專為多人、多輪對話場景打造的語音生成模型 , 支持中、英、川、粵等多語種/方言與副語言風格 , 能穩定輸出超 60 分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話 。 在去年10月底發布后快速登頂 Hugging Face TTS 趨勢榜 , Github Star 數目前超過 3.2K 。
實時數字人、語音、歌聲...... 基于這些能力 , AI 能實現更多的互動可能 , 例如社交場景中 AI 不會「把天聊死」 , 即便面對那些相對內向 , 社交能力較弱的「I 人」 , 也能拉長整個互動的周期 , 并且具備豐富的演繹(如能歌會唱)能力 , 帶來不一樣的交流體驗 。
這一整套的大模型能力 , 讓 AI 從「應答式」交互 , 變成了「陪伴」 , 產品定義也從簡單的工具使用 , 到真正的「伙伴」和數字交互「入口」 。


03
AI社交還有什么新可能?

一直以來 , Soul 在大眾層面的標簽 , 更多是與 Z 世代、年輕人高度綁定的社交產品 。
目前的開源動作 , 成為觀察其 AI 布局的新切入口 。 這種「反直覺」布局的背后并非單純的炫技 , 而是其深刻的產品洞察:通用的服務無法交付差異化的社交體驗 。
Soul 的 AI 基因并非始于大模型熱潮 。 其早期的智能推薦系統已在嘗試用 AI 解決人與人的匹配效率和質量問題 。 進入大模型時代 , Soul 發現通用模型雖能「對答如流」 , 卻無法交付具有情感溫差和極致在場感的社交體驗 , 自研了 SoulX 大模型 。

與此同時 , 社交場景對響應延遲有著極高要求 , 為實現亞秒級反饋 , Soul 必須在全雙工通信、低延遲傳輸、多模態交互等底層技術上「死磕」 。 這些為解決社交核心痛點打磨的工業級模型 , 也天然具備了對外技術輸出的價值 。
不同于實驗室里的 Demo , Soul 的模型已經經過真實、高并發、復雜社交場景的驗證 , 這意味著開發者可以「拿來即用」 , 極大地降低了技術落地門檻 。
相較于電影、小說等傳統內容產品所呈現的封裝化、靜態化特征 , Soul 認為未來內容、數字娛樂產品、社交等或將走向流動交互、實時介入的全新形態 。 這種對未來形態的預判 , 促使其必須掌握并共享底層工具 。
作為一個興趣社交社區 , Soul 的底層產品一直建立在真人互動的基礎上 , 所以在 AI 社交的探索過程中 , 一直保持著謹慎 。
Soul 的目標也很明確——AI 社交最終要促進的 , 還是人與人的溝通 。 因此 , AI 在該平臺的應用路徑清晰 , AI 幫助用戶交朋友 , 增強現實社交網絡 , 構建有力、多元的社會支持體系:通過聊天輔助、推薦匹配等功能 , 提升連接效率和質量 , 如協助用戶發起對話、創作內容、打破社交壁壘、提升自信 , 交到興趣相投的好友 。

對于 Soul 自身而言 , 開源是將其從單一 App 進化為生態系統的關鍵一步:一方面在 AI 社交標準尚未確立之際 , 率先開源即可掌握優質實時交互的定義權;另一方面開發者基于其技術基建創造的新玩法 , 也將反向反哺社區 , 持續豐富 Soul 的 AI 社交生態體驗 。
接下來 , Soul 的 AI 生態價值 , 或許將能夠外溢到社交之外的更多交互領域 。 比如在電商直播中 , 數字人主播常常存在「假人感」嚴重、互動有延遲等問題 。 利用 SoulX-FlashTalk 0.87 秒的超低延時和 32fps 的高幀率 , 數字人能實現如同真人般的秒級回復反?。 輝?AI 客服場景中 , 機械式問答一直被詬病 , SoulX-LiveAct不僅能讓數字人擁有生動的表情 , 甚至可以控制情緒 , 用具有「在場感」的數字人服務改變枯燥的售后咨詢 。 在線教育場景中 , 最稀缺的是陪伴感 , SoulX-Podcast 等技術 , 能支持能穩定輸出 60 分鐘以上的連貫對話 , 覆蓋完整周期的教學內容、講解 , AI 教師可以與學生開展長時間深度交流 。
在 AI 領域熱議「Agent 替代人類」的當下 , Soul 的立場顯得格外清醒:AI 不是替代人 , 而是鏈接人 。 AI 社交也不是簡單的信息交換 , 而是跨越時空的、具備「在場感」的情感共振 。 AI 的角色應該是幫助用戶優化表達、打破僵局、建立同頻 。 因此 , Soul 選擇開源 , 本質上是在為 AI 時代的社交「修路」 。
從一個社交平臺 , 到一家輸出底層能力的 AI 科技公司 , Soul 正在用開源證明:AI 時代 , 最好的防守是開放 , 最深的護城河是生態 。 隨著技術門檻逐漸降低 , 交互體驗不斷升級 , 社交也將逐漸回歸情感鏈接的本質 。
*頭圖來源:視覺中國

    推薦閱讀