實時交互 AI 技術基建，Soul 打出了王牌

2026-04-18 中國移動

文章圖片

從2025年到2026年， Soul 的開源動作幾乎沒有停歇。
3 月 16 日， Soul AI 團隊（Soul AI Lab) 發布了新的開源模型 SoulX-LiveAct ，技術報告中具體提到，該工作能夠在 2 張 H100/H200 條件下，達到 20 FPS 的實時流式推理能力，且支持輸入圖像、音頻和指令驅動，即可生成表情生動、情緒可控、擁有豐富全身動作的實時數字人視頻。
在此之前，這個團隊已先后開源了多個模型，包括了實時數字人生成方向（SoulX-FlashHead、SoulX-FlashTalk），歌聲合成方向（SoulX-Singer），播客語音合成方向（SoulX-Podcast）等，覆蓋圍繞交互的多個維度。
傳統印象中， Soul 一直被視為「應用平臺」，如今選擇開源本身便充滿了討論點。這不僅意味著平臺攜手開源社區構建起豐富 AI 應用生態的新可能，更重要的是，這些工作圍繞的核心點是「多模態實時交互」與「真實場景可用」，指向了「AI 社交」時代核心技術標準的重新定義。

01
實時數字人：從能用到好用

關注到「Soul AI Lab」這個標簽，是因為近來，它高頻出現在 AI 社區分享交流群中。
近期，這個團隊最新發布的 SoulX-LiveAct 面向實時數字人生成領域。
年初，字節旗下音視頻生成模型 Seedance 展現出驚艷的運鏡能力和細膩的視頻效果，讓大眾意識到了 AI 在影視、內容創作的巨大潛力，也再次反映出在「落地」成為 AI 領域共識的當下，行業對于大模型的需求已經不再是「能不能用」而是「好不好用」。
實時數字人領域，高畫質、長時穩定性、低部署成本長期被視為「不可能三角」。行業在具體落地技術時，其實長期面臨一個問題：視頻生成時長一旦拉長，畫面穩定性與人物一致性會明顯下降，常見的 Bug 包括身份漂移、細節丟失、畫面閃爍，以及實時推理成本隨時長上升等等。通過底層算法的重構， SoulX-LiveAct 想要嘗試解決這些問題。
不同于傳統的 AR diffusion 對歷史記憶的無節制依賴， SoulX-LiveAct 在「條件傳播方式」和「歷史記憶管理」兩個維度實現了技術閉環，拋棄了隨時長線性增長的沉重緩存機制，通過全局特征鎖定極致，既能精準「帶得動」超長時段的歷史上下文，又不會因緩存膨脹拖累推理效率。這意味著，數字人具備了在小時級甚至全天候長直播中的實戰能力。
通常情況下，長視頻最容易「翻車」的不是第一分鐘，而是第十分鐘、第三十分鐘：可能是臉漂、發型/衣紋漂移，也可能是飾品忽隱忽現，甚至口型逐步失配。 SoulX-LiveAct 能在更長時間窗口內保持身份一致性與關鍵細節持續穩定。
商業落地層面， SoulX-LiveAct 展現了極強的工程化能力與成本控制優勢。僅需 2 張 H100/H200 即可達到 20 FPS 的實時流式推理能力，端到端延遲被壓縮至約 0.94s 。通過單幀計算成本降低到 27.2 TFLOPs / frame ， SoulX-LiveAct 顯著減輕了算力壓力，讓原本專屬于頂級服務器的高品質實時交互，具備了向消費級硬件下放的可能。
https://v.youku.com/v_show/id_XNjUxOTEwMTUzNg==.html
視頻由 SoulX-LiveAct 生成，人聲由 Soul 開源的另一個工作 SoulX-Podcast 生成
事實上，面對實時數字人方向的「能用」到「好用」， Soul 已經推出了多個解決方案。
春節前， Soul AI Lab 發布的 SoulX-FlashTalk——行業中首個能夠實現 0.87s 亞秒級超低延時、32fps 高幀率，并支持超長視頻穩定生成的 14B 數字人模型。在開源后，快速沖入全球最大 AI 開源社區 Hugging Face I2V（Image To Video）趨勢榜 TOP5 ，目前在 Github 已積累了 1.1k+Star 。
而另一個同樣是春節前推出的 1.3B 參數輕量化模型 SoulX-FlashHead ， Lite 版本在單張消費級顯卡（RTX 4090）上跑出 96FPS 的工業級速度，同時能夠實現高質量畫質，在發布后也快速進入 HuggingFace I2V 趨勢榜 TOP4 。

02
實時交互：AI 時代的技術基建

為什么 Soul 在持續死磕「實時交互」方向？
【實時交互 AI 技術基建，Soul 打出了王牌】舉個簡單的例子，大模型爆火后，或許是 ChatGPT 定義了面向 C 端的基本形態，后續所有的產品基本均采用了類似的交互模式——用文字或語音，人與 AI 交互過程中，完成信息的獲取和內容的處理、創作。
而實時數字人生成技術則意味著這種交互升維到視覺層面。 ta 擁有一個完整的，可互動的視覺形象，且這個視頻互動的過程是「雙向」的， ta 不只是會回應你的問題和指令，還會自動根據語境，判斷互動時機、節奏。是一種再自然不過，類似現實交流的場景。
此前，極客公園張鵬曾有一個判斷， Location（位置）作為一條技術棧，最終成為了整個移動互聯網時代最不可或缺的底層基礎設施之一。而「有效的主動性」將成為 AI 時代至關重要的技術棧。「它讓你原有的產品，突破了純工具的被動，擁有了主動對用戶一次次滿足預期，甚至超預期中建立信任的可能。在此過程中形成的「關系」，正是 AI 產品獨有的延伸資產，是你突破用戶 LTV（life time value ，生命周期總價值）天花板、構筑真正護城河的關鍵。」
如今，實時交互，同樣創造了一種超預期的體驗，這也是 AI 在社交場景的核心技術難點之一。
因此，聚焦實時交互， Soul 在多模態方向均有探索，除了實時數字人方向，此前， Soul 還先后開源了語音合成模型 SoulX-Podcast、歌聲合成模型 SoulX-Singer、全雙工語音對話控制模塊 SoulX-Duplug 。
其中， SoulX-Podcast 是一款專為多人、多輪對話場景打造的語音生成模型，支持中、英、川、粵等多語種/方言與副語言風格，能穩定輸出超 60 分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話。在去年10月底發布后快速登頂 Hugging Face TTS 趨勢榜， Github Star 數目前超過 3.2K 。
實時數字人、語音、歌聲...... 基于這些能力， AI 能實現更多的互動可能，例如社交場景中 AI 不會「把天聊死」，即便面對那些相對內向，社交能力較弱的「I 人」，也能拉長整個互動的周期，并且具備豐富的演繹（如能歌會唱）能力，帶來不一樣的交流體驗。
這一整套的大模型能力，讓 AI 從「應答式」交互，變成了「陪伴」，產品定義也從簡單的工具使用，到真正的「伙伴」和數字交互「入口」。

03
AI社交還有什么新可能？

一直以來， Soul 在大眾層面的標簽，更多是與 Z 世代、年輕人高度綁定的社交產品。
目前的開源動作，成為觀察其 AI 布局的新切入口。這種「反直覺」布局的背后并非單純的炫技，而是其深刻的產品洞察：通用的服務無法交付差異化的社交體驗。
Soul 的 AI 基因并非始于大模型熱潮。其早期的智能推薦系統已在嘗試用 AI 解決人與人的匹配效率和質量問題。進入大模型時代， Soul 發現通用模型雖能「對答如流」，卻無法交付具有情感溫差和極致在場感的社交體驗，自研了 SoulX 大模型。

與此同時，社交場景對響應延遲有著極高要求，為實現亞秒級反饋， Soul 必須在全雙工通信、低延遲傳輸、多模態交互等底層技術上「死磕」。這些為解決社交核心痛點打磨的工業級模型，也天然具備了對外技術輸出的價值。
不同于實驗室里的 Demo ， Soul 的模型已經經過真實、高并發、復雜社交場景的驗證，這意味著開發者可以「拿來即用」，極大地降低了技術落地門檻。
相較于電影、小說等傳統內容產品所呈現的封裝化、靜態化特征， Soul 認為未來內容、數字娛樂產品、社交等或將走向流動交互、實時介入的全新形態。這種對未來形態的預判，促使其必須掌握并共享底層工具。
作為一個興趣社交社區， Soul 的底層產品一直建立在真人互動的基礎上，所以在 AI 社交的探索過程中，一直保持著謹慎。
Soul 的目標也很明確——AI 社交最終要促進的，還是人與人的溝通。因此， AI 在該平臺的應用路徑清晰， AI 幫助用戶交朋友，增強現實社交網絡，構建有力、多元的社會支持體系：通過聊天輔助、推薦匹配等功能，提升連接效率和質量，如協助用戶發起對話、創作內容、打破社交壁壘、提升自信，交到興趣相投的好友。

對于 Soul 自身而言，開源是將其從單一 App 進化為生態系統的關鍵一步：一方面在 AI 社交標準尚未確立之際，率先開源即可掌握優質實時交互的定義權；另一方面開發者基于其技術基建創造的新玩法，也將反向反哺社區，持續豐富 Soul 的 AI 社交生態體驗。
接下來， Soul 的 AI 生態價值，或許將能夠外溢到社交之外的更多交互領域。比如在電商直播中，數字人主播常常存在「假人感」嚴重、互動有延遲等問題。利用 SoulX-FlashTalk 0.87 秒的超低延時和 32fps 的高幀率，數字人能實現如同真人般的秒級回復反?。輝?AI 客服場景中，機械式問答一直被詬病， SoulX-LiveAct不僅能讓數字人擁有生動的表情，甚至可以控制情緒，用具有「在場感」的數字人服務改變枯燥的售后咨詢。在線教育場景中，最稀缺的是陪伴感， SoulX-Podcast 等技術，能支持能穩定輸出 60 分鐘以上的連貫對話，覆蓋完整周期的教學內容、講解， AI 教師可以與學生開展長時間深度交流。
在 AI 領域熱議「Agent 替代人類」的當下， Soul 的立場顯得格外清醒：AI 不是替代人，而是鏈接人。 AI 社交也不是簡單的信息交換，而是跨越時空的、具備「在場感」的情感共振。 AI 的角色應該是幫助用戶優化表達、打破僵局、建立同頻。因此， Soul 選擇開源，本質上是在為 AI 時代的社交「修路」。
從一個社交平臺，到一家輸出底層能力的 AI 科技公司， Soul 正在用開源證明：AI 時代，最好的防守是開放，最深的護城河是生態。隨著技術門檻逐漸降低，交互體驗不斷升級，社交也將逐漸回歸情感鏈接的本質。
*頭圖來源：視覺中國

推薦閱讀

上一篇：造火箭的辭職去放牛，彼得·蒂爾花20億美元押注一個AI牛項圈

下一篇：小屏也有強信號！一加15T搭載360°天線矩陣+電競網絡芯片G2