
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
《日常生活中的自我呈現》一書中 , 歐文?戈夫曼將戲劇表演引入社會學 。 他提出 , 人們在日常互動里 , 會依照預設的“劇本”(即社會規范) , 借助行為管理進行表演 , 在他人心中留下良好印象 。
按照這個理論 , 數字人直播總被吐槽 , 原因就是數字人的演技太差 , 無法呈現出真人主播一樣的觀感 , 表情僵硬、手勢不自然 , 無法給大眾留下好印象 。
就在最近 , 數字人主播界突然出現了一位演技實力派——羅永浩 。 羅永浩數字人在百度電商的首場直播 , 以長達連續近7小時的高強度直播 , 實時解答彈幕問題 , 動輒輸出“羅式段子” , 還與助播朱蕭木互相拋梗接梗 , 刷新了大眾心中數字人的觀感 。
甚至有人問老羅 , “是不是你在扮演數字人” , 簡直倒反天罡 。
難辨真假、技驚四座的羅永浩數字人 , 到底是怎么實現的?6月17日的百度AI開放日慧播星專場現場 , 百度集團副總裁吳甜 , 揭秘了羅永浩數字人背后的技術秘密 。 最關鍵的就是 , 基于文心大模型4.5T的“劇本”生成與多模協同 。
618硝煙正燃 , 而一場以AI大模型為核心驅動的電商效率革命 , 正拉開序幕 。
大家有沒有這樣的經歷:
評論區的彈幕太多 , 留言總是得不到主播的回復;
想看直播 , 但真人主播已經下班了 , 錯過了專屬紅包和優惠;
自己直播帶貨 , 但一面對鏡頭就緊張 , 直播效果不盡如人意;
等頭部主播來助農直播 , 還得看對方的差旅安排和時間調配……
數字人被視為解決人力局限、實現全天候直播的理想方案 。 然而 , 以往的數字人一直無法惟妙惟肖地飾演真人主播 , 槽點主要集中在幾個方面:
演得不像 。 數字人的表情、手勢與肢體細節與文案對不上 , 產生“恐怖谷”效應 , 讓觀眾感到詭異 。
缺少互動 。 傳統數字人面對超出預設范圍的問題 , 無法像真人主播那樣靈活應對 , 只能唱“獨角戲” , 讓觀眾喪失了參與直播的積極性與體驗感 。
時長不夠 。 很多數字人只能將短視頻循環播放 , 難以支撐長時間且一致的內容生成與交互需求 , 低質量內容不僅影響用戶體驗 , 還可能被平臺限流甚至處罰 。
行為不可控 。 數字人一旦出現失誤 , 不僅會損害品牌形象 , 還可能引發輿論危機 , 這也是許多頭部主播和品牌對數字人直播持謹慎態度的重要原因 。
數字人扮演真人主播 , 需要跨越重重技術挑戰 。 那百度電商直播間的羅永浩 , 又憑啥成為直播“實力派”?
6月15日羅永浩數字人在百度電商 , 完成了數字人主播的極限挑戰 , 做到了不少業內首個 。
業內首個超級頭部主播數字人直播 。 羅永浩的粉絲特別多 , 對真人主播的風格十分熟悉 , 需要數字人有極高的還原度 。 數字人羅永浩在直播間妙語連珠 , 與觀眾高頻互動 , 舉手投足間散發著熟悉的羅氏魅力 。
業內首個超六小時超頭部主播數字人直播 , 突破了AI視頻生成極限時間 , 生成的產品講解內容就多達9.7萬字 。
業內首個多數字人直播 , 雙人配合 , 告別了一個數字人尬聊的局面 。 羅永浩和朱蕭木的搭檔 , 高度還原了真實主播與助播的直播狀態 。 兩個數字人主播能做出喝奶茶、拎可樂等細節動作 , 還實現了與直播間用戶彈幕的實時互動 。
這一系列操作下來 , 刷新了不少人對數字人的固有印象 。 而羅永浩數字人的誕生 , 只用了幾個月的時間 , 究竟是如何習得媲美真人的“直播神技”?我們扒開了數字人背后的一整個大模型“導師團” 。
一場精彩的數字人直播 , 絕非單一技能的炫技 。 想象一下 , 如果數字人語言表達生動流暢 , 卻搭配著僵硬機械的表情和動作 , 或是語音語調平淡乏味 , 如同 “讀稿機器” 。 這正是傳統數字人技術的痛點:語言依賴臺詞模型 , 語音靠TTS 合成 , 表情肢體等視覺表現由視頻合成 , 各模態模型“各自為政” 。 數字人的臺詞、表情、動作完全不在一個節奏上 , 觀眾瞬間就會“出戲” 。
作為業內首個多模高度融合數字人 , 羅永浩數字人的出色表現 , 正是得益于百度多模協同的數字人技術 。
按照歐文?戈夫曼的理論 , “劇本”是戲劇表演的核心 , 演員需依劇本塑造符合期待的形象 。 數字人領域 , “劇本”同樣是關鍵所在 。
擁有一個高質量的劇本 , 就如同數字人有了總指揮 , 讓語言、語音、視覺等不同模態圍繞劇本 , 彼此協同配合 , 才能讓數字人在直播中展現出渾然天成的表現力 。
以數字人羅永浩為例 , 背后就有一個文心大模型的“導師團”進行助力:
首先 , 是基于大語言模型的劇本生成 。
生成劇本的文心大模型 , 相當于總導演兼總編劇 , 通過臺詞 , 為數字人賦予生動鮮活的“靈魂” 。 拿羅永浩數字人來說 , 文心大模型4.5T需要攻克以下關鍵難題 。 其一 , 風格定制 。 羅永浩犀利幽默、朱蕭木風趣灑脫 , 每位主播都有獨特的語言風格 , 文心大模型通過風格建模 , 深度學習主播們的語言習慣、表達方式 , 從遣詞造句到語氣節奏 , 全方位貼合主播個人風格進行定制 , 在模型生成的臺詞中精準復現 , 讓數字人開口自帶主播“味道” 。
除了語言風格 , 人設一致也是數字人獲得觀眾認可的關鍵 。 特別是在多角色配合時 , 羅永浩作為主咖 , 朱蕭木作為助播 , 文心大模型在生成劇本時 , 精準把握二人特點與分工 , 使臺詞在語言上自然附和、緊密配合 。 比如在產品推薦環節 , 主播重點介紹核心賣點 , 助播適時補充細節、引導互動 , 一問一答、一唱一和 , 展現出符合人設的行為與語言邏輯 。
在文心大模型 4.5T的精心雕琢下 , 生成了既有真人溫度 , 高度還原主播個人特色 , 又有網感 , 能將商品賣點生動展現的直播劇本 。
接下來 , 就是“劇本圍讀” , 讓多模態系統基于劇本 , 進行信息對齊 。
語音大模型作為口語導師 , 視覺大模型作為動作導師 , 先根據大語言模型生成的語音標簽和視覺標簽 , 然后生成協調一致的語音和表情動作 , 賦予數字人影帝、影后般的表現力 。
這個過程的難點 , 是多個模型的對齊 。 想象一下 , 如果語音模型理解的臺詞情感激昂 , 而視覺模型呈現的卻是平淡表情 , 數字人就會“表里不一” , 讓觀眾倍感違和 。 百度AI數字人 , 以大模型生成的劇本為統一標尺 , 確保從臺詞到語音、從表情到動作 , 各環節的理解與執行步調一致 。
比如羅永浩與助播數字人之間 , 會出現頻繁的打斷說、同時說 , 需要語音合成系統精準捕捉對話節奏 。 百度通過加入對話上下文解碼器 , 整合歷史對話與當前信息 , 讓數字人在互動時的語音銜接自然流暢 , 重現真人搭檔的默契感 。
同時還建立了反向對齊的反饋機制 , 也就是語音模型合成后 , 會基于自身對文本的細粒度判斷進行優化 , 再將這些信息反饋給視覺模型 , 實現音畫間的精準匹配 , 形成一個閉環的協同體系 。
通過多模系統的“劇本圍讀” , 可以在劇本指引下 , 完成聲臺行表的默契配合 , 讓數字人在直播鏡頭前展現出媲美真人的表現力 , 為觀眾帶來沉浸式的觀看體驗 。
六七個小時的直播 , 數字人只能對著劇本“照本宣科”嗎?為什么數字人羅永浩還能在直播間跟用戶實時互動呢?這就要提到第三個關鍵能力:臨場發揮的靈活性與可控性 。
據吳甜介紹 , 數字人直播就像拍電影 , 演員的表演并不是照本宣科 , 要有對劇本的理解和臨場發揮 。
其中 , 劇本作為核心 , 確保數字人行為邏輯的一致性 , 而文心大模型則賦予其應對復雜場景的“應變力”和長時間的可控性 。
在時長如馬拉松式的直播中 , 現實場景的復雜性遠超想象 。 用戶突如其來的刁鉆提問 , 直播間場景內人物、商品、環境的自由交互 , 都暗藏著不可控因素 。 讓數字人在復雜交互場景中也能游刃有余 , 文心大模型是這場技術突圍的“智慧中樞” 。
一方面 , 依托大模型的語言理解與生成能力 , 結合直播場景的高頻需求進行針對性訓練 , 賦予數字人實時理解用戶意圖的“洞察力” 。 在羅永浩數字人直播中 , AI知識庫1.3萬次的調用 , 9.7萬字的內容生成 , 正是文心大模型強大創造能力的直觀體現 。
另一方面 , 依托文心大模型4.5T的深度思考能力 , 在劇本生成時先進行規劃和思考 , 搜索最優路徑 , 再通過評價和評估 , 提升最終的可控性 。
當數字人在直播間自如切換講解模式、巧妙化解突發提問 , 與用戶深度互動 , 背后正是多文心大模型在持續穩定地發揮作用 , 為數字人直播行業開辟出長時、靈活、可控、優質的全新賽道 。
總結一下 , 羅永浩數字人直播的成功 , 離不開百度大模型技術體系的托舉 , 也是百度大模型技術實力的具象化呈現 。
歐文?戈夫曼的“擬劇理論”成為社會學經典 , 在于其揭露了社會協作的基礎——每個人依據劇本扮演良好形象 , 教師扮演好傳道授業的角色 , 醫生恪守救死扶傷的職責 , 整個社會才能有序運轉 。
當直播行業走過野蠻生長的黃金期 , 流量紅利消退 , 主播需要扮演什么樣的角色呢?或許是專業導購 , 能夠對產品細節和專業知識娓娓道來;是貼心客服 , 及時響應用戶的每一個疑問;是知心朋友 , 在用戶需要的時候提供全天候陪伴……這樣才能與觀眾建立信任紐帶 , 走向高質量發展 。
專業且敬業的真人主播 , 培養不易 , 開播成本也是中小商家所無力負擔的 。 這時候 , AI數字人的技術革命 , 成為打破直播效率困局的關鍵 。
在大廠紛紛布局數字人 , 競爭白熱化的背景下 , 百度依然憑借AI技術優勢 , 構建起數字人的差異化能力:
一是先進 。 百度數字人直播的技術能力如劇本生成、多模驅動、一致性和高擬真性等 , 是業界天花板 。 對數字人技術要求苛刻的超級頭部主播來說 , 選擇百度數字人放大IP價值 , 用自身的專業能力24小時服務用戶 。
二是專精 。 當部分企業投入海量資源研發通用型視頻生成技術時 , 百度深耕數字人直播場景 , 推出的慧播星數字人系統已服務超10萬商家 , 覆蓋32個垂直行業 。 對中小商家來說 , 通過百度數字人可以輕松開播 , 品嘗到AI技術帶來的增長紅利 。
三是性價比 。 借助百度AI技術 , 品牌商家可獲得“人貨場”的全面助力 , 除了數字人 , 還可以利用AI技術對商品進行深度分析和理解 , 實現商品的智能管理和精準營銷 。 提升收益的同時 , 百度數字人的綜合成本比真人主播要低 , 而且隨著開播的場次越多 , 它的邊際收益越高 , 未來數字人的生產制作成本還會進一步的下降 。
這場從流量爭奪到技術深耕的變革 , 正在重新定義直播行業的未來 。 當數字人頂流登上直播舞臺 , 百度AI驅動的直播下半場 , 也是智能電商的新篇章 。
【羅永浩數字人刷屏背后,文心大模型成為直播行業的“劇本總導演”】
推薦閱讀
- 百度電商發布首個超頭主播的數字人,帶貨能力已媲美真人
- 羅永浩入駐百度優選直播
- 蘋果因歐盟《數字市場法案》限制iPhone鏡像功能,擔心增加業務風險
- 直播中喵喵叫,提示詞攻擊成為數字人的阿喀琉斯之踵
- AI生態引擎+全棧開源方案重塑企業數字化路徑,紅帽詳解2025中國戰略
- 羅永浩“數字人帶貨”首秀,將掀起怎樣的互聯網風浪?
- REDMI K80至尊版來了 對標友商數字旗艦:音質、屏幕等全拉滿
- AI數字人主播帶貨時遭指令攻擊,網友讓干嘛就干嘛,專家揭示背后風險
- 電池健康焦慮:廠商制造的消費陷阱,別讓一個數字綁架你的錢包!
- 5G發牌六載:5G-A商用開啟中國數字經濟“價值挖掘”深水區
