再也不怕面癱臉,YouTube黑科技:AI幫你「永久微笑」,連僵尸都咧嘴笑

再也不怕面癱臉,YouTube黑科技:AI幫你「永久微笑」,連僵尸都咧嘴笑

文章圖片

再也不怕面癱臉,YouTube黑科技:AI幫你「永久微笑」,連僵尸都咧嘴笑

文章圖片

再也不怕面癱臉,YouTube黑科技:AI幫你「永久微笑」,連僵尸都咧嘴笑

幾十G的大模型 , 怎么可能塞進一臺手機?YouTube卻做到了:在 Shorts 相機里 , AI能實時「重繪」你的臉 , 讓你一秒變身僵尸、卡通人物 , 甚至瞬間擁有水光肌 , 效果自然到分不清真假 。
在youtube Shorts相機里 , 每個人都能「千變萬化」 。
可以是卡通角色、萬圣節僵尸 , 甚至能立刻擁有粉色水光肌 , 效果自然又流暢 。
最神奇的是 , 這些特效是直接在手機上實時生成的 。
那么問題來了:YouTube是怎么把十幾個G的大模型 , 塞進手機里的?

大模型塞進手機:YouTube的「瘦身術」生成式AI模型的效果確實經驗 , 但卻有個致命問題:太大、太慢 。
像StyleGAN、Imagen這類模型 , 只有在服務器上才能跑動 。
因此必須要解決的問題 , 就是讓濾鏡在手機相機里即時生效 。

瘦身關鍵:知識蒸餾YouTube的思路 , 是把龐大的生成模型「瘦身」 , 變成一個專門為移動端設計的小模型 。
這個過程靠的是一套叫知識蒸餾的方法 。
【再也不怕面癱臉,YouTube黑科技:AI幫你「永久微笑」,連僵尸都咧嘴笑】簡單說 , 就是「老師–學生模式」 。
大模型先當老師 , 生成各種示范;小模型則是學生 , 一點點模仿 , 直到學會獨立完成任務 。
老師是動輒幾十G的龐然大物 , 學生則是輕巧的UNet+MobileNet架構 , 能在手機GPU上輕松跑到30幀 。
不過 , 真正的教學過程遠比想象中復雜 。

打磨細節:迭代蒸餾工程師們不是「一次教完」 , 而是采用迭代式蒸餾 。
大模型不只是給學生出題 , 還會在過程中不斷測試:給人臉戴上眼鏡、加上遮擋 , 甚至模擬手擋臉的場景 。
學生在學習時 , 也不是簡單照搬 , 而是要同時滿足多種標準:畫面數值對得上、看上去相似、自然不突兀 , 還得兼顧美感 。
整個過程就像是反復刷題:學生交卷 , 老師挑毛病 , 再調整參數繼續練 。
YouTube 的蒸餾流程:大模型先生成前后對照的圖像對 , 小模型在此基礎上不斷學習 , 并通過超參數搜索迭代優化 , 最終實現如「永不眨眼」這樣的實時特效 。
工程師們甚至用上了神經架構搜索 , 自動幫學生找到最合適的「學習內容」 , 讓它既高效又穩定 。
經過一輪輪打磨 , 小模型終于真正掌握了大模型的本事 。
在Pixel 8 Pro上 , 只需6毫秒就能完成一幀運算 , iPhone 13大約10 毫秒 , 完全滿足實時30幀的要求 。

怎么保證還是你:PTI做擔保生成式AI在做特效時有個通?。 核換嵩讜忌系有Ч?, 而是會重新生成整張人臉 。
結果往往是膚色變了 , 眼鏡沒了 , 甚至五官都會變形 , 看上去完全不像本人 。
這就是「inversion problem」——當模型把人臉轉到潛在空間時 , 沒能忠實還原身份特征 。
YouTube想到的解決方案是Pivotal Tuning Inversion (PTI) 。
可以把它理解為:在加特效之前 , 先讓AI學會精準地「認清你是誰」 。
原始圖像會先被壓縮成一個潛在向量 , 生成器用它畫出一張初步的臉 , 但往往細節不到位 。
于是工程師讓生成器反復微調 , 讓膚色、眼鏡和五官逐漸被校正回來 。
等身份被牢牢固定之后 , 再往里面加風格向量:比如笑容、卡通效果或者妝容 。
最后生成的畫面 , 看上去就是「還是你 , 只是換了個風格」 。
圖:PTI的完整流程:從輸入人臉 , 到生成初始inversion , 再經過多輪微調 , 最后在保留身份特征的前提下疊加特效 , 得到最終圖像 。
換句話說 , PTI保證了這些AI特效更像化妝 , 而不是換臉 。

手機里的流水線工廠:MediaPipe加速管道訓練出輕量級的小模型只是第一步 , 真正的挑戰是如何穩定地在手機上運行 。
為此 , YouTube選擇了MediaPipe——Google AI Edge的開源多模態ML框架 , 用它來搭建端側的完整推理管道 。
整個流程可以分成四步:
首先 , 通過MediaPipe的Face Mesh模塊 , 識別出視頻流中的一個或多個人臉 。
接著 , 由于學生模型對人臉位置很敏感 , 系統會把檢測到的臉進行穩定裁剪和旋轉對齊 , 保證輸入一致 。
之后 , 裁剪后的圖像被轉成張量輸入學生模型 , 特效(比如微笑、卡通風格)在這一環節實時生成 。
最后 , 模型輸出的人臉圖像再被無縫拼回到原始視頻幀中 , 讓用戶看到連貫自然的最終畫面 。
圖:MediaPipe在端側的完整推理流程:先檢測人臉并穩定對齊 , 再送入學生模型生成特效 , 最后拼回視頻幀 , 整個過程在毫秒級內完成 。
通過GPU加速 , Pixel 8 Pro上的推理延遲被壓縮到約6毫秒/幀 , iPhone 13 GPU約10.6毫秒/幀 。
對用戶來說 , 就是打開相機就能體驗到順滑的AI特效 。

不只是美顏:YouTube的實時AI秀場這套技術已經在YouTube Shorts上全面鋪開 , 創作者們能直接用上幾十種實時特效 。
想要時刻掛著微笑?用Always Smile , 哪怕你本人此刻面無表情 , 鏡頭里也會立刻咧嘴笑開 。
想玩點驚悚?萬圣節專屬的Risen Zombie , 分分鐘把你變成剛爬出來的喪尸 。
這些濾鏡已經讓Shorts里的創作方式發生了質變:不是貼圖 , 而是AI量身繪制 。
但這只是開始 。
YouTube正在測試用Veo模型 , 可以把一張靜態圖片生成完整的視頻片段 。
用戶只需要一張自拍或者一幅手繪 , 就能在手機上變成一段動態短片 。
這意味著 , 未來的YouTube Shorts不只是拍視頻加濾鏡 , 而是隨手一張圖 , 就能生成一條視頻 。
創作者的門檻會進一步降低 , AI會更深地嵌入每個人的創作過程 。
從實時濾鏡到一鍵生成短片 , YouTube正把AI變成創作者的隨身畫筆 。

參考資料https://research.google/blog/from-massive-models-to-mobile-magic-the-tech-behind-youtube-real-time-generative-ai-effects/
本文來自微信公眾號“新智元” , 作者:傾傾 , 36氪經授權發布 。

    推薦閱讀