再也不怕面癱臉，YouTube黑科技：AI幫你「永久微笑」，連僵尸都咧嘴笑_ai

文章圖片

文章圖片

幾十G的大模型，怎么可能塞進一臺手機？YouTube卻做到了：在 Shorts 相機里， AI能實時「重繪」你的臉，讓你一秒變身僵尸、卡通人物，甚至瞬間擁有水光肌，效果自然到分不清真假。
在youtube Shorts相機里，每個人都能「千變萬化」。
可以是卡通角色、萬圣節僵尸，甚至能立刻擁有粉色水光肌，效果自然又流暢。
最神奇的是，這些特效是直接在手機上實時生成的。
那么問題來了：YouTube是怎么把十幾個G的大模型，塞進手機里的？

大模型塞進手機：YouTube的「瘦身術」生成式AI模型的效果確實經驗，但卻有個致命問題：太大、太慢。
像StyleGAN、Imagen這類模型，只有在服務器上才能跑動。
因此必須要解決的問題，就是讓濾鏡在手機相機里即時生效。

瘦身關鍵：知識蒸餾YouTube的思路，是把龐大的生成模型「瘦身」，變成一個專門為移動端設計的小模型。
這個過程靠的是一套叫知識蒸餾的方法。
【再也不怕面癱臉，YouTube黑科技：AI幫你「永久微笑」，連僵尸都咧嘴笑】簡單說，就是「老師–學生模式」。
大模型先當老師，生成各種示范；小模型則是學生，一點點模仿，直到學會獨立完成任務。
老師是動輒幾十G的龐然大物，學生則是輕巧的UNet+MobileNet架構，能在手機GPU上輕松跑到30幀。
不過，真正的教學過程遠比想象中復雜。

打磨細節：迭代蒸餾工程師們不是「一次教完」，而是采用迭代式蒸餾。
大模型不只是給學生出題，還會在過程中不斷測試：給人臉戴上眼鏡、加上遮擋，甚至模擬手擋臉的場景。
學生在學習時，也不是簡單照搬，而是要同時滿足多種標準：畫面數值對得上、看上去相似、自然不突兀，還得兼顧美感。
整個過程就像是反復刷題：學生交卷，老師挑毛病，再調整參數繼續練。
YouTube 的蒸餾流程：大模型先生成前后對照的圖像對，小模型在此基礎上不斷學習，并通過超參數搜索迭代優化，最終實現如「永不眨眼」這樣的實時特效。
工程師們甚至用上了神經架構搜索，自動幫學生找到最合適的「學習內容」，讓它既高效又穩定。
經過一輪輪打磨，小模型終于真正掌握了大模型的本事。
在Pixel 8 Pro上，只需6毫秒就能完成一幀運算， iPhone 13大約10 毫秒，完全滿足實時30幀的要求。

怎么保證還是你：PTI做擔保生成式AI在做特效時有個通?。核換嵩讜忌系有Ч?，而是會重新生成整張人臉。
結果往往是膚色變了，眼鏡沒了，甚至五官都會變形，看上去完全不像本人。
這就是「inversion problem」——當模型把人臉轉到潛在空間時，沒能忠實還原身份特征。
YouTube想到的解決方案是Pivotal Tuning Inversion (PTI) 。
可以把它理解為：在加特效之前，先讓AI學會精準地「認清你是誰」。
原始圖像會先被壓縮成一個潛在向量，生成器用它畫出一張初步的臉，但往往細節不到位。
于是工程師讓生成器反復微調，讓膚色、眼鏡和五官逐漸被校正回來。
等身份被牢牢固定之后，再往里面加風格向量：比如笑容、卡通效果或者妝容。
最后生成的畫面，看上去就是「還是你，只是換了個風格」。
圖：PTI的完整流程：從輸入人臉，到生成初始inversion ，再經過多輪微調，最后在保留身份特征的前提下疊加特效，得到最終圖像。
換句話說， PTI保證了這些AI特效更像化妝，而不是換臉。

手機里的流水線工廠：MediaPipe加速管道訓練出輕量級的小模型只是第一步，真正的挑戰是如何穩定地在手機上運行。
為此， YouTube選擇了MediaPipe——Google AI Edge的開源多模態ML框架，用它來搭建端側的完整推理管道。
整個流程可以分成四步：
首先，通過MediaPipe的Face Mesh模塊，識別出視頻流中的一個或多個人臉。
接著，由于學生模型對人臉位置很敏感，系統會把檢測到的臉進行穩定裁剪和旋轉對齊，保證輸入一致。
之后，裁剪后的圖像被轉成張量輸入學生模型，特效（比如微笑、卡通風格）在這一環節實時生成。
最后，模型輸出的人臉圖像再被無縫拼回到原始視頻幀中，讓用戶看到連貫自然的最終畫面。
圖：MediaPipe在端側的完整推理流程：先檢測人臉并穩定對齊，再送入學生模型生成特效，最后拼回視頻幀，整個過程在毫秒級內完成。
通過GPU加速， Pixel 8 Pro上的推理延遲被壓縮到約6毫秒/幀， iPhone 13 GPU約10.6毫秒/幀。
對用戶來說，就是打開相機就能體驗到順滑的AI特效。

不只是美顏：YouTube的實時AI秀場這套技術已經在YouTube Shorts上全面鋪開，創作者們能直接用上幾十種實時特效。
想要時刻掛著微笑？用Always Smile ，哪怕你本人此刻面無表情，鏡頭里也會立刻咧嘴笑開。
想玩點驚悚？萬圣節專屬的Risen Zombie ，分分鐘把你變成剛爬出來的喪尸。
這些濾鏡已經讓Shorts里的創作方式發生了質變：不是貼圖，而是AI量身繪制。
但這只是開始。
YouTube正在測試用Veo模型，可以把一張靜態圖片生成完整的視頻片段。
用戶只需要一張自拍或者一幅手繪，就能在手機上變成一段動態短片。
這意味著，未來的YouTube Shorts不只是拍視頻加濾鏡，而是隨手一張圖，就能生成一條視頻。
創作者的門檻會進一步降低， AI會更深地嵌入每個人的創作過程。
從實時濾鏡到一鍵生成短片， YouTube正把AI變成創作者的隨身畫筆。

參考資料https://research.google/blog/from-massive-models-to-mobile-magic-the-tech-behind-youtube-real-time-generative-ai-effects/
本文來自微信公眾號“新智元” ，作者：傾傾， 36氪經授權發布。

再也不怕面癱臉，YouTube黑科技：AI幫你「永久微笑」，連僵尸都咧嘴笑

推薦閱讀

殺手3ema臥室線索怎么搜集殺手3ema臥室線索搜集指南

為什么大多數魚是近視眼？

沒有勇氣說不的根本原因是

千里香是什么植物的種子千里香香料是什么植物

男朋友吃醋了我該說什么

世界上最罕見的水晶

英雄聯盟首勝時間間隔是多少

電腦藍屏后應該做什么

紫禁城的四座城門分別是紫禁城有哪四個城門

空調制冷功率是什么意思空調制冷功率的含義

華為暢享20SE發布時間，這款手機什么時候發布？

買布頭做衣服布頭做衣服怎么樣

sennheiser耳機，森海塞爾的耳機怎么樣

狗青光眼用什么眼藥水,狗眼眼藥水有什么用

成人大專一年考幾次

zhiwei，什么叫love的zhiwei