算法與算法之外:內容推薦系統如何運行?

算法與算法之外:內容推薦系統如何運行?

文章圖片

算法與算法之外:內容推薦系統如何運行?

文章圖片


算法背后:平臺和用戶相互影響 。


文丨孫海寧
編輯丨高洪浩


內容平臺天生面臨一個矛盾:推薦算法太透明 , 不但暴露商業機密 , 還容易鼓勵創作者和商家針對優化特定數據搏流量;推薦算法不透明 , 每當攪動社會情緒的事件出現 , 用戶總會懷疑內容平臺在操控信息流動 。


抖音是國內最大的內容平臺之一 , 相應也受到最猛烈的批評 。 去年 11 月 , 知名企業家鐘睒睒公開指責抖音放縱造謠賬號抹黑企業形象 , 引發共鳴;近期 , 北京大學青年教師韋東奕在抖音開通賬號 , 迅速獲得超千萬名粉絲 , 又有用戶指責抖音 “造神” 。


同期 , 中國監管部門也發起針對互聯網平臺的治理行動 , 把 “以適當方式公示算法推薦服務的基本原理、目的意圖、主要運行機制等” 作為工作目標 。


今年年初開始 , 抖音成立算法透明項目組 , 首次對外解釋推薦算法的原理、治理內容生態的思路 。 《晚點 LatePost》訪談了抖音算法、生態治理相關負責人 , 了解這家公司如何影響用戶、又如何被用戶影響 。


推薦算法學習用戶行為規律


用戶點擊手機上的音符圖標 , 打開應用的幾秒內 , 抖音推薦算法已經在每天增加數億個視頻的內容庫中 , 完成推薦運算 , 再根據運算結果排序 。 大邏輯不復雜:


先分別估計視頻引起用戶某個行為——點贊、評論、進入直播間等等——的概率 , 再用事先確定的行為價值分數和行為概率相乘 , 然后加總 。 最終得分越高 , 視頻就越可能被刷出 。





預測行為概率是靠歷史數據 。 過往視頻激發了哪些行為 , 以及這些視頻、視頻觀眾的特征 , 會源源不斷地匯入機器學習模型 , 就像帶有標準答案的樣題 , 供模型學習 。 理想情況下 , 每迭代一次 , 模型預測行為概率時就估得更準 。


“模型本質是在學某類人對某類視頻發生特定行為的規律 。 ” 抖音算法工程師劉暢說 , “如果模型判斷你我興趣相近 , 之前我點贊某個歷史視頻 , 那模型可能估計你也容易為它點贊 。 ”


平臺能獲取到的各類信息可能都有助于提高模型預測的準確度 。 為增加模型可用信息 , 抖音有時還會重新設計用戶界面 。 2021 年之前 , 為求首面板簡潔干凈 , 用戶只有長按屏幕或者點擊分享之后 , 才能在二級面板內收藏視頻 。 但在推薦團隊嘗試提升中、長視頻的分發效率后 , 意識到 “用戶收藏” 是反映視頻質量的重要信號 , 因此將收藏按鈕提至首面板 , 方便收集更多收藏數據 。


模型估出用戶各項行為概率后 , 還要乘以預先確定的價值分 。 價值分越高 , 意味著某項行為越被平臺鼓勵 。 相比目標是提高客觀預測精度的行為概率模型 , 價值分更體現平臺主觀偏好 , 設定不好 , 就可能大幅影響平臺生態 。



【算法與算法之外:內容推薦系統如何運行?】

抖音確定行為價值分是靠 A/B 測試:微調一組用戶推薦算法的價值分 , 再和另一組沒調整的用戶對照 , 觀察平臺重視的各項指標如何變化 。 這些指標可以是日活躍用戶數量、創作者投稿數量、平臺商品銷售額等 。


多個指標可能同時朝不同方向變動 。 這時抖音數據分析團隊會在各個指標之間創建換算關系 , 并約束它們對最重要的 “北極星” 指標——長期留存——的影響 。


觀察上述指標變化 , 抖音可以判斷業務團隊是否像自己聲稱地那樣完成任務 。 比如抖音電商定位 “興趣電商” , 目標是推薦用戶需要的商品 。 “衡量推薦精度的電商轉化率提高 , 就不能把衡量用戶體驗的活躍度指標拉下去 。 ” 劉暢說 。


用戶使用抖音的習慣不同 , 同一行為暗含的信息量也就不同 。 熱衷點贊的用戶可能不放過每次鼓勵創作者的機會 , 無論視頻質量優劣;要求更高的用戶則只會對自認為最高質量的內容點贊 。 顯然 , 后一種點贊顯出視頻對用戶的價值更高 , 價值分應該隨之調整 。


為此 , 抖音允許價值分在平臺預設的基礎上千人千面地變化 , 同時也會針對有特定觀看習慣的用戶設計特定策略 , 由此保證價值分反應用戶偏好 。


抖音會控制價值分個性化 , 或者針對特定行為策略的復雜程度 。 劉暢說這一方面是出于成本考慮 , 多一個模型動態調整價值分 , 算力成本就被堆得更高 。 另外 , 推薦系統需要控制復雜度 , 增強算法魯棒性——讓系統面對各種干擾時仍保持穩定運轉 。


先人工定調 , 再機器放大


推薦算法并非萬能 。 它只是根據用戶可能 “點贊、評論、分享” 的概率 , 加上平臺給這些動作設定的權重 , 為內容排序 , 看不出視頻本身是否優質 。 維護內容生態 , 先得由平臺員工確定內容評判標準后 , 推薦算法才能批量執行 。


抖音內容運營負責人李翔宇告訴《晚點 LatePost》 , 2023 年開始 , 抖音運營部門更重視增加優質內容占比 。


新工作從定義何為 “優質供給” 開始 。 運營員工人工初篩出各個內容類目的優質視頻 , 然后定期開會二次篩選、討論 , 提煉出這些視頻的特點 , 形成可以被文字闡釋的標準 。


“我們會請創作者幫忙一起研判 , 一些觀看次數不高、可我們覺得是優質的內容會發給創作者 , 請他們從專業視角評判 。 ” 李翔宇說 。 過程中 , 播放量高但沒有創意的視頻也會被拿出來討論 , “比如賣弄技巧 , 但沒有信息量的視頻 。 ”


優質標準是動態調整的 。 “抖音剛上線時 , 運鏡視頻肯定屬于優質內容 。 但發的人越來越多 , 觀眾審美疲勞 , 創作者就需要在運鏡基礎上增加更多創新玩法 。 ” 李翔宇說 。


標準制定好 , 更多內容運營和審核員工就能參考它們 , 為更多內容打上 “優質視頻 / 非優質視頻” 的標簽 。 這之后 , 有了學習樣本的算法開始發揮效力 , 批量識別出還沒經過人工評判的優質視頻 。


“算法的優勢在于批量處理 。 畢竟運營員工能研判的視頻數量是有限的 , 算法可以將更多優質創作者和優質視頻更早地發掘出來 。 ” 李翔宇說 。


就像所有內容平臺 , 抖音會對優質視頻提供流量激勵 。 之前的方式是保證它們獲得一定播放量 , 但效果有限 。 “比如中、長知識類視頻 , 用保證一定播放量的方式幫它們完成冷啟動 , 之后完播率還是天生不如 10 秒短視頻 , 得不到算法重視 。 ” 李翔宇說 。


新辦法是在定義優質內容后 , 看哪些用戶行為和行為價值分可以讓流量導向優質內容 , 抖音就強化這些目標 , 如收藏、反復觀看、搜索等 。 去年 , 一條 450 分講紅樓夢的視頻獲得 3 億播放、780 萬收藏、637 萬分享 , 大量用戶的收藏和分享 , 讓這條長視頻得到更好的分發 , 被抖音當作算法和用戶雙向選擇的最佳實踐 。


提振優質內容外 , 內容生態治理的另一項主要工作是打擊劣質內容 。 這也是只有機器和人工相互配合才能完成的工作 。


創作者發布視頻后 , 內容會經歷多層審核 。 第一層審核針對所有視頻 , 目的是擋住違法違規、觸犯底線的內容 , 主要靠機器 , 機器認定內容風險較高則會交給人工判斷;播放量再上升到一定程度后 , 機器、人工會配合著二次審核 , 處理不宜過多分發 , 但不涉及底線問題的視頻;高熱內容還要經過第三層審核 。


除了依序推進的層級審核 , 某個視頻收到過多用戶負面反饋 , 或流量異常突變時 , 也會觸發研判治理環節 , 如果治理員工發現問題 , 同樣會停止分發和推薦視頻 。


上述標準審核流程外 , 抖音還會針對網絡暴力、未成年人保護、AIGC 違規內容治理等焦點問題發起專項治理 , 單獨設立團隊構建治理框架 。 比如 , 和抵制網絡暴力相關的措施包括搭建網暴賬號監控池、上線一鍵關閉來自陌生人的評論、私信及被搜索到的功能等 。



“之所以叫 ‘專項’ , 是因為治理這些問題需要調動多個部門 , 像上線新功能就需要產品、研發支持 。 但 ‘專項治理’ 不是 ‘項目制’ , 沒有結項日 , 開始之后會長期持續做 。 ” 李翔宇說 。




平臺影響用戶 , 用戶改變平臺




無論是提振優質內容還是打擊劣質內容 , 抖音治理措施不是平臺單方面意志的實施 , 而是和用戶行為相互影響、相互適應的結果 。


電商主播在抖音賣貨時 , 習慣用 “米” 替代 “錢” , 這是因為有傳言說 “錢” 在平臺的敏感詞列表中 , 主播講太多次 , 會影響直播間流量 。


“這把治理想象得太傻了 。 ‘錢’ 是常用字 , 不可能用作敏感詞過濾 。 ” 李翔宇回應 。 盡管抖音 2021 年就開始澄清可以用 “錢” 字 , 但只要傳聞涉及流量和隨流量而來的收入 , 電商商家仍然寧可信其有 。


相關案例增加后 , 抖音反而得治理非規范用字 , 今年會先從播放量超過千萬次的高熱視頻開始 。 “也不能立刻一棍子全打死 , 因為很多用戶已經習慣直播間里的特定表達了 。 ”


對付謠言時 , 抖音留有 “舉報” 按鈕 , 希望理智的用戶能自發識別、對抗部分謠言 。 但李翔宇說舉報渠道產生的信號并不完全可信 , 每天最多的舉報信息都涉及明星 , 背后是一個明星的粉絲群體試圖壓制另一個明星相關內容的流量 。


為更好地識別、對抗謠言 , 抖音設有一個三十人的團隊 , 每天主動巡檢、收集各類虛假信息 , 整理成一個 “謠言庫” , 然后交給機器學習模型識別相關視頻 。 “比如人工入庫一個 ‘韋東奕解決了六個博士四個月沒解決的難題’ 的謠言 , 只要已有、新上傳的視頻內有相關表述 , 就會被機器識別然后處置 。 ”


一些信息在傳播過程中因關鍵要素缺失 , 導致用戶理解偏差 , 演變為謠言 , 平臺就得通過多次核實才能 “跑贏” 這些不實信息 。


一個例子是 , 近期網絡上廣泛傳播的 “犬類禁養名單” 。 謠言炮制者拼湊各地分散的養犬管理規定 , 把部分城市在特定區域對特定犬種的限養政策 , 夸大為全國性禁養政策 。 對此 , 抖音需反復查閱官方文件 , 才能還原事件真相:目前 , 國家層面尚未出臺統一的禁養政策 , 相關管控措施由各省市地方政府制定 。


今年二季度開始 , 抖音治理團隊依據信息危害程度 , 進一步將謠言分為 “需要核實” 和 “無需核實” 兩類 。


“無需核實” 類包括 “明確存在不良社會影響或違背常識的無稽之談” 的內容 , 如 “某高校研究發現人類可以重生” , 會直接被平臺限制傳播 。 “需要核實” 的信息 , 先由聯網大語言模型進行事實核查 , 若模型檢索到的權威信源不足 , 則觸發人工核查員介入 , 最終根據核查結果 , 將內容細分為 “謠言”“疑似謠言”“爭議內容” 三類 , 并匹配對應的分級處置策略 。


和謠言同樣棘手的是熱點事件 。 去年一名網名為 “胖貓” 的男生跳江身亡后 , 他的姐姐在抖音發聲指責 “胖貓” 女友詐騙錢財 , 發酵成為公共事件 , 但公安部門調查后發現指責不實 。 反思時 , 抖音認為熱點事件當事人有發聲權利 , 但在事實水落石出前 , 也應該防止當事人不當利用輿論 , 傷害其他相關方 。


今年 5 月 , 抖音出臺社區熱點信息和賬號治理規則 。 基本原則之一是 “保護熱點發酵中當事人(方)的隱私、名譽、人身安全等權益 。 ” 對事實不清的熱點信息 , 抖音會增加提醒標簽 , 并會通過熱榜、彈窗推送的方式傳播熱點事件節點信息、核心事實 。


此外 , 爭議熱點事件爆發后 , 抖音會暫時禁止當事人帶貨、接廣告或接受直播打賞 。 這既是因為公眾反感素人走紅后立刻變現 , 也為防止當事人生活受巨大流量反噬 。


問及是否對熱點當事人管得太嚴時 , 李翔宇說很難定論:“根據很多熱點事件演進的經驗 , 當事人可能需要冷靜一段時間想清楚后續的規劃 。 冷靜期過后 , 我們會放開對變現的限制 。 ”




必然的變革 , 漫長的適應期




“和你的瀏覽器說再見吧!”1997 年 , 科技作家凱文 · 凱利在《推送!》(Push?。 ┮晃鬧行吹?。 他把靠人們主動搜索來傳遞信息的互聯網稱作 “拉式媒體”(Pull Media) , 并預言它會被 “推式媒體”(Push Media)取代:


不等用戶點擊 , 內容會主動出現在電視機上、電腦上、墻上、擋風玻璃上 , 或者其他任何能塞下一塊屏幕的地方 。 憑借無線傳輸技術 , 一度安靜的角落里也會充斥信息 , 廣告商爭搶人民注意力的競爭會空前激烈——總之 , 帶著全新的交互方式 , 推式媒體將塑造一個全新的世界 。


只要人類創造信息的速度快于消化信息的速度 , 情況就不可避免地朝凱利描繪的方向演進 。 但速度沒那么快 。 2006 年 Facebook 上線無限滾動的 News Feed 信息流后 , 靠推薦算法變得可用的推式媒體才算登陸電腦 。 等推式媒體開始占領手機屏幕 , 還得再十年 。


過程中 , 種種爭議也隨之而來 。 YouTube 推薦算法一度被報道過分追求 “用戶觀看時間” , 一步步把用戶引至容易上癮的陰謀論視頻;Instagram 被指責加重用戶身材焦慮 , 其他主流內容平臺的信息流幾乎都引發過批評 。


這不可避免 。 改天換地的新技術總是創造矛盾、引起爭議 , 這些矛盾、爭議先引致新的監管框架、社會共識 , 然后約束新技術更好地服務社會 。


每一次公眾、監管對內容平臺的問責 , 每一次問責后平臺的反思、調整 , 都是新技術和社會的相互磨合的注腳 。


最終檢驗算法的優劣的 , 不是它匹配內容和觀眾的精度 , 而是它與使用者之間相互適應的程度 。


題圖來源:視覺中國

    推薦閱讀