AI戰略深度解析,NoteLLM,產品經理友好版。

AI戰略深度解析,NoteLLM,產品經理友好版。

文章圖片

大家好 , 我是喜歡研究AI的一枚產品經理
平時主要從事與AI、大模型、智能座艙等相關工作 。 在這里 , 我會持續跟大家分享AI相關的前沿技術、產品體驗、個人心得等有營養有價值的信息
另外 , 我還超愛自駕游~

前天寫了一篇文章→ 小紅書AI戰略深度解析 | 2027年 , 小紅書將成為中國第一大移動搜索引擎! , 這里面重點寫了兩件事兒:
  • 從技術的角度 , 解析了小紅書內部NoteLLM的工作原理 。 同時 , 我也追加了DeepSeep-COR對小紅書NoteLLM進一步降本增效的說明 。
  • 從產品的角度 , 講述了小紅書現在的AI現狀 , 并推理和給出了一些小紅書未來2年的AI發展路線 , 以及圍繞著AI衍生出來的一些具體場景和具體功能 。
然后轉發個身邊一些小伙伴 , 很多人看完后表示看不太懂[我想靜靜
哈哈 , 因為我自己是技術出身 , 后轉產品 , 而身邊多是產品經理 , 可能技術上有一些盲點 。 所以 , 這一篇文章 , 我會進一步的 , 站在產品經理的角度 , 去解析和重述NoteLLM , 用產品經理的視角 , 講述NoteLLM是怎么工作的 , 以及它在具體的使用場景中 , 是如何賦能小紅書App的 。
這篇文章內容還是比較多 , 所以開始前 , 先列一下內容結構(注意這不是目錄 , 是本文的核心內容 , 以及內容的講述順序):
  • ? 問題導向:NoteLLM要解決什么問題
  • ? 傳統方案痛點:BERT為什么不夠、LLM為什么太貴
  • ? 核心創意:一箭雙雕的多任務學習思想
  • ? 兩個巧妙設計:GCL + CSFT如何相互強化
  • ? 具體應用:美妝推薦、美食推薦等真實場景解析
  • ? NoteLLM-2升級:多模態融合如何避免\"文本壓制圖像\"
  • ? PM必知5點:關鍵認知和避坑指南



NoteLLM:產品經理友好版講解
我盡量用產品經理能理解的語言解釋NoteLLM的實現原理和產品價值 , 不涉及復雜數學 , 只講產品邏輯 。
一、問題導向:NoteLLM要解決什么問題?背景問題
小紅書的推薦系統需要做一件事:當一個用戶看了筆記A后 , 系統要推薦給ta最相關的筆記B 。
這個問題叫I2I推薦(Item-to-Item) 。
傳統方案的痛點
舊方案用什么? BERT模型
  • 優點:成熟穩定 , 能提取文本特征
  • 缺點:理解能力不足 , 無法充分利用筆記中的豐富信息
為什么BERT不夠?
想象用戶看了一篇\"Chanel香奈兒包包推薦\"的筆記 。 BERT只能理解文字\"包包、奢侈品、推薦\"這些關鍵詞 , 但看不到圖片中的色號、材質、搭配效果 。
而這些視覺信息往往比文字更重要 。 所以BERT推薦的\"相關筆記\"可能風格完全不搭 。
為什么不直接用大模型?
可能有人會說:\"那就用LLM(大語言模型)吧 , 它比BERT強得多啊 。 \"
沒錯!可問題是:
  1. LLM的成本太高(訓練、推理都貴)
  2. 直接從LLM提取embedding效果不一定好(LLM不是為推薦任務設計的)
  3. 需要大規模數據 , 小紅書可能并不想投這么多成本
NoteLLM的創意方案
核心思想:\"用LLM做其他事情 , 順便生成embedding 。 \"
換個角度:生成hashtag/category 和 生成筆記embedding 的本質是一樣的 , 都是把筆記信息壓縮 。
如果一個模型能學會\"給筆記生成合適的hashtag\" , 那這個過程中它必然深度理解了筆記的內容 。 而這種理解 , 就可以用來生成推薦用的embedding 。
這就是NoteLLM的創意:一箭雙雕 。
二、解決方案:NoteLLM的兩個巧妙設計核心概念:Note Compression Prompt(NCP)
想象你要把一個筆記的所有信息濃縮到一個特殊的字符上 。
筆記原文:\"小白鞋這個款百搭又舒適 , 我的Adidas Stan Smith已經穿了5年 , 無論搭配連衣裙還是闊腿褲都很協調 。 適合上班、約會、旅游 。 \"NCP處理方式:{筆記標題 + {hashtags + {category + {完整內容                  ↓            通過LLM處理                  ↓          提取特殊token[EMB
的表征                  ↓       這個表征就是\"筆記embedding\"
產品意義:這個embedding可以用來做什么?
  • 找\"相似筆記\"(I2I推薦)
  • 找\"風格搭配筆記\"(個性化)
  • 找\"時尚建議筆記\"(垂直搜索)
設計1:GCL - 用用戶行為指導模型學習
問題:\"什么樣的兩篇筆記應該被推到一起?\"
傳統方案:人工定義規則(太主觀)
NoteLLM的方案:讓用戶行為說話
具體怎么做?
系統會記錄:\"哪些筆記經常被同一個用戶看\" 。 比如:
  • 用戶A看了\"小白鞋推薦\"后 , 經??碶"Adidas搭配\"
  • 用戶B看了\"Chanel包包\"后 , 經??碶"奢侈品護理\"
系統把這些共現關系作為\"信號\"告訴模型:
\"老鐵 , 經過我的長期觀察和深度分析 , 這兩篇筆記經常被一起看 , 你學著讓它們的embedding更接近吧 。 \"
模型學習的過程就是對比學習(Contrastive Learning):
正樣本(應該接近):  - \"小白鞋推薦\" vs \"Adidas搭配\"  - 計算它們的embedding相似度  - 讓相似度盡可能高負樣本(應該遠離):  - \"小白鞋推薦\" vs \"護膚攻略\"  - 計算它們的embedding相似度  - 讓相似度盡可能低為什么這個設計聰明?
  • 不需要人工標注\"什么筆記相關\"
  • 直接用真實用戶行為作為真理
  • 模型學到的是推薦意義上的相似性 , 不是語義相似性
(\"語義相似性\"可能是\"都是美食\" , \"推薦相似性\"可能是\"風格搭配\"——兩者不一樣)
設計2:CSFT - 生成任務反哺embedding質量
問題:\"僅用GCL好嗎?\"
答案:還不夠 。 GCL只讓embedding\"滿足用戶行為\" , 但可能理解得不夠深 。
舉個例子:
  • Embedding A 和 Embedding B 相似度高 ?(滿足GCL要求)
  • 但它們表達的內容完全不同 ?(沒理解筆記真實含義)
CSFT的想法:強制模型深度理解筆記
\"既然你說兩篇筆記相關 , 那你給我生成一下它們的hashtag吧 。 如果你理解不透徹 , 生成的hashtag會南轅北轍很奇怪 。 \"
具體怎么做?
輸入:一篇筆記 + 目標hashtag過程:LLM預測\"下一個token應該是什么\"      (類似玩\"填空游戲\")輸出:生成正確的hashtag例子:筆記:小白鞋這個款百搭又舒適...目標hashtag:#小白鞋 #穿搭 #日常          ↓ LLM預測        輸出:#小白鞋 (√正確)             #穿搭 (√正確)             #日常 (√正確)為什么有效?
要生成正確的hashtag , LLM必須:
  1. 理解筆記講的是什么(\"小白鞋搭配\")
  2. 抓住關鍵點(\"百搭\"、\"日常\")
  3. 轉化為可搜索的標簽
這個過程中 , LLM的內部表征(embedding)會被不斷強化 , 變得\"理解更深\" 。
兩個設計的協同作用
為什么要同時做GCL和CSFT?
它們共享同一個LLM編碼器!
GCL任務:筆記 → LLM編碼 → embedding               ↑         這部分被強化CSFT任務:筆記 → LLM編碼 → 預測token → 生成hashtag               ↑         這部分也被強化結果:
  • GCL告訴編碼器:\"這兩個筆記應該接近\"
  • CSFT告訴編碼器:\"你要理解筆記的關鍵概念\"
  • 兩者合力→embedding既滿足推薦邏輯 , 又有深度理解
三、兩個任務的詳細對比


[上圖 , GCL vs CSFT 任務對比

GCL任務(圖片左側流):學習推薦邏輯
方面
說明
輸入
兩篇相關的筆記(來自用戶共現行為)
處理
LLM分別編碼這兩篇筆記 , 提取embedding
學習
計算embedding相似度 , 通過對比學習讓它們更接近
損失函數
InfoNCE Loss(標準的對比學習損失)
收益
embedding學會\"推薦意義上的相似性\"
CSFT任務(圖片右側流):增強理解深度
方面
說明
輸入
筆記 + 目標hashtag/category
處理
LLM逐個預測下一個token(類似文本補全)
學習
如果預測正確 , 說明理解透徹
損失函數
Language Modeling Loss(語言建模損失)
收益
LLM被迫深度理解筆記 , embedding質量提升
總損失函數(關鍵設計)
總Loss = L_gcl + α × (L_gen / (1 + α))為什么這樣設計?- L_gcl:對比學習任務的損失- L_gen:生成任務的損失- α:可調的權重系數- (1+α)在分母:確保權重不會無限放大實際應用:- 當α=1時 , 兩個任務權重相等- 當α>1時 , 更重視生成任務- 當α<1時 , 更重視對比學習任務產品含義:通過調整α , 可以控制\"推薦邏輯\"和\"內容理解\"的平衡 。
四、NoteLLM-1.0的產品效果離線指標(數據層面)
指標
數值
含義
Recall@100
從BERT的0.xx提升到0.yy
推薦的相關筆記找到率
相似筆記排序質量
+15-20%
embedding的排序能力
在線指標(用戶層面)
指標
變化
含義
點擊率(CTR)
+5-8%
用戶更愿意看推薦
平均停留時間
+10-15%
用戶看推薦內容更久
互動率
+8-12%
用戶更愿意點贊/評論
產品反?。 河沒Х⑾滯萍齦謀始荺"風格更搭\"\"更實用\" 。
五、NoteLLM在產品中的應用應用1:美妝推薦場景
用戶行為:看了\"極簡穿搭\"筆記
NoteLLM做什么:
  1. 提取\"極簡穿搭\"筆記的embedding
  2. 找embedding相似的筆記
  3. 推薦給用戶
為什么有效:
  • GCL學到了\"極簡穿搭\"和\"小白鞋搭配\"的關聯(用戶共見)
  • CSFT強化了\"極簡風格\"的理解
  • embedding既理解風格 , 又理解搭配邏輯
用戶感受:推薦的都是自己喜歡的風格 , 太懂我了!
應用2:美食推薦場景
用戶行為:看了\"寧夏路日料推薦\"
NoteLLM做什么:
  1. 理解\"日料\"\"寧夏路\"等特征
  2. 找相似的本地美食筆記
  3. 推薦其他\"日料\"或\"寧夏路附近\"的筆記
為什么有效:
  • 同一個embedding既包含\"美食類別\"信息 , 又包含\"地理位置\"信息
  • GCL和CSFT聯合優化 , 信息更完整
應用3:品牌忠誠度場景
用戶行為:經??碶"Adidas穿搭\"
NoteLLM做什么:
  1. 推薦\"Adidas新款發布\"
  2. 推薦\"運動風搭配\"
  3. 形成圍繞品牌和風格的推薦閉環
為什么有效:
  • embedding同時學到了\"品牌特性\"和\"個人偏好\"
  • 能更精準地預測用戶需求
六、NoteLLM-2.0:多模態升級為什么需要NoteLLM-2?
NoteLLM-1.0只處理文本 , 但小紅書筆記天生是多模態的:
  • 文字:\"Adidas Stan Smith , 百搭又舒適\"
  • 但圖片中有關鍵信息:實際色號、膚色是否匹配、搭配的其他單品
NoteLLM-2的兩個升級
升級1:mICL - 顯式分離視覺和文本
問題:如果把圖像簡單地\"拼接\"到文本后 , LLM會優先處理文本 , 忽視圖像 。
方案:在Prompt中顯式標記
原來的Prompt:{筆記文字 + 圖像tokenNoteLLM-2的Prompt:[文本內容:{筆記文字
[視覺內容:{圖像token
請理解上述筆記的完整含義 。
產品意義:\"告訴模型別忘了看圖片!\"
升級2:Late Fusion - 視覺信息單獨處理
原理:不讓圖像進入LLM的\"中間層\"(那里文本會壓制圖像) , 而是在最后才融合 。
傳統方式(Early Fusion):圖像 → LLM處理 → 輸出(LLM可能忽視圖像)NoteLLM-2(Late Fusion):圖像 → 保留原始視覺特征(不進LLM)      ↓      與LLM的輸出在最后融合      ↓      結果:圖像和文本都被充分利用產品意義:\"給圖像開辟專屬通道 , 不被文本壓制 。 \"
效果提升
指標
NoteLLM-1.0
NoteLLM-2.0
提升
Recall@100
0.7274
0.8025
+2.5%
短文本場景
0.68
0.745
+6.72%
線上CTR
基準
+6.35%


互動時長
基準
+8.08%


用戶感受升級:
  • NoteLLM-1.0:\"推薦的衣服風格不錯\"
  • NoteLLM-2.0:\"推薦的衣服風格好 , 色號也很搭我的膚色!\"
七、產品經理應該了解的5個要點1. NoteLLM不是推薦算法 , 是特征表示
NoteLLM是一個\"特征提取器\" , 提取出的embedding可以用于推薦、搜索等多個場景 。
產品含義:同一個embedding可以被多個系統使用 。
這里多說一句 , 這種設計思路 , 在AI產品中 , 不僅僅是工程師們應該考慮的事兒 , 作為產品經理 , 在你的產品設計之初 , 就要有這種思路和概念!
2. 兩個訓練任務相互強化 , 不是獨立的
GCL和CSFT同時進行 , 共享LLM編碼器 , 相互增強 。
產品含義:性能提升來自\"協同作用\" , 不是\"簡單疊加\" 。
3. GCL用的是用戶行為 , CSFT用的是標簽
  • GCL的真理來源:用戶共同行為(隱式反?。 ?/li>
  • CSFT的真理來源:人工標注的hashtag/category(顯式標簽)
  • 組合效果:既學到\"用戶喜歡什么\" , 又學到\"內容本質\"
產品含義:需要投入數據標注 , 但長期價值巨大 。


解釋一下 , 什么叫“真理來源”?
在訓練任何模型時 , 都需要一個標尺來算損失(loss) , 告訴模型“這次學對了/學錯了多少” 。 而這個標尺的來源 , 就叫“真理來源”(ground truth/source of truth) 。
所以上面提到的”真理來源“ , 是機器學習里“監督信號/標準答案”的來源 , 也就是模型訓練時用來評判“對不對”的依據 。 GCL用“用戶怎么實際行為”的數據當監督信號;CSFT用“人或規則打的權威標簽”當監督信號 。 前者偏“關系是否搭” , 后者偏“內容是什么” 。
1 , 一句話概述GCL和CSFT:GCL像“看大家實際常一起買/一起看的搭配清單”(最大程度發揮群眾智慧);CSFT像“由品類MD制定的官方分類手冊”(最具權威的參考標準) 。 兩個一起用 , 既接地氣又不失標準 。
2 , GCL的“真理來源”= 用戶共同行為(隱式反?。 ?
含義:誰和誰“經常被同一批用戶連續/共同消費” , 就被視為“應當更接近”的正樣本對;反之為負樣本 。
舉例:用戶在一次會話里先看“青浦護照換證流程” , 緊接著看“青浦政務中心踩坑避雷” , 這倆被判為“更應相似”的一對;與“貓咪絕育指南”的組合則更可能是負樣本 。
訓練目標:讓“正對”embedding距離更近、與“負對”更遠 , 從而學到“推薦意義上的相關性” 。
3 , CSFT的“真理來源”= 人工標注的標簽/類目(顯式標簽)
含義:由標注員或穩定規則體系給出的hashtag/category(如“護照/換證”“本地辦事/青浦”) , 當作模型應當“生成/預測”的標準答案 。
舉例:筆記應被系統正確地打上“青浦/護照/換證”這類標簽;模型生成正確越多 , 說明理解越到位 。
訓練目標:逼著模型“讀懂內容要點并用標準詞匯表達” , 從而學到“語義/知識上的理解” 。
GCL和CSFT一起用 , 既能讓模型能力貼近業務場景 , 又能提高語義理解和可解釋性 。


4. 多模態升級(NoteLLM-2)的核心是\"不讓文本壓制圖像\"
不是\"把圖像加進去就行\"
  • 而是\"確保圖像信息被充分利用\"
產品含義:技術的微妙之處決定了產品體驗的差異 。
5. 效果可調 , 通過α參數權衡\"推薦邏輯\"vs\"內容理解\"
  • α?。 焊厥油萍雎嘸╡mbedding更\"商用\")
  • α大:更重視內容理解(embedding更\"語義\")
產品含義:可以針對不同業務場景調參 。
八、小紅書為什么要做NoteLLM?成本考量
方案
成本
訓練周期
維護難度
BERT微調



直接用LLM embedding



NoteLLM



效果權衡
方案
推薦效果
理解深度
多場景適用
BERT
??
?
?
直接用LLM
???
???
???
NoteLLM
???
???
???
獨特價值
小紅書用NoteLLM而不是直接用LLM embedding的原因:
  1. 成本可控:不需要巨量計算資源
  2. 效果最優:兼容推薦邏輯和內容理解
  3. 可定制化:通過調整α權重適配不同業務
  4. 可遷移:同一個embedding支持推薦、搜索、分類等多個應用
九、總結:NoteLLM的產品邏輯問題:  小紅書需要理解\"什么筆記和什么筆記相關\"NoteLLM的想法:  與其糾結embedding怎么生成 ,   不如讓模型一邊學\"推薦任務\" ,   一邊學\"內容理解任務\" ,   兩個任務相互增強 。 關鍵創新:  ? GCL:用用戶行為當\"推薦邏輯\"的老師  ? CSFT:用內容標簽當\"深度理解\"的老師  ? 多任務學習:兩個老師教同一個學生(LLM)最終成果:  ? embedding既滿足推薦需求 , 又有深度理解  ? 成本比直接用LLM低 , 效果不打折  ? 可推廣到搜索、分類等多個應用場景Wow效果:  用戶覺得\"推薦太懂我了\" , 創作者覺得\"終于有好的展示機會了\"對產品的啟發
  1. 多任務學習很強大:不同的目標可以相互協同
  2. 隱式反饋很寶貴:用戶行為本身就是最好的標簽
  3. 細節很重要:Late Fusion vs Early Fusion的區別可以產生2.5%的性能提升
后續發展
NoteLLM-2預期下一版本會支持更多模態(視頻、音頻)和更復雜的推薦場景 。
閱讀原文→
AI產品經理|智能座艙產品經理|奶爸|自駕游愛好者|科技數碼愛好者|給自己打工!
【AI戰略深度解析,NoteLLM,產品經理友好版?!?/strong>??體驗分享AI前沿技術與產品|記錄分享個人學習與心得|情緒價值傳播|鏈接同行者!

    推薦閱讀