
文章圖片

文章圖片
【會「進化」的合成數據!無需上傳隱私,也能生成高質量垂域數據】
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

張劍清是一名上海交通大學在讀博士生 , 獲中國人工智能學會「青托」、吳文俊人工智能榮譽博士及國家獎學金 。 在代碼大模型、合成數據集進化生成、聯邦學習與推薦系統方向取得系列成果 , 主要關注其中的垂域自適應、模型融合、模型個性化主題 , 于JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等發表9篇CCF-A一作論文 , 主導并開源了PFLlib、HtFLlib、EvolveGen等項目 , 曾在字節跳動、清華AIR、KAUST、騰訊等機構實習交流 。
數據短缺問題隨著大模型的高速發展 , 日益加劇 。 已經有不少 Nature 論文指出 , 預計到 2028 年 , 公共數據的產生速度將因趕不上大模型訓練的消耗速度而被耗盡 。 而在某些特殊領域 , 比如醫療、工業制造等 , 原本可用數據就非常少 , 數據短缺的問題更嚴重 。
為了解決這一困境 , 我們提出了合成數據自主進化框架 PCEvolve:只需提供少量標注樣本 , 就可在保護隱私同時進化出一整個數據集 。 PCEvolve 的進化過程類似 DeepMind 提出的 FunSearch 和 AlphaEvolve 。
- 論文標題: PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs
- 論文鏈接:https://www.arxiv.org/abs/2506.05407
- 開源代碼:https://github.com/TsingZ0/PCEvolve
- 進化生成開源平臺:https://github.com/TsingZ0/EvolveGen
垂直領域的中小企業普遍不具備訓練私有大模型的能力 , 而傾向于使用現成的大模型 API(下文簡稱「大模型」) 。 人造合成數據是目前解決數據短缺問題所采用的主流方法:讓已有大模型生成數據 , 再進行篩選、標注、清洗等步驟 , 得到高質量訓練數據 。
然而 , 當應用到垂直領域 , 如醫療、工業制造等領域 , 大模型雖然能夠根據 prompt 生成對應的數據 , 但滿足「語義匹配」的數據 , 并不能直接拿來作為垂直領域數據使用 。 這是因為:垂直領域的數據還有各種其他特性信息 , 比如光照、數據采樣設備型號、隱私信息、上下文等 。
舉例來說 , 皮革在不同環境、材質、磨損程度等方面 , 都具備太多細節信息 , 而提供給大模型的 prompt 很難完整描述;即便完整描述 , 大模型也不能完全生成符合 prompt 的數據 , 因為大模型本身還無法完全模擬世界 。
如下圖所示 , 大模型生成的數據 , 和垂域攝像機拍攝的數據 , 具有巨大的差距 , 雖然標簽都是「帶有膠水殘留的皮革」 。 同樣的 , 在文本領域 , 讓現成的大模型生成的 code snippet 數據 , 也無法與某公司內部開發人員的代碼習慣和代碼規范相匹配 。 而且 , 這一垂域數據特征分布差異的問題 , 在任意模態都存在 。
【圖 1】左邊為大模型生成 , 右邊為實際采集 。 在工業制造皮革領域 , 大模型生成圖片和實際采集圖片的對比
同時 , 因為垂域數據可能因為知識產權、隱私保護、行業規范等原因 , 本地數據不允許上傳給大模型作 context , 極大地增加了 prompt 工程的難度、降低了合成數據的質量 。 比如 , 公司內部的代碼不能上傳、醫院的病人數據不能上傳、企業的次品樣品數據不能上傳等等 。
PCEvolve:保護隱私的合成數據進化框架
垂域數據除了不能上傳之外 , 還具有本身就稀少的特性 , 導致帶標注的垂域樣本原本就少 。 這使得其他要求提供大量標注樣本的方法(如 PE 等) , 不再可用 。 因為 PE 等方法在垂域情況下 , 為了保護隱私所加的噪聲過大 , 使其方法退化為一種隨機方法 。 而我們的 PCEvolve 在進化過程中設計了一種基于「指數機制」(Exponential Mechanism)的新的隱私保護方法 , 適配垂域場景的少樣本情況 。
下圖是 PCEvolve 的架構圖 , 左邊是迭代進化框架:類似達爾文進化論 , 先讓大模型 API 生成較大數量的候選合成數據(種群) , 再經過【選擇器】(自然選擇)進行淘汰 , 最后將不帶隱私信息的優質合成數據返回給大模型進行下一輪進化 。 右邊則是進化框架的「引擎」【選擇器】的詳細設計:以隱私數據作為參考(verifier)給合成數據打分(reward) , 最后根據分數優勝劣汰;其中打分過程 , 因為用到了隱私數據 , 需要作隱私保護 。
【圖 2】PCEvolve 架構圖
PCEvolve 選擇器詳細設計
首先我們先聲明:下面所有的操作都需要考慮隱私保護 , 我們采用的是差分隱私(Differential Privacy DP) , 并通過指數機制來實現 DP , 其中指數機制定義為:
- 執行指數機制選擇存活樣本因為在我們的精心設計下 , 使得指數機制得以滿足 , DP 得以保證 。 所以這一步變得簡單:我們只需要執行指數機制定義的概率采樣 , 即可得到帶有隱私保護的高質量合成數據選擇結果 。
我們主要通過兩種方式驗證 PCEvolve 的效果:a) 合成的數據對于下游模型訓練的增幅 , b) 合成數據本身的質量 。
a) 合成的數據對于下游模型訓練的增幅
我們評估了 PCEvolve 在 COVIDx(COVID-19 胸部 X 線圖像)、Came17(乳腺癌轉移的腫瘤組織切片)、KVASIR-f(用于胃腸道異常檢測的內鏡圖像)、MVAD-l(用于異常檢測的皮革表面)上的表現 , 這里大模型方面我們只需提供 API 即可 。
【表 1】在四個特殊領域數據集上的精度(%)
b) 合成數據本身的質量
下圖是我們采樣的皮革表面數據 , 這三行分別代表正常皮革、有切割缺陷的皮革、有膠水殘留缺陷的皮革 。 「Initial」表示大模型 API 合成的圖像(進化之前);「Private」表示垂域場景真實采集的隱私皮革表面數據 。
【圖 3】皮革表面圖像數據 。
其他更多實驗詳見論文 。
推薦閱讀
- iOS18.5系統,會是iOS18系統中最后一個系統嗎?
- 三顆鏡頭傳感器被確認:搭載機型基本清晰,大家會選擇誰?
- 從996到山野徒步,前小鵬高管給自己造了個AI 「戶外搭子」
- Nothing Phone(3) 圖賞:透明設計再進化,好怪好喜歡
- 剛剛,小米發布的新款小米15,把米粉都整不會了
- 卡薩帝電視 AI 服務智能體驚喜上線,讓家電問題「速化解」!
- 為什么說iPhone17會是一款真香機?這兩大升級很關鍵
- 突破落地瓶頸,AMD Mini AI工作站峰會揭曉端側AI實現新路徑
- 三星新品發布會都有啥?一文看懂
- AI裝智能升級插件,阿里安全-清華大學D-MoLE讓模型在學習中進化
