
在今天的專欄中 , 我將探討AI生成合成數據的有利應用 , 并展示斯坦福大學正在進行的一項關于解剖學上合理的3D大腦MRI創新研究如何繪制和解鎖大腦的奧秘 。
讀者可能還記得 , 我之前討論過斯坦福大學醫學院精神病學和行為科學系的一項AI與心理健康倡議 , 該項目被稱為AI4MH , 由精神病學和行為科學教授Kilian Pohl博士共同指導 。 Pohl博士關于使用AI生成合成數據來設計MRI的研究是明智利用生成式AI和大語言模型在心理健康和許多其他研究領域取得重大突破的前沿例子 。
讓我們來談論這個話題 。
這項AI進展分析是我在福布斯專欄中持續報道的最新AI發展的一部分 , 包括識別和解釋各種有影響力的AI復雜性 。
AI與心理健康治療
作為簡要背景 , 我一直在廣泛報道和分析現代AI在提供心理健康建議和執行AI驅動治療方面的各個方面 。 這種AI的興起主要是由生成式AI的不斷發展和廣泛采用推動的 。
毫無疑問 , 這是一個快速發展的領域 , 有著巨大的優勢 , 但同時 , 遺憾的是 , 隱藏的風險和明顯的陷阱也會出現在這些努力中 。 我經常就這些緊迫問題發聲 , 包括去年在CBS《60分鐘》節目中的露面 。
合成數據的未開發價值
每當您使用生成式AI或大語言模型(如OpenAI的流行ChatGPT)時 , 您實際上是在生成數據 。 這種AI生成的數據被稱為合成數據 。 它被認為是合成的 , 因為它是由AI產生的 , 而不是人類手寫的東西 。
當您使用ChatGPT、Claude、Gemini、Grok等時 , 您正在生成數據這個想法可能并不明顯 , 如果您只是向AI詢問如何煮雞蛋或修理汽車的問題 。 對您來說 , AI只是在回答您的問題 。 就這樣 , 故事結束 。
AI的任何答案或實際上任何回應都是數據的一種形式 。 您正在促使AI生成數據 。 數據本身具有價值 。 除了作為您問題的答案外 , 生成的數據還可以用于其他精明的目的 。 例如 , 您可以將生成的數據發布到互聯網上 , 從而與可能訪問該帖子的其他人分享數據 。
關于合成數據的爭論
就像現在生活中的幾乎所有事情一樣 , 合成數據的出現已經陷入激烈的爭論中 。 使用合成數據涉及權衡 。 如果明智和適當地使用 , AI生成的數據可能是一個巨大的福音 。 遺憾的是 , 當合成數據被肆意使用或沒有適當控制時 , 事情可能會出錯 。
一個主要的擔憂是我們將用合成數據填滿互聯網 。
在一個被稱為\"死互聯網理論\"的理論中 , 人們擔心當您閱讀互聯網上發布的內容時 , 它將是由AI設計的文本 。 您不一定會意識到AI產生了這些文本 。 您會假設一個活生生的人在網上寫作并發布了他們的評論 。
合成數據的普及被認為是不好的 , 因為互聯網的大部分最終可能幾乎完全由AI生成的數據組成 。 只有微小的人類書寫內容片段將保留下來 。 在生成數據的海洋中 , 也許只有微小的人類寫作片段 。 這些片段將像廣闊干草堆中的針一樣稀缺 。
關于互聯網已經向AI生成數據傾斜程度的持續猜測是一個激烈爭議的話題 。 爭論和反駁飛快進行 。 例如 , 一種觀點是我們可能更好地用合成數據代替人類書寫的數據 。 誰能說人類書寫的數據必然比AI生成的數據更好?激烈的辯論繼續進行 。
當我就最新AI趨勢發表演講時 , 我經常被問及是否應該禁止使用合成數據 。 或者人們不應該被允許將AI生成的數據發布到互聯網上 。 讓這成為犯罪 。 讓互聯網保持為僅有人類書寫內容的原始保護區 。
我強烈強調這種關于合成數據的思維方式是短視的 。 這是把嬰兒和洗澡水一起倒掉的傳統錯誤 。 AI生成的數據具有巨大價值 。 我們應該深思熟慮地考慮如何利用這種價值 。 同時 , 當然 , 我們應該謹慎避免誤用合成數據 , 并相應地采取謹慎的步驟 。
治療師-客戶會話分析的合成數據
作為我如何有益地選擇使用合成數據的簡要例子 , 考慮想要研究治療師如何與他們的客戶和患者互動的用例 。
我們可以通過密切研究治療師-客戶會話期間發生的互動來了解很多關于治療和治療實踐的知識 。 一些治療師記錄并轉錄他們的會話 , 在獲得客戶許可的情況下這樣做 , 然后使用這些材料來自我反思他們的治療技能 。 這也可以是回顧會話并在冷靜地進行會后分析時獲得關于客戶的額外見解的方便手段 。
在更大規模上 , 這些轉錄會話具有更多價值 。
如果治療師匿名化轉錄本 , 他們可能會將轉錄的會話提供給其他治療師和研究人員 。 通過檢查數百或可能數千個這樣的轉錄本 , 我們可以確定各種設計的治療方法似乎如何在治療師-客戶會話期間進行的大局觀視角 , 并發現可以全面推進心理健康實踐的關鍵模式 。
進行治療師-客戶會話分析的困難在于沒有大量的數字存儲 , 并且它們有時需要成本來獲取 。 其他問題包括這樣的轉錄本往往需要大量的數據清理 , 因為對話經常是斷斷續續的口語片段 。 總的來說 , 以研究和推進心理健康理論和實踐的名義利用治療師-客戶會話的愿望受到可用轉錄本短缺、獲取成本以及使其易于使用的艱苦努力的阻礙 。
如何克服這個問題?
一種方法是使用生成式AI和大語言模型來生成基于AI被指導這樣做的治療師-客戶轉錄本 。 因此 , 生成代表治療師-客戶對話的合成數據 。 我已經這樣做了 , 并在鏈接中描述了關鍵的來龍去脈 。 以前期和適當的方式使用AI進行此目的很重要 。 目標是產生以現實世界對話為模式的對話 。 同樣重要的是標記對話是合成的 , 以便其他研究人員了解轉錄本是如何產生的 。
理解大腦的合成數據
在斯坦福大學 , 有一項令人興奮的努力 , 使用生成式AI來產生合成的大腦MRI 。 這提供了合成數據有益使用的另一個生動例子 。
假設您想研究MRI以收集關于大腦如何運作的發現 。 您可能想要大規模地這樣做 , 探索許多MRI以辨別模式 。 另一個角度是深入研究特定的MRI , 仔細觀察關鍵核心元素 , 發現可以幫助我們揭示大腦狀況的方面 , 如潛在的疾病或病癥 。
您如何獲得足夠的MRI和足夠的多樣性來進行這些類型的大腦焦點分析?
【斯坦福大學利用AI合成數據繪制大腦奧秘】一個聰明的方法是使用AI生成MRI , 然后可以分析和研究 。 我們想要這樣做 , 并在MRI中盡可能現實 。 簡單地在肆意的基礎上生成不特別反映人類遇到的真實條件的MRI是不合適的 。 如果MRI要有有效用途 , 它們必須是現實的 。
如最近的在線帖子\"生成式AI幫助斯坦福研究人員更好地理解大腦疾病\"(斯坦福報告 , 2025年10月7日)中所述 , 提出了這些關鍵點(摘錄):
\"斯坦福大學精神病學和行為科學教授、電氣工程禮聘教授Kilian M. Pohl說 , '神經科學的未來突破性發現將依賴于AI技術 。 目前的問題是這項技術往往產生不可靠的結果 , 因為大多數大腦MRI研究規模不夠大 。 '\"
\"Pohl是心理健康AI倡議的共同主任 , 也是斯坦福HAI和吳蔡神經科學研究所的教員 , 他最興奮的是將BrainSynth應用于了解微妙影響大腦的疾病 。 '我研究的許多疾病或狀況都不太為人所理解 , 對大腦的影響有微妙的效果 , 你通常無法用肉眼看到 , 'Pohl說 。 '我想使用這種生成式AI技術來捕獲那些微妙的效果 。 '\"
第二點提到了一個為MRI合成而開發的AI系統 , 被稱為BrainSynth 。 讓我們更仔細地看看這種能力 。
解構BrainSynth和合成數據
正在進行的巧妙方法包括使用生成式AI來產生合成數據并生成可用的3D大腦MRI 。 至關重要的是 , 合成的MRI需要在解剖學上合理 。 推向合理性是一個難以解決的問題 。 生成MRI是一回事 , 但這樣做并反映人類解剖現實主義涉及復雜的問題 。
在Pohl博士共同撰寫的題為\"元數據條件生成模型合成解剖學上合理的3D大腦MRI\"的研究論文中 , 由Wei Peng、Tomas Bosschieter、Jiahong Ouyang、Robert Paul、Edith V Sullivan、Adolf Pfefferbaum、Ehsan Adeli、Qingyu Zhao和Kilian M Pohl撰寫 , 發表在《醫學圖像分析》 , 2024年8月 , 提出了這些要點(摘錄):
\"生成模型的最新進展為增強自然和醫學圖像的生成鋪平了道路 , 包括合成大腦MRI 。 \"
\"為了生成與神經科學發現相關的高質量T1加權MRI , 我們提出了一個兩階段擴散概率模型(稱為BrainSynth) , 以有條件地依賴于元數據(如年齡和性別)合成高分辨率MRI 。 \"
\"然后我們提出了一個新穎的程序來評估BrainSynth的質量 , 根據其合成MRI如何很好地捕獲大腦區域的宏觀結構特性以及它們如何準確地編碼年齡和性別的效應 。 \"
\"結果表明 , 我們合成MRI中超過一半的大腦區域在解剖學上是合理的 , 即真實和合成MRI之間的效應大小相對于年齡和性別等生物因素來說很小 。 此外 , 解剖合理性根據其幾何復雜性在皮質區域之間有所不同 。 \"
\"這些結果表明我們的模型準確地捕獲了大腦的解剖信息 , 因此可以豐富研究中代表性不足樣本的數據 。 \"
這項研究的元數據方面特別值得注意 。 如上所述 , BrainSynth尋求編碼年齡和性別等因素的效應 。 將生物因素納入生成過程大大有助于可用性并有助于解剖合理性目標 。
對于那些對BrainSynth的AI基礎感興趣的人 , 您可以考慮查看項目的GitHub網站 。
合成數據的雙重檢查
任何AI生成合成數據的努力的重要部分需要涉及對生成數據的雙重檢查 , 這在BrainSynth研究中得到顯著識別 。 研究人員仔細比較了真實MRI與合成MRI 。 這樣做有助于確定合成是否準確并充分捕獲現實世界現象的基石 。
對于選擇使用AI生成數據的任何人來說 , 情況也是如此 。
AI生成數據得到壞名聲的部分原因是 , 合成數據有時在沒有一絲雙重檢查的情況下被交給世界 。 人們可能會錯誤地依賴合成數據 , 就像它是真實的一樣 。 同時 , 合成數據可能包含不準確性 , 包括可怕的AI幻覺 。
我是合成數據雙重檢查和標記生成數據為AI產生的堅定倡導者 。
目前的最終思考
現在正在獲得牽引力的一個口號是我們必須努力減少正在作為有效數據共享的\"AI垃圾\"的數量 。 AI垃圾越多 , 對整個社會來說情況會變得更糟 。 反過來 , 我預測這將刺激一系列新法律 , 試圖遏制AI垃圾 , 但這些法律可能會無意中過度射擊 , 造成與它們可能解決的問題一樣多的問題 。
正如阿爾伯特·愛因斯坦雄辯地說:\"只有為他人而活的生活才是有價值的生活 。 \"如果您要使用AI生成合成數據 , 請考慮他人 。 努力產生有效數據 , 雙重檢查數據 , 將其標記為合成 , 然后才發布數據供他人依賴 。
您大概會讓愛因斯坦為您的英勇努力感到驕傲 。
Q&A
Q1:BrainSynth是什么?它能做什么?
A:BrainSynth是斯坦福大學開發的一個兩階段擴散概率模型 , 用于合成高分辨率的3D大腦MRI 。 它能夠基于年齡和性別等元數據生成解剖學上合理的大腦MRI圖像 , 幫助研究人員更好地理解大腦疾病和神經科學現象 。
Q2:AI生成的合成MRI數據可靠嗎?
A:研究表明 , BrainSynth生成的合成MRI中超過一半的大腦區域在解剖學上是合理的 , 真實和合成MRI之間的效應大小相對于年齡和性別等生物因素來說很小 。 不過 , 研究人員強調需要對合成數據進行仔細的雙重檢查和驗證 。
Q3:為什么要使用AI生成合成數據而不是真實數據?
A:真實的大腦MRI數據往往數量有限、獲取成本高 , 且大多數大腦MRI研究規模不夠大 , 這限制了AI技術在神經科學中的應用 。 使用AI生成合成數據可以豐富研究中代表性不足樣本的數據 , 為神經科學研究提供更大規模的數據集 。
推薦閱讀
- 北大提出數據質量評估新標準,破解無線感知領域合成數據質量難題
- 美國42款特種武器攻擊“北京時間”!利用某境外品牌手機短信漏洞
- CIO們利用AI助力IT采購決策,超八成決策者已開始使用
- 臺積電3nm及5nm產能利用率將達100%
- 英特爾計劃為XeSS帶來多幀合成:游戲幀率大幅提升
- 能耗降低100倍!美國開發光子AI芯片——直接利用光做卷積!
- 斯坦福大學提出RTR框架,讓機械臂助力人形機器人真機訓練
- 特朗普 T1 手機再次翻車,渲染圖是 PS 合成
- 研究揭示大語言模型聊天機器人易被惡意利用竊取用戶隱私數據
- 速速手動更新!WinRAR漏洞曝光:被利用悄悄安裝惡意軟件
