
文章圖片

文章圖片
【AI畫不出的左手,是因為我們給了它一個偏科的童年。】
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

昨天刷到了一條非常有意思的推特 。
是我關注的一個博主 , Howie.Serious發的 。
他發了一個很有趣的點 , 就是即使是世界上現在最牛逼的NanoBananaPro , 在世界知識如此屌爆的情況下 , AI , 還是沒有辦法生成左手寫字的圖片 。
這事特別有意思 。
我立馬用Gemini上的NanoBananPro試了下 。
果然翻車了 , 而且是非常穩定的翻車 。
我又直接用Lovart跑了十幾種張圖 , 只對了2次 , 其他的 , 全錯 。
我又去試了其他的大模型 , 包括chatgpt、seedream , grok , 也在這個小小的提示詞上全軍覆沒 。
刷刷刷給我生成了一堆右手 , 讓我都有點混亂了 , 我那一瞬間都在懷疑是不是我自己分不清左右了 。。。
我又嘗試了一些進階版 。
比如 , 右手拿著蘋果左手寫字 。
這個已經非常明確了吧 , 我已經給他做限制了 。
還是會生成右手寫字左手拿蘋果的圖 。。。
GPT直接給我玩鬼畜了 。
甭管是誰 , 就算是蜘蛛俠來了也沒用 , 也得用右手 。。。
非常的倔強 。。。
在好奇之下 , 我又試了一些其他的case 。
比如 , 讓一個人左手拿著橘子右手拿著蘋果 。
翻車 。
穿個不同顏色的寫字 , 翻車 。。。
左手舉起魔法棒 , 翻車 。
左手拎著一只雞 , 右手拎著大高達 , 翻車 。
全都翻車 , 翻了個大車 。
至此 , 確實發現 , AI完全分不清左右手和左右腳 。
但是 , 如果你讓他去純粹的畫空間關系 , 確實是沒啥問題 。
但只要一涉及到左手左腳 , 就直接原地爆炸 。
這個話題太有意思了 。
我非常好奇的想知道 , 到底是為什么?
在DeepReasearch之后 , 還真找到了一個蠻有趣的可以解釋這個事的論文 , 叫《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》 , 中文名翻譯過來是 , 現象空間的偏差 , 會阻礙文生圖模型的泛化 。
而這個影響的核心 , 其實就是偏見 。
跟我之前寫過的一篇很像 。
那篇文章 , 聊的是視覺模型 , 在理解的時候 , 分不清圖中的人有幾根手指 。
而這次 , 是在生成的時候 , 分不清左右 。
其實本質的邏輯都是相同的 , 就是因為數據集的偏見 。
這篇論文 , 大意就是一句話:
AI之所以分不清左右 , 不是因為它邏輯不行 , 而是因為它的老師 , 也就是我們投喂給它的海量圖片數據 , 本身就存在巨大的壓倒性的偏見 。
他們做了一個實驗 。
干的第一件事 , 是把一張圖給拆解成filler和role兩種要素 , 你可以把它們理解為 , 主體和關系 。
拿貓追老鼠的圖來舉例 , 主體就是貓和老鼠 , 而關系就是 , 誰是追的那一方 , 誰是被追的那一方 。
確定好這兩種要素之后 , 他們找來了幾十個小圖標 。
兩兩圖標分為一組 , 規定好它們的主體和關系 , 用Unicode字符畫在 32×32 的小方塊里 。
所有的畫面 , 只干一件事:
兩個東西 , 上下疊放 。
比如 , 把名為蛋糕和橡皮的小圖標放在同一張圖上 , 上面是蛋糕的圖標 , 下面是橡皮的圖標 。
然后附上一句話 , 這張圖是一個蛋糕在一個橡皮上面 。
以此類推 , 就有了一堆測試圖片加一堆文本 。
然后 , 他們又分了一些數據集 。
有些訓練集里 , 每個物體都當過上面的、也當過下面的 。
有些訓練集里 , 貓可能幾乎永遠在上面 , 狗也可能幾乎永遠在下面 。
還有些訓練集 , 更狠一點 , 某些物體從來沒當過上面 , 只當過下面 。
接著 , 他們把這些圖片和文字打包成數據集丟給模型去訓練 , 看它學了這些東西之后 , 能不能理解上下位置關系 。
按照我們對模型訓練的常規理解呢 , 這件事兒的關鍵在于 , 樣本量要夠大 。
只要數據規模夠大 , 智能就會自然長出來 , 對吧?
但是他們的實驗數據發現 , 其實 , 完全不是這樣的 。
決定模型能不能舉一反三的 , 其實看的不是數據的數量 , 看的是 , 數據怎么分布 。
他們有定義了兩個指標 , 一個叫Completeness(完整性) , 就是每種東西 , 是否都至少在每個位置上出現過一次 。
舉個例子 , 圓在上、三角在下是一種組合 , 圓在下、三角在上是另一種組合 , 這兩種情況都要在數據里出現過 , 完整度才能算是及格 。
但只有完整度還不夠 , 還得看另一個指標 , 叫Balance(平衡性) , 對 , 就是跳舞里面的那個Balance 。
它其實指的就是 , 不同組合出現在數據中的具體比例 。
只有圓在上和三角在上這兩種情況 , 在數據里的分布情況大差不差時 , 平衡度才過關 。
反之 , 如果九張圖都是圓在上 , 只有一張圖是三角在上 , 對模型來說 , 就是平衡度極差、世界觀極度傾斜的情況了 。
這樣一來 , 模型就會天然的把圓在上這件事當成一個真理 。
只有當一個訓練集里 , 不同的排列組合都出現過 , 并且每種組合在上在下的情況都出現得差不多時 , 模型才會開竅:
原來誰在上誰在下不是恒定的 , 是可以互攻的 。
哦說錯了 , 是可以互換的 。。。
那一刻 , 模型才是真正掌握了上下的位置關系 , 而不是死記硬背幾種固定搭配 。
右邊的表格里 , 兩個CPL代表完整度 , 也就是圓和三角在上的情況是不是都出現了 , BLC代表平衡度 , 也就是圓和三角在上的情況分布是否均勻 。
左邊的縱軸是模型測試的準確性 。
你會發現 , 當完整度和平衡度都是百分百的時候 , 模型測試的正確率幾乎也是百分百 , 也就是藍色的散點 。
而當完整度和平衡度越來越差的時候 , 模型正確率也會不斷下跌 , 到了完整度和平衡度最低的灰色散點這里 , 準確率就沒上過百分之四十 。
論文后半段 , 他們還做了一個和現實世界更接近的實驗 , 用的是一個叫what’sup的基準數據集 , 里面都是自然圖片 , 專門用來描述兩個物體的位置關系 。
然后 , 在這個數據集里面抽取子集 。
有的子集完整度和平衡度都很高 , 有的相反 。
接著 , 他們讓模型去生成數據集里沒有的物品左右關系圖片 。
得到的結果非常穩定:
視覺這邊的完整度和平衡度 , 一旦掉下去 , 測試集的準確率就一路跟著往下掉 , 有的組合甚至永遠突破不了50% 。
更經典的是最常見的一類錯誤:
兩個物體都畫對了 , 但順序反了 。
你讓它畫盤子在罐頭左邊 , 它給你的圖看起來很協調 , 但仔細一看 , 變成了 , 可樂罐在盤子左邊 。
這個錯誤就非常符合我今天在左右手的case中測試出來的結果 。。。
所以現在可以給AI分不清左右這件事 , 初步給一個解釋:
AI不是分不清左邊右邊 , 而是在它受過的童年教育里 , 現象空間本來就是偏的 。
就比如寫字這個案例 , 因為現實世界里 , 寫字的大部分人就是右撇子 。
圖像網站的標注里 , “writing”“student writing notes”這些tag背后 , 也幾乎清一色是右手寫字 。
當一個模型在海量圖像上長大 , 它看到的寫字幾乎等價于右手寫字 。
所以當你說左手寫字的時候 , 它腦子里的激活模式是這樣的:
“寫字?寫字這事我懂啊 , 寫字不就是等于一個人 + 一本本子 + 一只手拿筆嗎 , 啥玩意?你要左手寫字?你有毒吧 , 這個世界還有人用左手寫字?我就沒見過 。 ”
然后 , 啪的一下 , 給你畫了個右手寫字 。
其實有點像一個極端偏科的學生 。
他做了十萬道“2+3=5”這樣的題 , 但是從來沒見過“3+2=5” 。
所以 , 當你你問他“3+2等于幾” , 他直接就宕機了 。
左手寫字 , 就是3+2那一側的世界 。
其他的失敗的case其實也差不多 。
當然 , 這也不怪AI , 因為它的見識就是我們給的 。
如果訓練集里 , 左撇子的蹤跡本來就少 , 模型學不出來 , 是不是應該怪模型?
還是我們 , 根本就沒把這個世界里那些少數者的現象 , 認真地采集進去?
以前我做用戶研究的時候 , 其實最怕的 , 就是招樣本招得不均勻 。
比如你明明是個普適性的APP , 但是只找一線城市上班族深度訪談 , 當然得不出老人怎么用你的APP的這個結果 。
只看IOS用戶的數據 , 當然也看不到千元安卓機上的使用體驗 。
只做所謂的可用性測試 , 不實地去做田野調研 , 就根本不可能看到用戶在真實場景中的那些小動作、小走神、小偷懶 。
AI一直在模仿的 , 其實就是我們自己的偏見 。
我們的大規模圖像語料 , 是過去幾十年的人類攝影習慣和文化習慣的快照 。
如果這個世界90%的人都是右撇子 , 攝影師拍照的時候又喜歡把筆、杯子、道具放在某個視角更舒服的位置 , 那模型看到的世界 , 就會是一塊巨大的統計偏差 。
如果用一句很正確的話來說 。
就是 , 我們根本沒給模型一個公平的童年 。
但反過來 , 我們如果看自己呢?
好像 , 我們本身 , 也會被各種各樣的訓練集規訓 。
成功的概念是有房有車財務自由 , 人生的捷徑是考功上岸 。
我們和AI的區別只不過在于 , AI是用幾百億張圖、幾萬億 token , 迅速堆疊起來一個模型的失誤 。
而人類是用幾十年的生活和經驗積累 , 逐漸走到一條自己不那么想走的岔路上 。
人類和AI , 現在好像 , 都無法看到自己認知以外的東西 。
如果說技術的發展會逼著AI公司們 , 去重新設計那個屬于AI的訓練集 , 增加它的完整度和平衡度 , 讓它泛化 。
那我們 , 是不是也可以 , 增加一下自己體驗的厚度?
當我們對模型說 , 你不能永遠只會用右手寫字 。
你也得試試左手 。
那在我們的生活里 , 有沒有哪一些左手的可能性 , 其實一直都在 , 但我從來沒有看見過?
我相信 , 肯定會有的 。
以上 , 既然看到這里了 , 如果覺得不錯 , 隨手點個贊、在看、轉發三連吧 , 如果想第一時間收到推送 , 也可以給我個星標?~謝謝你看我的文章 , 我們 , 下次再見 。
/ 作者:卡茲克、水杉
/ 投稿或爆料 , 請聯系郵箱:wzglyay@virxact.com
推薦閱讀
- 張亞勤:機器人是未來最大賽道,十年左右,機器人比人的數目還要多
- 日本否認:沒有斷供中國的光刻膠,政策未變
- 華為之后,友商的三折疊手機終于來了,這種折法還是第一次見
- 三星為可折疊iPhone生產顯示,顯示了蘋果對明年重大發布的信心
- 蘋果剛剛差點失去了iPhone和Mac的優勢
- 7999元的華為Mate80 Pro Max好用嗎?影像太驚艷了
- 徠卡或推新款全畫幅無反相機,預計2026年發布
- 賽力斯正式回應“早日脫離華為”后,一個奇怪的現象出現了
- 字節跳動李亮:AI手機助手的本質是機主授權
- 4K電競顯示器推薦!這款帶AI輔助的旗艦機型閉眼入
