AI畫不出的左手，是因為我們給了它一個偏科的童年。_蘋果|人工智能

文章圖片

文章圖片

【AI畫不出的左手，是因為我們給了它一個偏科的童年。】

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

昨天刷到了一條非常有意思的推特。
是我關注的一個博主， Howie.Serious發的。
他發了一個很有趣的點，就是即使是世界上現在最牛逼的NanoBananaPro ，在世界知識如此屌爆的情況下， AI ，還是沒有辦法生成左手寫字的圖片。
這事特別有意思。
我立馬用Gemini上的NanoBananPro試了下。
果然翻車了，而且是非常穩定的翻車。
我又直接用Lovart跑了十幾種張圖，只對了2次，其他的，全錯。
我又去試了其他的大模型，包括chatgpt、seedream ， grok ，也在這個小小的提示詞上全軍覆沒。
刷刷刷給我生成了一堆右手，讓我都有點混亂了，我那一瞬間都在懷疑是不是我自己分不清左右了。。。
我又嘗試了一些進階版。
比如，右手拿著蘋果左手寫字。
這個已經非常明確了吧，我已經給他做限制了。
還是會生成右手寫字左手拿蘋果的圖。。。
GPT直接給我玩鬼畜了。
甭管是誰，就算是蜘蛛俠來了也沒用，也得用右手。。。
非常的倔強。。。
在好奇之下，我又試了一些其他的case 。
比如，讓一個人左手拿著橘子右手拿著蘋果。
翻車。
穿個不同顏色的寫字，翻車。。。
左手舉起魔法棒，翻車。
左手拎著一只雞，右手拎著大高達，翻車。
全都翻車，翻了個大車。
至此，確實發現， AI完全分不清左右手和左右腳。
但是，如果你讓他去純粹的畫空間關系，確實是沒啥問題。
但只要一涉及到左手左腳，就直接原地爆炸。
這個話題太有意思了。
我非常好奇的想知道，到底是為什么？
在DeepReasearch之后，還真找到了一個蠻有趣的可以解釋這個事的論文，叫《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》，中文名翻譯過來是，現象空間的偏差，會阻礙文生圖模型的泛化。
而這個影響的核心，其實就是偏見。
跟我之前寫過的一篇很像。
那篇文章，聊的是視覺模型，在理解的時候，分不清圖中的人有幾根手指。
而這次，是在生成的時候，分不清左右。
其實本質的邏輯都是相同的，就是因為數據集的偏見。
這篇論文，大意就是一句話：
AI之所以分不清左右，不是因為它邏輯不行，而是因為它的老師，也就是我們投喂給它的海量圖片數據，本身就存在巨大的壓倒性的偏見。
他們做了一個實驗。
干的第一件事，是把一張圖給拆解成filler和role兩種要素，你可以把它們理解為，主體和關系。
拿貓追老鼠的圖來舉例，主體就是貓和老鼠，而關系就是，誰是追的那一方，誰是被追的那一方。
確定好這兩種要素之后，他們找來了幾十個小圖標。
兩兩圖標分為一組，規定好它們的主體和關系，用Unicode字符畫在 32×32 的小方塊里。
所有的畫面，只干一件事：
兩個東西，上下疊放。
比如，把名為蛋糕和橡皮的小圖標放在同一張圖上，上面是蛋糕的圖標，下面是橡皮的圖標。
然后附上一句話，這張圖是一個蛋糕在一個橡皮上面。
以此類推，就有了一堆測試圖片加一堆文本。
然后，他們又分了一些數據集。
有些訓練集里，每個物體都當過上面的、也當過下面的。
有些訓練集里，貓可能幾乎永遠在上面，狗也可能幾乎永遠在下面。
還有些訓練集，更狠一點，某些物體從來沒當過上面，只當過下面。
接著，他們把這些圖片和文字打包成數據集丟給模型去訓練，看它學了這些東西之后，能不能理解上下位置關系。
按照我們對模型訓練的常規理解呢，這件事兒的關鍵在于，樣本量要夠大。
只要數據規模夠大，智能就會自然長出來，對吧？
但是他們的實驗數據發現，其實，完全不是這樣的。
決定模型能不能舉一反三的，其實看的不是數據的數量，看的是，數據怎么分布。
他們有定義了兩個指標，一個叫Completeness（完整性），就是每種東西，是否都至少在每個位置上出現過一次。
舉個例子，圓在上、三角在下是一種組合，圓在下、三角在上是另一種組合，這兩種情況都要在數據里出現過，完整度才能算是及格。
但只有完整度還不夠，還得看另一個指標，叫Balance（平衡性），對，就是跳舞里面的那個Balance 。
它其實指的就是，不同組合出現在數據中的具體比例。
只有圓在上和三角在上這兩種情況，在數據里的分布情況大差不差時，平衡度才過關。
反之，如果九張圖都是圓在上，只有一張圖是三角在上，對模型來說，就是平衡度極差、世界觀極度傾斜的情況了。
這樣一來，模型就會天然的把圓在上這件事當成一個真理。
只有當一個訓練集里，不同的排列組合都出現過，并且每種組合在上在下的情況都出現得差不多時，模型才會開竅：
原來誰在上誰在下不是恒定的，是可以互攻的。
哦說錯了，是可以互換的。。。
那一刻，模型才是真正掌握了上下的位置關系，而不是死記硬背幾種固定搭配。
右邊的表格里，兩個CPL代表完整度，也就是圓和三角在上的情況是不是都出現了， BLC代表平衡度，也就是圓和三角在上的情況分布是否均勻。
左邊的縱軸是模型測試的準確性。
你會發現，當完整度和平衡度都是百分百的時候，模型測試的正確率幾乎也是百分百，也就是藍色的散點。
而當完整度和平衡度越來越差的時候，模型正確率也會不斷下跌，到了完整度和平衡度最低的灰色散點這里，準確率就沒上過百分之四十。
論文后半段，他們還做了一個和現實世界更接近的實驗，用的是一個叫what’sup的基準數據集，里面都是自然圖片，專門用來描述兩個物體的位置關系。
然后，在這個數據集里面抽取子集。
有的子集完整度和平衡度都很高，有的相反。
接著，他們讓模型去生成數據集里沒有的物品左右關系圖片。
得到的結果非常穩定：
視覺這邊的完整度和平衡度，一旦掉下去，測試集的準確率就一路跟著往下掉，有的組合甚至永遠突破不了50% 。
更經典的是最常見的一類錯誤：
兩個物體都畫對了，但順序反了。
你讓它畫盤子在罐頭左邊，它給你的圖看起來很協調，但仔細一看，變成了，可樂罐在盤子左邊。
這個錯誤就非常符合我今天在左右手的case中測試出來的結果。。。
所以現在可以給AI分不清左右這件事，初步給一個解釋：
AI不是分不清左邊右邊，而是在它受過的童年教育里，現象空間本來就是偏的。
就比如寫字這個案例，因為現實世界里，寫字的大部分人就是右撇子。
圖像網站的標注里， “writing”“student writing notes”這些tag背后，也幾乎清一色是右手寫字。
當一個模型在海量圖像上長大，它看到的寫字幾乎等價于右手寫字。
所以當你說左手寫字的時候，它腦子里的激活模式是這樣的：
“寫字？寫字這事我懂啊，寫字不就是等于一個人 + 一本本子 + 一只手拿筆嗎，啥玩意？你要左手寫字？你有毒吧，這個世界還有人用左手寫字？我就沒見過。 ”
然后，啪的一下，給你畫了個右手寫字。
其實有點像一個極端偏科的學生。
他做了十萬道“2+3=5”這樣的題，但是從來沒見過“3+2=5” 。
所以，當你你問他“3+2等于幾” ，他直接就宕機了。
左手寫字，就是3+2那一側的世界。
其他的失敗的case其實也差不多。
當然，這也不怪AI ，因為它的見識就是我們給的。
如果訓練集里，左撇子的蹤跡本來就少，模型學不出來，是不是應該怪模型？
還是我們，根本就沒把這個世界里那些少數者的現象，認真地采集進去？
以前我做用戶研究的時候，其實最怕的，就是招樣本招得不均勻。
比如你明明是個普適性的APP ，但是只找一線城市上班族深度訪談，當然得不出老人怎么用你的APP的這個結果。
只看IOS用戶的數據，當然也看不到千元安卓機上的使用體驗。
只做所謂的可用性測試，不實地去做田野調研，就根本不可能看到用戶在真實場景中的那些小動作、小走神、小偷懶。
AI一直在模仿的，其實就是我們自己的偏見。
我們的大規模圖像語料，是過去幾十年的人類攝影習慣和文化習慣的快照。
如果這個世界90%的人都是右撇子，攝影師拍照的時候又喜歡把筆、杯子、道具放在某個視角更舒服的位置，那模型看到的世界，就會是一塊巨大的統計偏差。
如果用一句很正確的話來說。
就是，我們根本沒給模型一個公平的童年。
但反過來，我們如果看自己呢？
好像，我們本身，也會被各種各樣的訓練集規訓。
成功的概念是有房有車財務自由，人生的捷徑是考功上岸。
我們和AI的區別只不過在于， AI是用幾百億張圖、幾萬億 token ，迅速堆疊起來一個模型的失誤。
而人類是用幾十年的生活和經驗積累，逐漸走到一條自己不那么想走的岔路上。
人類和AI ，現在好像，都無法看到自己認知以外的東西。
如果說技術的發展會逼著AI公司們，去重新設計那個屬于AI的訓練集，增加它的完整度和平衡度，讓它泛化。
那我們，是不是也可以，增加一下自己體驗的厚度？
當我們對模型說，你不能永遠只會用右手寫字。
你也得試試左手。
那在我們的生活里，有沒有哪一些左手的可能性，其實一直都在，但我從來沒有看見過？
我相信，肯定會有的。
以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。
/ 作者：卡茲克、水杉
/ 投稿或爆料，請聯系郵箱：wzglyay@virxact.com

AI畫不出的左手，是因為我們給了它一個偏科的童年。

推薦閱讀

阿膠吃多了會怎樣阿膠雖好不宜過量服用

柳州人才補貼多久到賬

草龜應該怎么養

世界上有沒有恐龍

珍珠蠔和生蠔的區別

包裝盒回收利用有哪些方法？

不思議迷宮12月29日密令不思議迷宮12月29日每日密令分享

自動擋車沒電了能推著火嗎自動擋的車沒電了能推著火嗎

特斯拉的露營模式什么意思呀特斯拉的露營模式什么意思

龍血樹耐寒嗎冬天龍血樹耐寒嗎

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢

建成房屋如何挖地下室

我買了堅果手機，感覺系統好像沒有過度動畫

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

麥昆小白鞋黃斑怎么去

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別