誰才是讓AI產生偏見的幕后推手?( 二 )


2019年12月 , 美國國家標準技術研究院進行的一項研究發現 , 在大多數當前評估的人臉識別算法中 , 跨人種差異確實存在廣泛的準確性偏差 。
柯逍介紹說 , 在算法設計的時候 , 往往會選擇L1損失函數或者L2損失函數 。 若在將一個低分辨率人臉圖像還原成高分辨率人臉圖像的方法中 , 使用L2損失函數 , 得到的大多數人臉圖像更像白人;而使用L1損失函數 , 得到大多數人臉圖像更像黑人 。 這說明由于損失函數的選擇不同 , 某個群體(黑人或白人)在一定程度上就會受算法的忽視 , 進而產生偏見 。
這當中還存在另一種情況 , 假如數據帶有少量的偏見 , 算法系統會將其放大 , 并變得更具有偏見 。 一項研究表明 , 如果初始數據中 , 下廚與女性的聯系概率是66% , 將這些數據喂給人工智能后 , 其預測下廚與女性聯系起來的概率會放大到84% 。 一般來說 , 機器學習系統會選擇最符合通用情況的策略 , 然而這樣會導致一些非典型情況或較為特殊情況被忽略 。
除此之外 , 產生偏見的原因還有相似性的偏見 。 信息推送系統總會向用戶推薦他已經看到、檢索過的相關內容 。 最終的結果是導致流向用戶的信息流都是基于現存的觀點和看法 。 “系統會自動幫助用戶屏蔽與他們意見相左的信息 , 這就催生了一個信息泡沫 , 用戶看到的都是人工智能讓你看到的 。 這種偏見根本上也是數據與算法共同作用產生的 。 ”柯逍說 。
“總體而言 , 偏見還是源于規則制定者 。 ”中銳網絡人工智能產品總監葉亮說 , 工程師從頭到尾參與了整個系統設計 , 尤其是機器學習的目標設定 。 算法就好像一只嗅探犬 , 當工程師向它展示特定東西的氣味后 , 它才能夠更加精準地找到目標 。
算法糾偏工具已經上崗
近期 , 國際多家機構相繼宣布禁用人臉識別技術 。 有色人種被還原成白人的事件 , 再次掀起了人們對于人工智能系統產生偏見的批判浪潮 , 也再次警醒人們 , 技術帶有偏見所帶來的潛在危機 。
偏見可能導致無辜者蒙冤 。 在2018年夏天 , 英國媒體就報道過 , 由于人臉識別技術的誤判 , 導致一名年輕黑人男性被誤認為嫌疑犯 , 在公眾場合被警察搜身 。
也有報告顯示 , 一些國外執法機構可以根據AI識別出的發色、膚色和面部特征對視頻中的人物進行檢索 。 這種技術上的偏見也在一定程度上放大了人們的偏見 。
除了對人種與性別的識別偏差之外 , 人臉識別技術還因其在侵犯隱私方面的問題而引起擔憂 。 2020年初 , 美國一家人臉識別技術公司便受到了嚴密的審查 , 有關部門發現 , 其面部識別工具由超過30億張圖像構建而成 , 然而這些圖像大部分都是通過抓取社交媒體網站收集的 , 并且已被許多企業廣泛使用 。
偏見存在的同時 , 一批新興的算法糾偏工具也涌入了人工智能 。
早在2018年 , 臉書曾發布一個算法模型 , 表示會在算法因種族、性別、年齡等因素做出不公正判斷時發出警告以提醒開發者;2019年麻省理工學院就提出了一種糾偏算法 , 可以通過重新采樣來自動消除數據偏見 。
那么克服偏見還需要人工智能技術做出哪些努力?“開源方法和開源技術都有著極大的潛力改變算法偏見 。 ”葉亮指出 , 開源方法本身十分適合消除偏見程序 , 開源社區已經證明它能夠開發出強健的、經得住嚴酷測試的機器學習工具 。 如果線上社團、組織和院校能夠接受這些開源特質 , 那么由開源社區進行消除算法偏見的機器設計將會順利很多 。
柯逍認為 , 可以看出偏見基本來源于數據與算法 , 加強對人工智能所使用的數據、算法以及模型的評估 , 能夠在一定程度上緩解潛在的、可導致偏見與歧視的因素 。 同時 , 人工智能的偏見其實都是人類偏見的反映與放大 , 因此人們放下偏見才是最根本的解決方案 。

推薦閱讀