誰才是讓AI產生偏見的幕后推手?


誰才是讓AI產生偏見的幕后推手?



美國麻省理工學院媒體實驗室研究項目顯示 , 人工智能識別淺色皮膚男性的平均錯誤率不超過1% , 識別深色皮膚女性的平均錯誤率達35%……
人臉識別所導致的偏見問題一直受到廣泛關注 。 近期 , 一篇關于圖像超分辨率的論文引發了對于產生偏見原因的新爭論 。
網友利用論文中的開源代碼進行了模型推理 , 在使用時發現 , 非白人面孔的高糊照片被還原成了一張白人面孔 。 對此 , 2018年圖靈獎得主、AI領軍人物楊立昆(Yann LeCun)在推特上指出 , 當數據有偏見時 , 機器學習系統就變得有偏見 。 而這一觀點 , 掀起一場爭論浪潮 。 有人說 , 機器學習系統產生偏見不應只歸咎于數據集 , 這種甩鍋的做法是不公平的 , 還有技術、人類觀念等原因 。
【誰才是讓AI產生偏見的幕后推手?】現在還沒有100%無偏見的數據集
隨著人工智能時代的到來 , 人臉識別技術正被越來越廣泛地應用在執法、廣告及其他領域 。 然而 , 這項技術在識別性別、膚色等過程中 , 存在著一定偏見 。
“在美國 , 人臉識別系統中白人男性的識別率最高 , 而黑皮膚女性的識別率則最低;在亞洲國家的人臉識別系統中黃種人的識別率相比白種人的識別率差距就會小一些 。 ”福州大學數學與計算機科學學院、福建省新媒體行業技術開發基地副主任柯逍博士說 。
這次陷入爭論中心的人臉識別偏見問題其實是一個存在很久、熱度很高的話題 。
早前 , 美國麻省理工學院媒體實驗室主導的一項名為《Gender Shades》的研究項目在研究了各個前沿科技公司的面部識別系統后發現 , 各系統在識別男性面臉與淺色面臉方面表現更佳 , 淺色皮膚男性的平均識別錯誤率不超過1% , 淺色皮膚女性的平均識別錯誤率約為7% , 深色皮膚男性的平均識別錯誤率約為12% , 深色皮膚女性的平均識別錯誤率則高達35% 。
那么本次爭議中 , 楊立昆指出的數據集問題是如何產生偏見的?有無100%沒有偏見的數據集?“不均衡的數據 , 導致了系統在學習時 , 更好地擬合了比重較大的數據 , 而對占比小的數據的擬合則表現不佳 , 這就可能最終導致了偏見的產生 。 ”柯逍介紹說 , 如一個常見的人臉識別數據集LFW , 數據集中有近77%的男性 , 同時超過80%是白人 。
“目前 , 幾乎可以肯定的是沒有100%無偏見的數據集 。 ”柯逍舉例說 , 在收集數據時 , 可以針對性地讓男性與女性數目一樣 , 甚至也可以讓各種膚色的數據數目都一樣 。 但是 , 其中可能大部分人是沒有戴眼鏡的 , 這可能就對戴眼鏡的人進行識別時帶來了偏見 。 進一步講 , 各個年齡段的人臉也很難做到完全一致 , 導致最后學習到的模型可能對戴眼鏡、年長或年幼的人臉產生偏見 。 所以有時候討論數據偏見的產生 , 會發現其產生的原因是考慮問題的角度不同 。
出現偏見不能只歸咎于數據
眾多專家也指出 , 數據可能是機器學習系統中偏見的來源 , 但不是唯一的來源 。
其實 , 在本次爭議中 , 楊立昆在推特中已經很明確地表示 , 他的本意并不是說問題都出在數據集上 , 只是針對這篇論文 , 其算法在特定場景下 , 換個數據集就能解決問題 , 但并不是說所有的機器學習系統偏見都來源于數據集 。
那么 , 誰才是產生偏見真正的“幕后推手”?
AI學習過程應該是架構、數據、訓練算法等的相互作用 。 算法包括了特征的選擇、損失函數的選擇、訓練方法的選擇以及超參數調節等 , 其本身的缺陷也是偏見產生的一個原因 。

推薦閱讀