在大多數(shù)科幻電影里,冷漠又殘酷是 AI 的典型形象,它們從來(lái)不會(huì)考慮什么是人情世故,既沒(méi)有人性光輝的閃耀,也沒(méi)有人性墮落的七宗罪。
然而在現(xiàn)實(shí)中,人工智能技術(shù)卻不像電影里那么沒(méi)有「人性」,不過(guò)這可不是什么好事,因?yàn)?AI 的「歧視」和「偏見(jiàn)」正在成為越來(lái)越多人研究的課題,而且它們確實(shí)存在。人工智能的偏見(jiàn),早已深入了各個(gè)領(lǐng)域。
在 AI 技術(shù)應(yīng)用領(lǐng)域,面部識(shí)別也是一項(xiàng)廣泛使用的應(yīng)用類(lèi)型,并且這會(huì)成為種族和性別偏見(jiàn)的另一個(gè)潛在來(lái)源。2018 年 2 月份麻省理工學(xué)院的 Joy Buolamwini 發(fā)現(xiàn),IBM、微軟和中國(guó)公司 Megvii 的三個(gè)最新的性別識(shí)別 AI 可以在 99% 的情況下準(zhǔn)確從照片中識(shí)別一個(gè)人的性別,但這僅限于白人。對(duì)于女性黑人來(lái)說(shuō),這個(gè)準(zhǔn)確率會(huì)降至 35%。
一個(gè)最可能的解釋是,AI 的「偏見(jiàn)」取決于背后訓(xùn)練算法訓(xùn)練的數(shù)據(jù),如果用于訓(xùn)練的數(shù)據(jù)里白人男性比黑人女性更多,那顯然白人男性的識(shí)別率就會(huì)更高。IBM 后來(lái)宣布他們已經(jīng)采用了新的數(shù)據(jù)集并重新訓(xùn)練,微軟也表示會(huì)采取措施提高準(zhǔn)確性。另一個(gè)研究是 Facebook 的人工智能實(shí)驗(yàn)室的研究成果,他們發(fā)現(xiàn)人工智能的偏見(jiàn)不止存在于國(guó)家內(nèi)部,在不同國(guó)家之間也是存在的。
比如當(dāng)被要求識(shí)別來(lái)自低收入國(guó)家的物品時(shí),Google、微軟和亞馬遜這些人工智能領(lǐng)域大佬的物體識(shí)別算法會(huì)表現(xiàn)更差。研究人員對(duì)五種流行的物體識(shí)別算法進(jìn)行了測(cè)試,包括 Microsoft Azure,Clarifai、Google Cloud Vision、Amazon Rekogition 和 IBM Watson。
測(cè)試的數(shù)據(jù)集包含了 117 個(gè)類(lèi)別,從鞋子到肥皂到沙發(fā)以及更是各樣的物品,這些來(lái)自于不同的家庭和地理位置。跨域了從布隆迪(非洲中東部的一個(gè)小國(guó)家)一個(gè) 27 美元月收入的貧窮家庭,到來(lái)自烏克蘭月收入達(dá)到 10090 美元的富裕家庭。
研究人員發(fā)現(xiàn),與月收入超過(guò) 3500 美元的家庭相比,當(dāng)被要求識(shí)別月收入 50 美元的家庭時(shí),物體識(shí)別算法的誤差率大約會(huì)增加 10%,在準(zhǔn)確性的絕對(duì)差異上甚至?xí)蟆Ec索馬里和布基納法索相比,算法識(shí)別來(lái)自美國(guó)產(chǎn)品是準(zhǔn)確率要提升 15-20% 左右。
這就是問(wèn)題所在。目前的人工智能背后需要即為大量的數(shù)據(jù)去訓(xùn)練,盡管人工智能本身不知道「歧視」和「偏見(jiàn)」是什么意思,但背后數(shù)據(jù)的研究人員卻會(huì)帶有這樣的思想,以至于在訓(xùn)練數(shù)據(jù)的選擇上就會(huì)產(chǎn)生偏向性。通常情況下,在創(chuàng)建 AI 算法的過(guò)程中會(huì)有許多工程師參與,而這些工程師通常來(lái)自高收入國(guó)家的白人家庭,他們的認(rèn)知也是基于此階級(jí),他們教導(dǎo) AI 認(rèn)識(shí)世界也是如此。
當(dāng)然這并不是全部原因,在 2015 年的一項(xiàng)研究中顯示,使用 Google 搜索「CEO」的圖片,其中只有 11% 的人是女性。我知道男性 CEO 的確比女性 CEO 比例要多很多,但實(shí)際上美國(guó)有 27% 的 CEO 是女性。而匹茲堡卡內(nèi)基梅隆大學(xué)的 Anupam Datta 領(lǐng)導(dǎo)的另一項(xiàng)研究發(fā)現(xiàn),Google 的在線廣告系統(tǒng)展示的男性高收入工作也比女性多很多。
Google 對(duì)此的解釋是,廣告客戶(hù)可以制定他們的廣告只向某些用戶(hù)或網(wǎng)站展示,Google 也確實(shí)允許客戶(hù)根據(jù)用戶(hù)性別定位他們的廣告。
另一大巨頭亞馬遜也曾遇到過(guò) AI 歧視的問(wèn)題。2014 年的時(shí)候亞馬遜在愛(ài)丁堡成立了一個(gè)工程團(tuán)隊(duì)以尋求一種自動(dòng)化的招聘方式。他們創(chuàng)建了 500 種計(jì)算機(jī)模型,通過(guò)對(duì)過(guò)去的入職員工簡(jiǎn)歷進(jìn)行搜索,然后得出大約 50000 個(gè)關(guān)鍵詞。
「當(dāng)時(shí)他們?cè)谶@個(gè)算法上寄予了很大期望,喂給它 100 份簡(jiǎn)歷,然后它會(huì)自動(dòng)吐出前五名,OK,我們就雇傭這些人?!巩?dāng)時(shí)一位消息人士是這樣告訴的路透社。然而一年后,工程師們有一些不安的發(fā)現(xiàn)——它不喜歡女性。顯然這是因?yàn)槿斯ぶ悄芩@取過(guò)去十年的數(shù)據(jù)幾乎都是男性的,因此它得出了「男性更可靠」的觀點(diǎn),并降低了簡(jiǎn)歷里包含女性字樣簡(jiǎn)歷的權(quán)重。
性別偏見(jiàn)還不是這套算法唯一的問(wèn)題,它還吐出了不合格的求職者。2017 年,亞馬遜放棄了該項(xiàng)目。盡管人工智能的「偏見(jiàn)」已經(jīng)成為一個(gè)普遍的問(wèn)題,但有意思的是,人類(lèi)又試圖使用人工智能技術(shù)去糾正人類(lèi)本身的偏見(jiàn)問(wèn)題。
日前舊金山宣布推出一種「偏見(jiàn)緩解工具」,該工具使用人工智能技術(shù)自動(dòng)編輯警方報(bào)告中的嫌疑人種族等信息。它的目的是在決定某人被指控犯罪時(shí),讓檢察官不受種族偏見(jiàn)的影響。目前該工具已經(jīng)準(zhǔn)備就緒,預(yù)計(jì)在 7 月 1 日正式實(shí)施。
根據(jù)舊金山地區(qū)檢察官辦公室的說(shuō)法, 這個(gè)工具不僅會(huì)刪除關(guān)于種族的描述,同時(shí)還會(huì)進(jìn)一步刪除關(guān)于眼睛顏色和頭發(fā)顏色等可能有意無(wú)意對(duì)檢察官造成暗示的信息,甚至地點(diǎn)和社區(qū)名稱(chēng)也將會(huì)被刪除。它會(huì)運(yùn)作良好并產(chǎn)生實(shí)際的效果嗎,目前還不得而知。
某種意義上說(shuō),目前人工智能的「歧視」與「偏見(jiàn)」是人類(lèi)意識(shí)以及階級(jí)地位的投射。白人精英工程師研究出的人工智能更像「白人的人工智能」和「精英的人工智能」,同理也可以想象,如果是黑人和黃種人主導(dǎo)的人工智能,同樣也會(huì)對(duì)本群體比較有利。
而通過(guò)人工智能對(duì)人類(lèi)本身的偏見(jiàn)行為進(jìn)行糾錯(cuò)則是一項(xiàng)更有意思的嘗試,如果該方法確實(shí)能緩解人類(lèi)的偏見(jiàn),那人類(lèi)和人工智能可能會(huì)在該問(wèn)題上相互收益,理想情況下能打造一個(gè)正向循環(huán)。神話(huà)故事里上帝摧毀了巴別塔使得人類(lèi)不再語(yǔ)言文化互通,而人工智能這一改變未來(lái)的宏偉技術(shù)同樣像是一座通天高塔,如果要把它建成全人類(lèi)的福祉,消除不同文化造成彼此偏見(jiàn)是一定要解決的問(wèn)題。





