close



html模版【偽科學爭議】上海交大“看臉定罪犯”作者:谷歌研究員給我扣瞭一頂大帽子
本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。




【新智元導讀】2016年年底,上海交通大學的兩位研究者發佈瞭一項題為“利用臉部照片自動推斷犯罪性”的研究,基於有監督的機器學習的方法,根據人的臉部特征預測一個人是否有犯罪傾向,“準確率接近90%”。該研究在國內外引起瞭廣泛的爭議。

2017年5月,谷歌的幾名研究員撰文對這一研究進行瞭批駁,認為這一研究是“偽科學”,並冠上瞭“科學種族主義”的名號。新智元對此文進行瞭全文翻譯介紹,點擊下面的鏈接《【偽科學爭議】谷歌研究員兩萬字批駁上交大用深度學習推斷犯罪分子》可查看詳情。

近日,論文作者之一的上海交通大學武筱林教授接受澎湃新聞的采訪,在媒體上進行瞭回應。武教授還專門撰文,講述整個論文的研究動機和過程。他指責谷歌研究員這種隔空點名並非“我們多年來習慣的學術交流方式”,而是政治鬥爭上扣帽子的手法。

武筱林提到,他們在論文中明確聲明“我們無意也無學術資質去討論社會偏見問題”,卻“被”解讀瞭。三位美國作者無視聲明,將論文原話斷章取義,湊成主觀臆斷強加於他們,扣上瞭一頂大帽子。

在文章中,武筱林還回應瞭許多網友提出的“把教授自己的臉放進去試試”的問題,澄清瞭一種常見的“基礎概率謬誤”,再次強調他們的研究無意也無法用於實踐。

在技術上,武筱林也作瞭相應的解釋。他認為:機器學習可以用來鞏固社會計算問題中的人類偏見,那麼機器學習也可以用於發現並矯正人類偏見。他們擔心反饋循環的問題,然而,反饋本身就既可以是正向的,也可以是負向的。


更多細節請見下文,新智元獲得澎湃新聞授權後轉載發佈。

去年11月,一篇“看臉識罪犯”的論文令學術界和輿論界炸開瞭鍋。

這篇上傳在預印本網站arXiv上的論文題為《基於面部圖像的自動犯罪概率推斷》(Automated Inference on Criminality using Face Images)。在實驗中,上海交通大學教授武筱林及其博士生張熙選取瞭1856張中國成年男子的面部照片,其中730張是已經定罪的罪犯身份證照片(330張來自網上的通緝令,400張由一傢簽署過保密協議的派出所提供),其餘1126張是在網絡上抓取的普通人照片。經過機器學習,算法鑒別出犯罪嫌疑人的準確率達到89%。

此後,武筱林收到大量郵件,有些就學術問題進行瞭交流,有些則直接敦促他“撤稿”。而在半年之後,三名美國作者撰寫萬字長文,向武筱林隔空喊話,指責其研究在搞“科學種族主義”。

上述三名作者中,Blaise Agüeray Arcas是機器學習領域的著名工程師,2013年從微軟跳槽到谷歌;Margaret Mitchell同樣是谷歌的人工智能研究員;Alexander Todorov則是普林斯頓大學的神經科學教授。

這篇洋洋灑灑的萬字長文,從提出“天生犯罪人”理論的意大利外科醫生龍勃羅梭,寫到對猶太人進行面相研究的納粹教材,暗指武筱林的研究是這些“前輩”的繼任者。

在文章中,三名美國作者在技術層面提出瞭一些質疑,譬如實驗樣本數據集過小,容易造成過擬合;罪犯組照片的著裝更為隨意,而非罪犯組的照片很多都穿著襯衫;此外,非罪犯組照片更多地在微笑。但文章最核心的擔憂是,由於人類司法系統中存在一些歧視(譬如美國司法對白人和黑人存在量刑歧視),用這些帶有歧視的人類數據訓練機器,機器得到的結果也會是歧視性的。而若將這些內嵌歧視的算法用作司法工具,那麼就會形成一個歧視性的反饋循環,讓歧視在社會中更為鞏固。

“基於面部特征的深度學習絕不該應用為‘加速’司法公正的工具,如果真的這麼做的話,反而會讓不公正長存於世。”文章這樣結尾道。

5月14日,武筱林撰文向澎湃新聞(www.thepaper.com)進行瞭獨傢回應。他指責這種隔空點名並非“我們多年來習慣的學術交流方式”,而是政治鬥爭上扣帽子的手法。武筱林提到,他們在論文中明確聲明“我們無意也無學術資質去討論社會偏見問題”,卻“被”解讀瞭。三位美國作者無視聲明,將論文原話斷章取義,湊成主觀臆斷強加於他們,扣上瞭一頂大帽子。

在文章中,武筱林還回應瞭許多網友提出的“把教授自己的臉放進去試試”的問題,澄清瞭一種常見的“基礎概率謬誤”,再次強調他們的研究無意也無法用於實踐。

此外,武筱林也對外界的幾點技術質疑作出回應。他總結道,“我們感謝所有針對論文的提問和討論,但堅決反對歪曲我們的初衷”,“來自谷歌的作者的含沙射影既不專業,也很傲慢。”

“僅僅使用這個詞(面相學)就夠格貼一個科學種族主義的標簽瞭嗎?”這是武筱林的疑問。

人工智能倫理討論無需扣帽子和歪曲事實(原文為英文,由澎湃新聞記者翻譯,並經對方修訂)

2016年11月我和我的博士生張熙在arXiv上貼出瞭一篇題為 “Automated Inference on Criminality using Face Images”的論文。該論文在各國學術界,尤其是互聯網上引起瞭廣泛的關註和爭議。近日,Arcas等三人在Medium網站上發表瞭《相面術的新外衣》(Physiognomy’s New Clothes)疑問。我們贊同三位作者的觀點,即AI研究要有益於社會,但我們發現他們對我們的工作,尤其是我們的研究動機和目標多有誤讀。

扣帽子

該文章的作者暗示我們有惡意的種族主義動機。這種暗示很明顯,導致我們立馬在網絡上,尤其是中國網民那裡成瞭千夫所指。我們論文裡從未宣稱要把我們的研究方法用作司法工具,我們對相關性的討論也從未延伸到因果關系。任何以客觀中立立場讀過我們論文的人,都會明白我們隻是想知道機器學習是否有潛力像人類一樣,對陌生人的臉形成社會性的看法即第一印象。要知道,第一印象是一個同時取決於觀察者和被觀察者的函數;它在心裡學上是很復雜,很微妙的。我們的研究是在挑戰機器學習的上限,將自動人臉識別從生物學維度(比如種族、性別、年齡、表情等)拓展到社會心理學維度。我們隻是好奇,能否教會機器復制人類對陌生人的第一印象(個性、風格、器宇等),通過這個問題的圖靈測試。正如我們在論文中博客 王智明所述,直覺上,我們認為面部的犯罪性印象是一個測試我們大膽假想的比較容易的突破口,事後證明,這是個不幸的選擇。 我們在英文原論文做瞭如下解釋:

“要想驗證我們的假想,即一個人面部的物理特征和其內在特質、社會行為間存在相關性,運用現代自動分類器去區別罪犯和非罪犯,其分類準確率是非常有說服力的。如果面部特征和社會屬性真的相關,這兩類人群應該是最容易區分的。因為(以我們的直覺)犯罪需要在秉性上偏離正常(離群值)。如果分類器的區別率很低,那麼我們就能有把握地否定對面部進行社會性推定的做法。”

令人震驚的是,來自谷歌的作者們將上述段落斷章取義,湊成瞭下述臆斷強加給我們。

“那些上唇更彎曲,兩眼間距更近的人在社會秩序上更低級,傾向於(用武和張的原話說)‘人格中存在很多不正常(離群值)’,最終導致在法律上更可能被判定犯罪。“

我們認同“犯罪性“(criminality)這個詞有點尖銳,我們應該打上引號的。在使用這個詞的字面意思,把它作為機器學習的標簽(“ground truth”)時,我們忘瞭警告讀者,訓練數據的標簽有可能有我們無從知道的偏差。這是我們的嚴重疏忽。然而,在論文中我們始終保持瞭一種冷靜的中立性;在引言部分,我們聲明道:

“在本文中,我們無意也無學術資質去討論社會偏見問題。我們隻是好奇,全自動的犯罪性推定能有多高的準確率。一開始我們的直覺是機器學習和計算機視覺會推翻相面術,但結果是相反的。”

盡管我們文中一再聲明我們的純學術,純技術初衷,來自谷歌的作者們仍然花式政治王智明 旅館性地解讀。這不是我們多年來習慣的學術交流方式。現在我們後悔不該在文中使用“physiognomy”這個詞。它最接近的中文翻譯是“面相學”。我們對這個詞在英語國傢裡固有的負面涵義不夠敏感;但是,僅僅使用這個詞就夠格貼一個科學種族主義的標簽瞭嗎?

“基礎概率謬誤”(base rate fallacy)

盡管來自谷歌的作者們聲稱是“為廣大的受眾,不隻是為研究者”寫這篇文章的,但作為科研人員的他們卻方便自己地忽視瞭在互聯網討論人群裡(多數是非科技類型)和媒體報道裡出現的明顯的“基礎概率謬誤”跡象。

人腦往往被一個特定事件的高條件概率鎖住,而忘記瞭該事件在大環境裡發生的極低背景概率。我們文章中最強的基於深度學習的面相分類器有89%的識別率(註意:這是基於我們目前的訓練數據,還有待用更大的數據核實),很多人就認為,這麼高,這還不一試一個準!(國外就有文章報道我們時就驚呼“correct 9 out 10 times”)。有人在網上調侃 “教授,把你的臉放進去試試”。

好吧,這倒是蠻好玩的。假設我的臉被測陽性(被認定為罪犯),我有多高概率有犯罪傾向呢?計算這個概率需要用貝葉斯定理:

P(罪|+) = P(+|罪)*P(罪) / [ P(+|罪)*P(罪) + P(+|非)*(1-P(罪)) ]

上式中P(+|罪)=0.89 是罪犯的臉被我們深度學習測試方法判陽性的概率,P(罪)=0.003是中國的犯罪率,P(+|非)=0.07是我們方法假陽性(把一個非罪犯判定為罪犯)的概率。

將這些數值代入貝葉斯公式,結果是武筱林有3.68%的概率犯罪。我想,這一路從89%到3.68%走下來,原來不少罵我們的人就釋懷瞭吧。那些叫著要紀委用我們的方法的網友也該歇歇瞭。不過,我這裡再次鄭重聲明,我們堅決反對在執法司法中使用我們的方法,原因不僅僅是上面演算的結果。

基礎概率謬誤是媒體慣用的伎倆,誇張地描述某項大眾所不熟悉的新技術或新研究,借此操縱輿論,逐步灌輸對人工智能研究的不理性恐懼。

垃圾輸入(Garbage in)?

盡管我們對來自谷歌的作者們的知識沙文主義態度感到不快,但我們認同他們的進步的社會價值。他們實在沒必要像編年史一樣列出歷史上那些臭名昭著的種族主義者,接著把我們列在後面。但起碼在理論上,獨立於主流社會觀念的研究結果的客觀性是存在的。

信息科技領域有句老話“垃圾進,垃圾出”。然而,來自谷歌的作者們似乎在說,因為輸入數據中人類的偏見是無法避免的,所以機器學習工具無法用於社會計算。就像大多數技術一樣,機器學習是中性的。

如果像他們說的,機器學習可以用來鞏固社會計算問題中的人類偏見,那麼機器學習也可以用於發現並矯正人類偏見。他們擔心反饋循環的問題,然而,反饋本身就既可以是正向的,也可以是負向的。就算“犯罪性”是個十分復雜的問題,受過良好訓練的人類專傢可以努力確保訓練數據的客觀性,也就是說,能使用獨立於嫌犯外貌的正確判決。如果機器學習用的訓練數據的標簽是不帶人類偏見的,那麼機器推測在客觀性上無疑是優於人類的。

即使訓練數據標簽中存在噪音,無論是隨機的還是系統性的,也有科學辦法去洗滌,並恢復/提高結果的準確度。我們不該畏於民粹主義就在科學探索上止步。

過擬合(overfitting)的風險

不少批評者指出瞭我們實驗中所用的樣本集較小,存在數據過擬合的風險。我們痛苦地意識到這個缺點,盡管我們的數據已比之前康奈爾大學心理學系的類似研究用的大瞭一個數量級。由於某些顯然的原因,我們難以拿到更多的中國男性罪犯身份證照片(這篇批評文章可能讓我們豐富數據集的希望化為泡影)。然而,但在我們論文的3.3節,我們已盡全力驗證我們的發現,這些技術細節又被來自谷歌的作者完全忽視瞭。

“鑒於社會上對這個話題的敏感性和反響度,以及對面相術的質疑,我們在公佈結果前異常謹慎。我們故意跟自己唱反調,設計實施瞭以下多個實驗,以挑戰我們分類器的正確性……”

我們把訓練集中的照片以五五開的概率隨機標簽為罪犯或非罪犯,看看四個分類器能否以超過50%的概率區別這兩組照片。結果是四個分類器都失敗瞭。一些類似的、更具挑戰性的測試結果也是如此(詳情參見論文)。這些實證結果,說明論文中分類器出色的表現並非由數據過擬合所致。否則,在樣本集大小和數據類型(人臉)一樣的情況下,分類器也應能夠區別兩組隨機標簽的數據。

“白領子”

批評文章也質疑道,罪犯組的身份證照片大多是不穿襯衫的,而非罪犯組的身份證照片大多穿瞭白領子的襯衫。在這點上,我們在原文中忘瞭說明在實驗中,我們在訓練和測試中用的身份證圖片都是將其臉部摳出的,著裝和背景全都去除掉瞭。

但不管怎樣,這個“白領子”線索還牽出瞭另一個重要的細節,在這裡我們需要向讀者們道歉。這個細節是,我們無法控制那些實驗對象的社會經濟地位。我們不是不想控制,但由於隱私保護的原因,我們不能拿到相關數據。在實驗對象的社會經濟地位有控制的條件下,我們猜想,我們分類器的準確率很有可能下降。如果這個猜想被證實,那麼我們發現的有可能也是一種面相和社會經濟地位的相關性,隨之而來的將有一個涉及社會公正和歧視的課題。

事實上,也正因為這種可能性,我們認為用機器學習發掘分析人臉潛在的社會屬性的研究對社會科學來說是有意義的。

在論文中,我們還采取瞭一切措施,避免機器學習方法,特別是CNN,依據圖像間一些淺表的差別做分類,比如壓縮噪音和照相機的物理差異性等等(參見論文3.3章節)。

總之,我們感謝所有針對論文的提問和討論,但堅決反對歪曲我們的初衷。來自谷歌的作者的含沙射影既不專業,也很傲慢,與他們不離口的公正相去甚遠。


和訊網今天刊登瞭《【偽科學爭議】上海交大“看臉定罪犯”作者:谷歌研究員給我扣瞭...》一文,關於此事的更多報道,請在和訊財經客戶端上閱讀。

老虎 王智明

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 gop564o0r8 的頭像
    gop564o0r8

    好康團購網4

    gop564o0r8 發表在 痞客邦 留言(0) 人氣()