AI不是萬靈神藥！看看普林斯頓大學(xué)的這份“假AI防騙報(bào)告”

2019.11.20

關(guān)注

來源：cs.princeton.ed

編輯：小芹、大明

【新智元導(dǎo)讀】普林斯頓大學(xué)教授最新報(bào)告《如何區(qū)分AI“萬靈假藥”》近日火了，很多宣稱采用AI算法預(yù)測社會(huì)后果的技術(shù)，實(shí)際不比線性回歸模型好多少。你怎么看AI“萬靈假藥”？來新智元 AI 朋友圈和AI大咖們一起討論吧。

AI不是萬靈藥，但越來越多的人把它說成是萬靈藥，在這些人的鼓吹下，更多的人可能真的會(huì)把AI當(dāng)成萬靈藥。

那么，如何在周圍人都在吹的氛圍下冷靜下來，分辨真假？近日，普林斯頓大學(xué)計(jì)算機(jī)系A(chǔ)rvind Narayanan副教授撰寫了一份報(bào)告，題目就是《如何區(qū)分AI“萬靈假藥”》。

報(bào)告全文要點(diǎn)如下：

1、有很多與AI無關(guān)的東西都被打上AI標(biāo)簽，目前已經(jīng)誕生的真正的、有社會(huì)影響力的AI技術(shù)無意間充當(dāng)了這些冒牌貨的保護(hù)傘。

2、很多宣稱采用AI算法的技術(shù)涉及對社會(huì)后果的預(yù)測。事實(shí)是，我們并不能預(yù)測未來，但當(dāng)涉及AI時(shí)，這個(gè)常識似乎就我們無視了。

3、在風(fēng)險(xiǎn)行為預(yù)測上，手動(dòng)評分要比AI評分靠譜得多。比如違規(guī)駕駛，人工計(jì)分，到一定程度吊銷駕照，這個(gè)計(jì)分還是要交給人來做。

作者首先舉了個(gè)例子。下邊這個(gè)網(wǎng)站宣稱，只用一段30秒的短視頻，就能評估出你的職業(yè)前途和工作的穩(wěn)定程度。聽起來是不是很神奇？只要拍一段視頻傳上去，網(wǎng)站就會(huì)自動(dòng)評估出多個(gè)指標(biāo)，可視化呈現(xiàn)后給出一個(gè)綜合評分。

它聲稱，評估分?jǐn)?shù)結(jié)果和視頻中的你說的內(nèi)容甚至都沒關(guān)系，完全是AI算法根據(jù)肢體語言、講話的方式和風(fēng)格這些東西得出的。

而實(shí)際上，這只是個(gè)加了外殼的“隨機(jī)數(shù)生成器”。你的職業(yè)是否穩(wěn)定，全看運(yùn)氣。

為什么這種包裝成AI的假貨這么多？

第一、現(xiàn)在的“AI”是個(gè)時(shí)髦的保護(hù)傘，和AI沾邊可以提升身價(jià)。

第二、一些AI技術(shù)確實(shí)實(shí)現(xiàn)了真正的、獲得大眾認(rèn)可的巨大進(jìn)步。

第三、大部分群眾不懂AI，企業(yè)可以把任何東西貼上AI標(biāo)簽，再賣出去。

這個(gè)例子只是說明在HR領(lǐng)域的問題，實(shí)際上在其他領(lǐng)域內(nèi)，這種對AI技術(shù)的故意夸大的現(xiàn)象可能更嚴(yán)重。在這份報(bào)告中，作者將現(xiàn)在的AI應(yīng)用模式大體分為3類。

第一類：認(rèn)知類AI技術(shù)。主要包括內(nèi)容識別（包括反圖片搜索）、人臉識別、基于醫(yī)療影像的輔助診斷、文本-語音轉(zhuǎn)換，以及DeepFake等。作者認(rèn)為，這類技術(shù)基本上屬于貨真價(jià)實(shí)的快速技術(shù)進(jìn)步，甚至DeepFake的過于逼真表現(xiàn)還引發(fā)了人們在道德上的擔(dān)憂。

作者認(rèn)為，這類AI技術(shù)造假或吹?？臻g不大的主要原因是結(jié)果和判斷標(biāo)準(zhǔn)的確定性。無論是人臉識別還是文本-語音轉(zhuǎn)換，其對錯(cuò)標(biāo)準(zhǔn)是非常明確的。

第二類：自動(dòng)化判斷類AI技術(shù)。包括垃圾郵件檢測、盜版內(nèi)容檢測、論文自動(dòng)評分、內(nèi)容推薦等。這類應(yīng)用盡管還遠(yuǎn)遠(yuǎn)稱不上完善，但是正在進(jìn)步，應(yīng)用前景在逐步拓寬。

對于這類AI來說，判斷標(biāo)準(zhǔn)開始變得有些模糊，一篇文章寫得好不好，一封電郵是不是垃圾郵件，對于這些問題，不同的人可能會(huì)有不同的看法，AI會(huì)逐步學(xué)習(xí)人類的判斷和推理方式，但往往免不了犯錯(cuò)。

第三類：社會(huì)后果預(yù)測類AI。包括職業(yè)表現(xiàn)預(yù)測、慣犯行為預(yù)測、政策預(yù)測、恐怖襲擊預(yù)測等。作者認(rèn)為，這類AI基本上其真實(shí)性都是值得懷疑的。

作者認(rèn)為，在我們自己尚且不能預(yù)測未來的情況下，卻要把這個(gè)任務(wù)交給AI，并根據(jù)結(jié)果來制定政策，這種選擇有違常識，而且很可能造成不良后果。

AI預(yù)測社會(huì)后果？效果比線性回歸好不了多少

第三類AI應(yīng)用有關(guān)預(yù)測社會(huì)后果，它們大多數(shù)時(shí)候從根本上就是可疑的：

預(yù)測犯罪慣犯
預(yù)測工作表現(xiàn)
預(yù)測警務(wù)
預(yù)測恐怖主義風(fēng)險(xiǎn)
預(yù)測問題兒童

本文也主要集中在第三類AI應(yīng)用，因?yàn)檫@部分騙子最多。

前面展示了一些工具，聲稱可以用來預(yù)測工作適合性。同樣，保釋決定是基于對累犯的算法預(yù)測做出的。此外，依據(jù)一種分析社交媒體帖子并預(yù)測恐怖主義風(fēng)險(xiǎn)的算法，有人在邊境被拒之門外。

這些問題很難，因?yàn)槲覀儫o法預(yù)測未來。這應(yīng)該是常識。但當(dāng)人工智能涉足其中時(shí)，人們似乎決定要擱置常識。

真實(shí)、快速進(jìn)步的：

Shazam(一款音樂識別應(yīng)用)
反向圖片搜索
人臉識別
基于醫(yī)學(xué)成像的醫(yī)療診斷
語音轉(zhuǎn)文本
Deepfakes

不完美、但正在改進(jìn)的：

垃圾郵件檢測
版權(quán)侵犯
自動(dòng)論文評分
仇恨語音檢測
內(nèi)容推薦

基本上可疑的：

預(yù)測累犯
預(yù)測工作成功
預(yù)測警務(wù)
預(yù)測恐怖主義風(fēng)險(xiǎn)
預(yù)測問題兒童

當(dāng)然，這與AI的用途(所有的機(jī)器人技術(shù)、游戲……不在此列)相去甚遠(yuǎn)。然而，重點(diǎn)是說明對于不同類型的任務(wù)，精度的限制在數(shù)量和質(zhì)量上是如何不同的。

接下來將展示，第三類應(yīng)用中不管投入多少數(shù)據(jù)，都并沒有真正的改進(jìn)。

案例：社會(huì)后果能被預(yù)測嗎？

普林斯頓大學(xué)社會(huì)學(xué)家Matthew Salganik等人此前發(fā)布《脆弱家庭與兒童福利研究》，涉及457名研究人員，并形成了一個(gè)數(shù)據(jù)集，開展機(jī)器學(xué)習(xí)挑戰(zhàn)賽。

“脆弱家庭（未婚家長與孩子組成的家庭）與孩子福利”項(xiàng)目跟蹤研究了1998-2000年出生在美國大城市的近5000名兒童（大約四分之三是未婚父母所生），這些兒童所在的“家庭”比普通家庭面臨更大的分裂和貧困的危險(xiǎn)。研究圍繞四個(gè)方面展開：（1）未婚父母，尤其是父親的條件和能力是什么？（2）未婚父母關(guān)系的本質(zhì)是什么？（3）這些家庭出生的孩子是怎樣生活的？（4）政策和環(huán)境條件如何影響這樣的家庭和兒童？該項(xiàng)目的人口研究數(shù)據(jù)檔案辦公室公開提供六組相關(guān)數(shù)據(jù)。

據(jù)我所知，這是衡量社會(huì)結(jié)果可預(yù)見性的最嚴(yán)格的努力。

他們收集了關(guān)于每個(gè)孩子和家庭的大量數(shù)據(jù)，這些數(shù)據(jù)是基于多年來的深入訪談和多次重復(fù)的家庭觀察得出的。

脆弱家庭挑戰(zhàn)賽（FFC）的設(shè)置與許多其他機(jī)器學(xué)習(xí)競賽類似。任務(wù)是基于訓(xùn)練實(shí)例學(xué)習(xí)背景數(shù)據(jù)與結(jié)果數(shù)據(jù)之間的關(guān)系。比賽期間以準(zhǔn)確性排行榜進(jìn)行評估，并在比賽結(jié)束后基于留存數(shù)據(jù)進(jìn)行評估。

從出生到9歲的所有背景數(shù)據(jù)，以及15歲的一些訓(xùn)練數(shù)據(jù)，他們的任務(wù)是準(zhǔn)確預(yù)測以下關(guān)鍵類別的結(jié)果：

孩子的平均成績（學(xué)業(yè)成績）
孩子們的勇氣（激情和毅力）
家庭的物質(zhì)困難（衡量極端貧困的程度）
驅(qū)逐家庭（不支付租金或抵押）
照顧者的裁員
工作培訓(xùn)（如果主要照顧者將參加工作技能計(jì)劃）

完美預(yù)測對應(yīng)于決定系數(shù)R^2趨近于1。預(yù)測每個(gè)實(shí)例的平均值對應(yīng)于R^2趨近于0(即模型根本沒有學(xué)會(huì)區(qū)分實(shí)例)。

大多數(shù)人的直覺認(rèn)為R^2的值在0.5到0.8之間。許多組織這次挑戰(zhàn)的專家都抱有很高的期望。

然而，實(shí)際結(jié)果卻令人大失所望：R^2的值介于0.03到0.23之間。

要知道：數(shù)百名專業(yè)的的AI/ML研究人員和學(xué)生參與了挑戰(zhàn)，他們被激勵(lì)去最大化預(yù)測的準(zhǔn)確性，而且，每個(gè)家庭都被賦予了1.3萬個(gè)特征。這些是表現(xiàn)最好的模型。

相比之下，只有4個(gè)變量的線性回歸模型，所得到的結(jié)果并不比AI模型差多少(上圖綠色線)。

換句話說，“AI”比簡單的線性公式好不了多少！

這是癥結(jié)所在?；貧w分析已經(jīng)有一百年的歷史了。

同樣的發(fā)現(xiàn)在其他許多領(lǐng)域都有。

上圖是一個(gè)“預(yù)測再次犯罪”的AI。注意這是正確率，而不是R^2，所以65%只比隨機(jī)稍好一點(diǎn)。實(shí)際的準(zhǔn)確性可能更低，因?yàn)殡m然這個(gè)工具聲稱可以預(yù)測累犯，但實(shí)際上它預(yù)測的是再次被逮捕，因?yàn)檫@是有數(shù)據(jù)記錄的。因此，至少算法的一些預(yù)測性能來自于能夠預(yù)測的警務(wù)偏差。

觀點(diǎn)：在預(yù)測社會(huì)后果方面，人工智能并不比僅使用幾個(gè)特征的人工評分好多少。

這是一個(gè)可以證偽的觀點(diǎn)。當(dāng)然，如果出現(xiàn)相反的證據(jù)，我愿意改變我的想法，或者給這個(gè)說法加上適當(dāng)?shù)恼f明。但鑒于目前的證據(jù)，這似乎是最謹(jǐn)慎的觀點(diǎn)。

駕照上的扣分可以被看作是預(yù)測事故風(fēng)險(xiǎn)的一種方法。一些研究發(fā)現(xiàn)，這樣的系統(tǒng)校準(zhǔn)得相當(dāng)好。我們早就知道，在很多領(lǐng)域，如果我們真正想做的只是預(yù)測(通常不是)，那么簡單的公式比人類的預(yù)測更準(zhǔn)確，即使是經(jīng)過多年訓(xùn)練的專家。

Daniel Kahneman 解釋說，這是因?yàn)槿祟惖念A(yù)測往往是“嘈雜的”：給定相同的輸入，不同的人(甚至是同一個(gè)人在不同的時(shí)間)會(huì)做出截然不同的預(yù)測。使用統(tǒng)計(jì)公式則消除了噪音。

人工智能在預(yù)測社會(huì)后果方面的危害：

對個(gè)人數(shù)據(jù)的需求
權(quán)力從領(lǐng)域?qū)＜掖笠?guī)模轉(zhuǎn)移到不負(fù)責(zé)任的科技公司手中
缺乏可解釋性
影響干預(yù)
準(zhǔn)確性流于表面
……

與人工評分規(guī)則相比，人工智能預(yù)測有很多缺點(diǎn)。

最重要的是缺乏可解釋性。想象一下這樣一個(gè)系統(tǒng)，當(dāng)你每次被交警攔下時(shí)，交警將你的數(shù)據(jù)輸入電腦，而不是從駕照上扣分。大多數(shù)時(shí)候你可以自由駕駛，但突然某天，黑盒系統(tǒng)告訴你，你不能再開車了。不幸的是，我們今天在很多領(lǐng)域都有這樣的系統(tǒng)。

總結(jié)

人工智能擅長某些任務(wù)，但無法預(yù)測社會(huì)后果。
我們必須抵制意圖混淆這一事實(shí)的巨大商業(yè)利益。
在大多數(shù)情況下，手動(dòng)評分規(guī)則同樣準(zhǔn)確，更加透明，值得考慮。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

普林斯頓計(jì)算機(jī)教授炮轟“偽AI”：精心炮制的隨機(jī)數(shù)生成器罷了

AI=機(jī)器學(xué)習(xí)²，我們在去往²的路上 | 普林斯頓范劍青教授

她如何用一個(gè)申不到經(jīng)費(fèi)、被稱作學(xué)校之恥的項(xiàng)目，革新了整個(gè)研究領(lǐng)域、掀起了如今的AI浪潮？

世界首款A(yù)I魔鏡：一照識別你性格

什么是機(jī)器學(xué)習(xí)以及它與人工智能的區(qū)別

AI人工智能是否可以精確冠心病與生死？

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版