人人妻人人澡人人爽人人精品97,色狠狠色狠狠综合天天,国产一区二区三区在线播放,久久久久久AV无码免费网站

十年技術深耕細作

為您提供各行業互聯網私人定制開發解決方案

免費咨詢熱線15890197308
新聞資訊
把握先機贏得挑戰與世界同步
首頁 新聞中心 科技前沿

人工智能與大數據會糾正我們的偏見,還是會更糟糕?

來源:新浪科技 發布時間:2018-07-19瀏覽:2371次

人工智能與大數據會糾正我們的偏見,還是會更糟糕?  導語:美國科學雜志nautil.us《鸚鵡螺》作者AaronM.Bornstein近日發表了討論人工智能與大數據能否糾正人類種族歧視的深度報道。盡管人工智能設計者和數據工程師可能沒有類似種族歧視的偏見,但大數據從業者都明白,用于提供定制服務的大型數據集不可避免地包含豐富詳細的信息,包括具有受保護屬性的膚色、性別、性取向和政治取向等。算法在這些數據的基礎上做出的決定可以隱蔽地打開這些屬性,既令人難以察覺,又是不道德的。  以下為文章全文:  我們對大數據的使用是會糾...

人工智能與大數據會糾正我們的偏見,還是會更糟糕?

  導語:美國科學雜志nautil.us《鸚鵡螺》作者Aaron M. Bornstein近日發表了討論人工智能與大數據能否糾正人類種族歧視的深度報道。盡管人工智能設計者和數據工程師可能沒有類似種族歧視的偏見,但大數據從業者都明白,用于提供定制服務的大型數據集不可避免地包含豐富詳細的信息,包括具有受保護屬性的膚色、性別、性取向和政治取向等。算法在這些數據的基礎上做出的決定可以隱蔽地打開這些屬性,既令人難以察覺,又是不道德的。

  以下為文章全文:

  我們對大數據的使用是會糾正我們的偏見,還是會讓情況更加糟糕?

  “我們不知道顧客是什么樣的,”亞馬遜公司負責全球通訊公關的副總裁克雷格·伯曼(Craig Berman)在接受彭博新聞社采訪時說道。伯曼是在回應有人對亞馬遜的當日送達服務歧視有色人種的指控。從字面上看,伯曼的辯護是誠實的:亞馬遜在選擇當日送達的區域時是根據成本和收益因素,例如家庭收入和送達的可及性。但是,這些因素是通過郵政編碼匯總起來的,因此會受到其他塑造了——并將繼續塑造——文化地理學的因素的影響。查看當日送達的服務地圖,很難讓人不注意到其與膚色的對應關系。

  這樣的地圖讓人想起了羅伯特·摩斯(Robert Moses),這位城市規劃大師在數十年時間里塑造了現代紐約城及周邊郊區大部分的基礎設施。然而,他備受爭議的一點是不希望窮人,尤其是窮苦的有色人群,使用他在長島上建造的新公園和海灘。盡管摩斯曾努力促成了禁止公共汽車在高速公路上行駛的法律,但他知道,這條法律遲早有一天會被廢除。因此,他建造了更加持久的東西:幾十個高度很低,公共汽車無法通行的天橋,將歧視真正地具體化。這一決定,以及其他幾十個類似的決定都影響深遠而持久。幾十年后,關于公共汽車的法律已經廢除,但沿著高速公路排列的城鎮依然像從前一樣隔離著。“法律總是可以修改的,”摩斯說,“但一座橋建好以后,就很難拆掉了。”

  今天,在受到原有結構影響的數據基礎上,這樣的隔離又重現了。盡管新基礎設施的設計者可能沒有類似的不良意圖,但他們也不能自稱對這些設施的影響毫不知情。大數據從業者都明白,亞馬遜和其他公司用于提供定制服務的大型數據集不可避免地包含豐富詳細的信息,包括具有受保護屬性的膚色、性別、性取向和政治取向等。算法在這些數據的基礎上做出的決定可以隱蔽地打開這些屬性,既令人難以察覺,又是不道德的。

  凱特·克勞福德在微軟研究院從事算法偏見的研究,并且是“AI Now”計劃的合作創立者。這項研究關注的是如今在使用人工智能系統時所面臨的危險。她提出了一個算法公平性的基本問題,即算法可以在多大程度上理解它們所使用數據的社會和歷史背景。“你可以讓一個人類操作者去嘗試考慮數據本身代表人類歷史的方式,”克勞福德說,“但如何訓練機器來做到這一點呢?”不能以這種方式理解背景的機器最多只能傳遞制度化的歧視,即所謂的“偏見入,偏見出”(bias in, bias out)。

  糾正這些隱性歧視的努力不足,可能會讓事情變得更糟。克勞福德的同事、康奈爾大學的索倫·巴洛卡斯觀察到,終端用戶會“不加批判地接受供應商的聲明”,即算法中已經消除了偏見。在那些普遍存在偏見的應用場合,比如司法系統中,情況尤其如此。對于這些地方,號稱更客觀的機器具有非常大的吸引力。剝離算法中的偏見還要求認可某個關于公平的主觀定義,同時不理會其他定義,但被選擇的定義往往是最容易量化的,而不是最公平的。

  然而,雖然有著種種缺陷,但找出并對抗數據和算法中的偏見也會帶來一些機會——能以新的方式使偏見的輪廓呈現在我們面前。

  COMPAS的預測偏見

  COMPAS是美國各地法院使用的一款軟件,可以根據被告人對137個調查問題的回答,評估他們重新犯罪的可能性。評估結果將被用于指導保釋決定。

  COMPAS的調查問卷并不涉及膚色、遺產甚至郵政編碼,但確實提出了諸如被告人是否居住在一個“犯罪很多”的街區,以及他們是否難以找到“超過最低工資”的工作等問題。這些問題更適合向社會提出,而非針對個人。請注意問題中的偏見:答案與種族等受保護的屬性有關,意味著算法可以學習有效地“發現”數據中的這些屬性。然而,推出COMPAS的Northpointe公司宣稱,他們已經對該軟件進行了校準,使其對再次被捕的預測準確性與膚色無關。

  2015年,ProPublica的記者開始利用佛羅里達州布勞沃德縣一位COMPAS用戶的公開記錄來驗證這一說法。他們發現,當COMPAS預測被告再次被捕的風險很高,并且之后確實再次被捕時,其預測確實在最直接意義上是無關膚色的。但是,當COMPAS預測不準確時(要么預測的再次被捕沒有發生,要么沒有做出實際再次被捕的預測),它通常會低估白人再犯的可能性,并高估黑人再犯的可能性。換句話說,它在一組統計數據中隱藏的偏見,在另一組統計數據中呈現了出來。

  ProPublica在一篇文章中報道了這一發現,文章副標題是“全國各地都使用軟件來預測未來的罪犯,而它對黑人存有偏見”。Northpointe公司對他們的評價提出了異議,并對文中的論點進行了再次統計分析,以作為回應。Northpointe公司將爭論從錯誤率的差異轉移到另一個事實,即風險分數反映了一個真實而普遍的情況:未來再次被捕的非裔美國人被告確實更多。該公司指出,這意味著非裔美國人作為一個人群具有較高的風險得分并不奇怪。

  Northpointe公司的中心論點有一個本質性的謬誤:因為在訓練數據集中,被警察歸類為非裔美國人的人會更頻繁地再次被捕,所以他們宣稱COMPAS有理由預測其他被警察歸為非裔美國人的人——即使在不同城市、州和時間段——更有可能再次被捕。在數據中進行分類的結果又作用于分類本身,這讓人不禁想起W·E·B·杜波依斯(W.E.B。 Dubois)在1923年所下的定義,“黑人就是在佐治亞州必須乘坐吉姆·克勞公交車的人”[吉姆·克勞(Jim Crow)原是19世紀初一個劇目中黑人角色的名字,后來成為“黑鬼”的貶義詞,之后美國南方針對黑人的種族隔離法案被稱為吉姆·克勞法,而吉姆·克勞的公交車指1960年代之前美國南方各州在公交車上實行的種族隔離]。

  雖然這段插曲展示了算法決策帶來的許多危險,但也引發了一系列學術研究,得到了一個令人驚訝的結論:為一個被告指定風險評分的做法需要在“公平”一詞的兩種不相容的定義之間進行權衡。而且,這種權衡是普遍的。“任何執行這一過程的系統都將面臨這種挑戰,”康奈爾大學的計算機科學教授喬恩·克萊因伯格說,“無論它是一個算法系統,還是人類決策者。”

  克萊因伯格及其同事發表了一篇論文,證明Northpointe公司和ProPublica對公平的兩種定義在數學上是不相容的。用術語來說,他們展示了預測性平價(無論黑人和白人被告是否有相同的風險評分總體準確率)和錯誤率平衡(無論兩個人群是否以相同方式獲得錯誤的風險評分)之間是相互排斥的。當任何兩個人群之間的測量結果——在COMPAS中是再次被捕的概率——具有不同的基礎比率時,如果應用相同的標準,就必然會對較高基礎比率的人群產生偏見誤差。“‘校準’正是導致這一問題的原因,”克萊因伯格說道。任何使用風險評分的系統——機器算法或人類機構——都是如此,無論是使用哪些因素來生成。

  值得注意的是,這種不相容性此前從未出現過。它的發現指向了大數據時代最顯著的好處之一:我們決策的邏輯可以用以前不可能的方式進行形式上的分析,以及數字上的分離。因此,如今法官們知道在做決定時需要考慮這些更廣泛的不平衡。“ProPublica揭示的問題其實是關于我們如何看待預測,而我們如何看待算法也同樣重要。”

  學術界也有一些COMPAS如何改進的建議。卡內基梅隆大學海因茨學院統計學與公共政策教授亞歷桑德拉·喬爾德喬娃表示,如果COMPAS的設計者允許在處理非裔美國人被告時稍微增加一些整體的不準確性,就可以確保算法對不同種族的錯誤率大致相同。“這個,”她指出,“或許就是你希望達成的權衡。”

  算法中的性別歧視

  谷歌翻譯存在著隱性的性別歧視問題。你可以嘗試將短語“o bir doktor”和“o bir hem?ire”從土耳其語翻譯成英語。這兩個土耳其語短語用的都是性別中性的代詞“o”,而谷歌翻譯強制性地選擇了性別代詞。結果是,第一個短語被翻譯成“he is a doctor”(他是一名醫生),第二個則是“she is a nurse”(她是一名護士)。

  在波士頓大學的Tolga Bolukbasi及其同事于2016年發表的一篇論文中,這些翻譯是他們關注的焦點,并作為一類被稱為單詞嵌入的語言模型的例子。這些模型用于為翻譯服務、搜索算法和自動完成功能提供支持,它們用自然語言的采集主體(比如谷歌新聞的文章)進行訓練,通常沒有人類語言學家的太多介入。模型中的單詞被映射為高維空間中的點,因此給定的一對單詞間的距離和方向表明了它們在意思上有多接近,以及具有什么樣的語義關系。

  舉個例子,“Man”(男人)和“Woman”(女人)之間的距離與“King”(國王)和“Queen”(王后)之間的距離大致相同,方向也一樣。單詞嵌入模型還能使隱性偏見永久存在,就像谷歌翻譯里的那樣。模型的基礎架構,即幾十年來在數字語料庫中收集的數十億文本,已經開始以難以理解和改變的方式影響著我們的日常交流。然而,基礎架構中許多偏見的納入要早于它們以數字形式的制度化。而且,與COMPAS類似,研究這些偏見在算法中的出現帶來了新的機會。

  Bolukbasi和同事開發了一種通過在單詞嵌入模型空間內移動單詞,對語言進行“去偏見”的技術。想象一下,將單詞“doctor”(醫生)、“nurse”(護士)、“man”(男人)和“woman”(女人)放到一個正方形的4個點上,“man”和“woman”在底部,“doctor”和“nurse”在頂部。連接“doctor”和“nurse”的線段與“man”和“woman”之間的線段長度完全一致。因此,系統會將它們的關系視為是可類比的。Bolukbasi的去偏見策略是將“doctor”和“nurse”都推到頂部線段的中點,使它們與“man”和“woman”的距離都相同。從結果上,系統已經“忘記了”可類比性;之后翻譯中所使用的代詞將留給系統設計者決定。

  改變單詞之間的聯系可能會帶來顯著的影響。普林斯頓大學的計算機科學教授阿爾文德·納拉亞南與同事一起開發了測量機器學習模型中偏見程度的工具。三人從已經被深入研究的心理學測驗——內隱聯系測驗(Implicit Association Test)——開始,在該測驗的一個常見變體中,受試者在積極屬性的詞匯與反映社會類別的詞匯之間進行配對的速度越快,他們對二者聯系的確信程度就越高。在許多這樣的配對中,反應時間的平均差異——通常是以毫秒計——可以作為隱性偏見的測量指標。納拉亞南和同事講反應時間替換成單詞間的距離,建立了“單詞嵌入聯系測驗”。該測驗重現了內隱聯系測驗研究在同一組詞匯中所發現的同一組刻板印象。

  20多年來,內隱聯系測驗已經揭示出各種各樣的隱性偏見,從性別到國籍再到種族,跨越許多不同背景的人群。由于偏見如此普遍,有人猜測人類的自然傾向——比如支配等級和群體內部的身份識別等——是造成這些偏見的原因;從這一角度看,偏見是人類天性中不可避免的。單詞嵌入聯系測驗論文的作者推測,他們的研究結果支持了另一種(盡管不是唯一的)可能性:“僅僅接觸語言就足以在我們腦海中產生這些隱性偏見。”換句話說,如果偏見是在語言本身的統計中體現并傳播,那么我們說話的方式就不只是表達我們看待彼此的方式,而且也是構建偏見的方式。如果諸如Bolukbasi開發的去偏見項目能奏效的話,我們就可以大規模地改變偏見,并且是以之前不可能的方式:用軟件。如果這些軟件不能發揮作用,那持續幾代人的數字化基礎結構可能就會不斷加強和延續這些偏見。

  納拉亞南指出,Bolukbasi的論文假設了性別是二元的,或至少性別詞匯之間的遵循一條直線。“我不認為(我們)有任何(去偏見)能對一個可能稍微復雜的概念起作用的線索,”他說道。他特別指出了種族刻板印象,其中有關類別的概念與用來定義它們的方法一樣有問題。

  納拉亞南使用從Amazon Mechanical Turk(一種被形容為“人工人工智能”的服務平臺)招募的群體勞動者來確定他的性別工作中的類別。同樣這些勞動者還評估了哪些類別出現偏見,以及程序消除這些偏見的成功程度。換句話說,關于什么是有偏見的決定,以及偏見被消除意味著什么,仍然與社會共識中的中位值密切相關,給社會進步加上了民粹主義的制約。

  還有更令人氣餒的擔憂。巴洛卡斯和克勞福德近期指出,大多數關于算法公平性的研究都集中在所謂的“分配型傷害”(allocative harm),涉及到資源的分配,比如前面提到的當日送達服務、判決中采用的風險評分等。他們呼吁更多地關注種族主義批評者如貝爾·胡克斯(bell hooks)等提出的“象征型傷害”(representational harm)。舉例來說,在谷歌圖片搜索中輸入“CEO”(首席執行官),所得到的結果中絕大多數都是白人的頭像。納拉亞南表示,這些問題可能會在公平性討論中被忽視,因為“它們在數學上更難以確切闡述,在計算機科學中,如果你無法用正式的術語來研究某些東西,那它的存在合理性就不如那些能夠轉化成方程或算法的東西。”

  在最糟糕的情況下,我們在處理數據中的偏見時所遇到的這樣或那樣的限制,將使我們構建中的算法成為新一代的混凝土橋,使不合理的現狀在未來許多年里一直延續。在最好的情況下,數據基礎架構將迫使我們以某些從未有過的方式,揭露并面對我們對公平和決策的定義。

  這種緊張狀態很難與我們通常的技術進步觀念相協調。人們很容易認為技術變化要比社會更快,并且軟件可以通過迅速加入新的社會規范來促進社會進步,并隔離倒退或惡意行為者的影響。一個量刑算法能造成的傷害要比一個明顯偏執的法官小得多。但是,技術也可能掩蓋偏見的歷史和背景,減緩甚至阻礙社會進步。基礎設施很難改變,而機會也在逐漸減少:技術可以在未來改進,但我們正在決定需要做出哪些權衡。目前尚不清楚我們是否有機會重新審視這些權衡。

  畢竟,算法變得越普遍,被取代的可能性就越低。雖然我們可能每兩年就升級一次手機,但核心軟件基礎架構的改造依然面臨很大障礙。考慮到滲透到我們生活中的過時技術已經非常多,例如空中交通管制系統主要依賴于20世紀70年代開發的軟件。在2017年癱瘓了英國醫院系統的“WannaCry”蠕蟲病毒,利用的便是這樣一個事實:這些系統是在幾十年前的Windows版本上運行的,微軟公司甚至已經不再提供維護。機器對語言的理解嵌入在核心服務中,可以在數年或數十年后依然呈現出今天的偏見。用藝術家Nicole Aptekar的話來說,“基礎架構擊敗了意圖。”

  新的數字基礎架構面臨的最大危險并不是會腐朽,也不是容易受到攻擊,而是其最糟糕的功能將繼續存在。一旦大橋建起來,要拆掉就很難了。