簡介:
本文著眼于在AI一致性背景下出現的哲學問題。它捍衛了三個主張。首先,AI協調問題的規范和技術方面是相互關聯的,這為在兩個領域工作的人們之間的有效參與創造了空間。其次,重要的是要明確對齊的目標。人工智能與指令,意圖,揭示的偏好,理想偏好,興趣和價值觀相符之間存在顯著差異。在這種情況下,基于原則的AI對齊方法將這些元素以系統的方式結合在一起,具有相當大的優勢。第三,理論學家面臨的主要挑戰不是確定AI的“真實”道德原則。相反,它是確定公平的公正原則,盡管人們的道德觀念差異很大,但原則上仍應得到反思的認可。本文的最后一部分探討了可以潛在地確定AI協調的公平原則的三種方式。
任何新技術都會產生道德上的考慮。但是,隨著計算機系統具有更大的自主權并以“越來越多地禁止人們評估是否以負責任或道德的方式來評估每個動作”的速度運行,賦予人工代理以道德價值的任務變得尤為重要。
本文的第一部分指出,雖然技術人員在構建尊重和體現人類價值的系統中可以發揮重要作用,但選擇合適的價值并不是僅靠技術工作就能解決的任務。當我們研究至少在強化學習范式中可以實現價值一致的不同方式時,這一點變得很明顯。
主題: Opportunities and Challenges in Explainable Artificial Intelligence (XAI): A Survey
摘要: 如今,深度神經網絡已廣泛應用于對醫療至關重要的任務關鍵型系統,例如醫療保健,自動駕駛汽車和軍事領域,這些系統對人類生活產生直接影響。然而,深層神經網絡的黑匣子性質挑戰了其在使用中的關鍵任務應用,引發了引起信任不足的道德和司法問題。可解釋的人工智能(XAI)是人工智能(AI)的一個領域,它促進了一系列工具,技術和算法的產生,這些工具,技術和算法可以生成對AI決策的高質量,可解釋,直觀,人類可理解的解釋。除了提供有關深度學習當前XAI格局的整體視圖之外,本文還提供了開創性工作的數學總結。我們首先提出分類法,然后根據它們的解釋范圍,算法背后的方法,解釋級別或用法對XAI技術進行分類,這有助于建立可信賴,可解釋且自解釋的深度學習模型。然后,我們描述了XAI研究中使用的主要原理,并介紹了2007年至2020年XAI界標研究的歷史時間表。在詳細解釋了每種算法和方法之后,我們評估了八種XAI算法對圖像數據生成的解釋圖,討論了其局限性方法,并提供潛在的未來方向來改進XAI評估。
主題: Explainable Reinforcement Learning: A Survey
摘要: 可解釋的人工智能(XAI),即更透明和可解釋的AI模型的開發在過去幾年中獲得了越來越多的關注。這是由于這樣一個事實,即AI模型隨著其發展為功能強大且無處不在的工具而表現出一個有害的特征:性能與透明度之間的權衡。這說明了一個事實,即模型的內部工作越復雜,就越難以實現其預測或決策。但是,特別是考慮到系統像機器學習(ML)這樣的方法(強化學習(RL))在系統自動學習的情況下,顯然有必要了解其決策的根本原因。由于據我們所知,目前尚無人提供可解釋性強化學習(XRL)方法的概述的工作,因此本調查試圖解決這一差距。我們對問題進行了簡短的總結,重要術語的定義以及提議當前XRL方法的分類和評估。我們發現a)大多數XRL方法通過模仿和簡化一個復雜的模型而不是設計本質上簡單的模型來起作用,并且b)XRL(和XAI)方法通常忽略了方程的人為方面,而不考慮相關領域的研究像心理學或哲學。因此,需要跨學科的努力來使所生成的解釋適應(非專家)人類用戶,以便有效地在XRL和XAI領域中取得進步。
題目: Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
摘要: 細粒度動作識別數據集表現出環境偏差,其中多個視頻序列是從有限數量的環境中捕獲的。在一個環境中訓練一個模型,然后部署到另一個環境中,由于不可避免的領域轉換,會導致性能下降。無監督域適應(UDA)方法經常用于源域和目標域之間的對抗訓練。然而,這些方法并沒有探索視頻在每個領域的多模態性質。在這個工作我們利用模式的通信作為UDA self-supervised對齊的方法除了敵對的對齊(圖1),我們測試我們的方法在三個廚房從大規模的數據集,EPIC-Kitchens,使用兩種方法通常用于行為識別:RGB和光學流。結果表明,多模態的自監督比單純的訓練平均提高了2.4%。然后我們將對抗訓練與多模態自我監督相結合,結果表明我們的方法比其他的UDA方法高3%。
主題: Model-Based Reinforcement Learning:Theory and Practice
摘要: 強化學習系統可以通過兩種方式之一做出決策。在基于模型的方法中,系統使用世界的預測模型來提問“如果我做x會發生什么?”?“選擇最好的x1。在另一種無模型方法中,建模步驟被完全忽略,有利于直接學習控制策略。盡管在實踐中,這兩種技術之間的界限可能變得模糊,但作為一種粗略的指導,它對于劃分算法可能性的空間是有用的。
嘉賓簡介: Michael Janner,伯克利人工智能研究實驗室的一名博士生。
題目: Value-laden Disciplinary Shifts in Machine Learning
簡介:
隨著機器學習模型越來越多地用于高風險決策,學者們試圖進行干預以確保這些模型不會對不受歡迎的社會和政治價值觀進行編碼。然而,到目前為止,很少有人關注價值觀如何影響整個機器學習學科。價值觀如何影響學科的重點和發展方式?如果不希望的值在規程級別上起作用,那么對特定模型的干預將不足以解決問題。相反,需要紀律層面的干預。
本文從科學哲學的角度來分析機器學習這門學科。我們開發了一個概念框架來評估機器學習模型(如神經網絡、支持向量機、圖形模型)占據主導地位的過程。模型類型的興起和衰落常常被描述為客觀的過程。然而,這種學科轉變更加微妙。首先,我們認為模型類型的興起是自我強化——它影響模型類型的評價方式。例如,深度學習的興起與對計算量和數據量豐富的環境中評估的更大關注交織在一起。其次,模型類型的評估方式編碼了社會和政治價值。例如,在計算量豐富和數據量豐富的環境中,對評估的更大關注對權力、隱私和環境關注的集中化的價值觀進行了編碼。
作者簡介:
Ravit Dotan主要從事認識論、科學哲學和機器學習哲學。主要研究興趣的是證據的概念、價值在推理中的作用以及理論選擇。次要興趣是女權主義和社會哲學。特別感興趣的是分析合法婚姻的制度及其對邊緣群體的影響,了解什么是“種族”和“性別”。
Smitha Milli是加州大學伯克利分校EECS三年級的博士生,師從Anca Dragan和Moritz Hardt。目前是Twitter META的實習生。研究重點是建立更符合價值的ML系統,即使面對人類的“非理性”、交互和適應。