亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

由于涉及人類對人工智能的信任、正確性、審計、知識轉移和監管等原因,可解釋人工智能目前是該領域的前沿課題。利用強化學習(RL)開發的人工智能尤其引人關注,因為從環境中學到的東西并不透明。強化學習人工智能系統已被證明是 "脆性"的,無法在安全的條件下運行,因此,無論輸入值如何,顯示正確性的方法都是人們關注的焦點。顯示正確性的一種方法是使用形式化方法(即形式化驗證)驗證系統。這些方法很有價值,但成本高昂且難以實現,因此大多數人傾向于采用其他方法進行驗證,這些方法可能不那么嚴格,但更容易實現。在這項工作中,我們展示了針對戰略戰斗游戲《星際爭霸 2》的各方面開發 RL 人工智能系統的方法,該系統性能良好、可解釋并可進行形式驗證。該系統在示例場景中表現出色,同時還能向人類操作員或設計者解釋其行為。此外,該系統還符合有關其行為的正式安全規范。

引言

近年來,強化學習(RL)中的人工智能(AI)應用因其對以往棘手問題的廣泛適用性而備受關注[1,2]。其中,DeepMind 的 AlphaGo 系統[3] 的成功點燃了該領域研究和關注的熱情,特別是引入了將 RL 與深度神經網絡 (DNN) 相結合的新技術,即深度強化學習 (DRL)。然而,盡管在 RL 和 DRL 的總體領域內取得的進步不斷提高了這些方法的可擴展性和性能,但驗證和可解釋性工作卻沒有得到同等的關注。人們一直在努力采用性能卓越的 DRL 解決方案,并在事后提高可解釋性和可信度。這方面的一個例子是 DARPA 的 XAI 計劃,該計劃旨在研究和確定人工智能中可解釋性的重要性和使用情況[4]。他們得出的結論是,許多 DRL 解決方案都很脆弱、無法驗證,而且對人類設計者/操作者來說也不透明,而人類設計者/操作者可能想要審核、驗證或從智能體學到的知識中提取知識。

模糊推理系統(FIS)是一種利用模糊邏輯和推理規則將輸入映射到輸出的函數近似器[5],它具有一些適合 XAI 的特性,但與 DNN 相比還有其他潛在的缺點,即可擴展性。基于模糊邏輯的系統因其近似能力[6]、易于利用專家知識實現[7]、對輸入噪聲的魯棒性[8]、對人類的可解釋性和透明度[9]以及可正式驗證的能力[10],長期以來一直被用于控制系統開發。然而,與輸入數量相關的可擴展性問題限制了其潛在應用。為了緩解可擴展性問題,同時保留可解釋性和近似能力,2015 年提出了模糊樹[11],將多個 FIS 組合成網絡或樹狀結構。

遺傳算法是一類無梯度搜索算法,它通過變異和重組在若干代內進化解決方案,并根據適應度函數中的一個或多個指標評估其適應度。長期以來,GA 在許多領域都發揮了巨大作用,在與 FIS 參數優化相關的大量工作中也是如此[12]。將模糊樹與遺傳算法相結合,產生了遺傳模糊樹(GFTs)[11],這是一種強大的組合,使用了一種可解釋、可正式驗證的函數近似器和無梯度優化器,并已應用于監督[13]和強化學習領域[14]的多個復雜案例。Thales 的 GFT 軟件工具包包括一個模糊邏輯引擎 Psion 和一個最先進的基于遺傳算法的優化工具 EVE[15] 。它的優勢在于易于使用,可以找到壁時間較短的解決方案,而且由于無梯度優化的特性,適用范圍很廣。阿爾法系統[14]可能是之前最著名的應用案例,它是一種超人類人工智能,可在高保真模擬中與人類飛行員專家進行超視距空對空交戰[14]。

GFT 的另一個優點是可以使用形式化方法進行驗證。形式化方法通常被定義為 "用于系統開發、規范和驗證的數學上嚴格的技術"。許多方法和技術都屬于形式方法的范疇,包括布爾可滿足性問題(SAT)[16]、可滿足性模態理論(SMT)、模型檢查、定理證明、可達性分析等。形式化驗證是利用形式化方法來驗證系統的正確性。一般來說,驗證涉及對系統正確性的信心,而形式驗證則將傳統驗證方法(如蒙特卡洛評估)擴展到正確性的最終證明。在人工智能和人工智能領域,形式驗證的應用一直進展緩慢,這主要是由于隨著 DNN 規模的不斷擴大,證明 DNN 屬性的難度也在不斷增加。

在這項工作中,我們創建了一個使用 GFT 結構的智能體,然后使用強化學習對其進行訓練,使其能夠游玩《星際爭霸 2》中的特定場景。請注意,本研究并不分析整場標準的《星際爭霸 2》比賽。相反,本研究的重點將放在具體的控制應用上,同時關注可解釋性和形式可驗證性,當然也可以通過使用 GFT 方法來研究整個標準的《星際爭霸 2》游戲。這項研究的目的并不是要證明基于模糊邏輯的人工智能方法與其他任何方法之間的性能差距,而是要證明如何以保持可解釋性和形式可驗證性的方式創建這些系統。這些能力是任務/安全關鍵型應用非常需要的,而且往往是必需的。之所以使用星際爭霸 2,是因為它是現代 RL 研究中常用的環境,允許創建可公開共享的任務/安全關鍵用例,并允許擴展這項工作,以便與其他高性能 RL 方法進行比較。

GFT 采用結構初始化,在適當情況下給定初始參數值,然后通過游戲中的互動在訓練集中進行訓練。GFT 的結構可以通過提取激活的規則和成員函數來解釋輸出動作。然后創建系統行為規范,并使用形式化方法[17] 對系統進行驗證。在違反規范的情況下,會返回反例,顯示違反規范的地方,然后進行修正。然后對修正后的系統進行驗證,以確保其不違反規范,從而顯示出所制定的行為規范的明確正確性。

本研究開發了四種規范,這絕不是一個詳盡的潛在集合。這項工作將展示學習能力,以解決一類特別困難的問題,展示潛在的可解釋性可能性,并證明遵守了一系列相關規范。本研究的主要目的是展示一個基于模糊邏輯的人工智能系統實例,該系統可以在任務/安全關鍵場景中正式驗證是否符合安全規范。

本文其余部分的結構如下。第 2 節詳細介紹了針對 SC2 中的特定場景創建、訓練和驗證 GFT 的方法。第 3 節展示了結果,包括 RL 訓練、根據規范(和生成的反例)進行的驗證,以及為確保符合規范而進行修改后的結果。第 4 節深入討論了這些結果,并就擴展和未來工作提出了想法。最后,第 5 節簡要總結了本研究的工作、結果和影響。

圖 3. 研究模型中使用的三個獨立的模糊推理系統(FIS),分別用于 Marine Movement Control、Marine Firing Control 和 Medivac Healing Control。藍色為標準化輸入,紅色為 FIS,綠色為標準化輸出。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

圖神經網絡(GNNs)越來越多地應用于許多高風險任務中,因此,近來人們對它們的公平性越來越關注。研究表明,GNNs往往會對某些由敏感屬性如性別和種族劃分的人群做出歧視性決策。盡管近期的工作致力于提高它們的公平性能,但這通常需要可以獲取的人口統計信息。由于法律限制,這在現實世界場景中極大地限制了它們的適用性。為解決這個問題,我們提出了一種不依賴人口統計信息的方法,通過知識蒸餾來學習公平的GNNs,即FairGKD。我們的工作是由這樣一個實證觀察所激發的:在部分數據(即,只有節點屬性或拓撲數據)上訓練GNNs可以提高它們的公平性,盡管這犧牲了一定的效用。為了在公平性和效用性能之間做出平衡的權衡,我們采用了一組公平專家(即,在不同部分數據上訓練的GNNs)來構建合成教師,該教師蒸餾出更公平且富有信息的知識以指導GNN學生的學習。在幾個基準數據集上的實驗表明,FairGKD不需要訪問人口統計信息,顯著提高了GNNs的公平性,同時保持了它們的效用。

付費5元查看完整內容

人工智能(AI)究竟是什么?它與電子戰(EW)的未來有什么關系?人工智能正在改變我們所做的一切嗎?如果忽視人工智能,那將是一個錯誤。眾所周知,特斯拉采用了人工智能算法,特別是卷積神經網絡、遞歸神經網絡和強化學習。從根本上說,這些算法可以匯編來自多個傳感器的數據,分析這些數據,然后做出決策或向最終用戶提供信息,從而以驚人的速度做出決策。這一過程以指數級的速度發生,超過了人腦的處理速度。因此,從根本上說,人工智能是機器像人類一樣執行認知功能的能力。

人工智能可以駕駛汽車、撰寫學期論文、以適當的語氣幫你創建電子郵件,因此,它在軍事領域的潛在應用也是理所當然的。具體來說,就是整合人工智能電子戰及其提供的潛在能力轉變。雖然 "電子戰 "一詞已經使用了相當長的一段時間,但將人工智能注入這一領域為提高速度和殺傷力和/或保護開辟了新的途徑。

電子戰包含一系列與控制電磁頻譜有關的活動,傳統上一直依賴人類的專業知識來探測、利用和防御電子信號。然而,現代戰爭的速度和復雜性已經超出了人類操作員的能力。這正是人工智能的優勢所在,它帶來的一系列優勢將徹底改變電子戰的格局。

將人工智能融入電子戰的首要好處之一是增強了實時處理和分析海量數據的能力。在數字時代,戰場上充斥著來自通信網絡、雷達系統和電子設備等各種來源的大量信息。人工智能算法可以迅速篩選這些數據,識別出人類操作員可能無法識別的模式、異常情況和潛在威脅。這種能力不僅能提高威脅檢測的準確性,還能大大縮短響應時間,使友軍在快速演變的局勢中獲得關鍵優勢。

在這種情況下,人工智能賦能的兵力倍增器就出現了,它能在面對復雜多變的局勢時做出更高效、更有效的決策。現代戰場會產生大量電子信號,需要快速準確地識別。人工智能驅動的算法擅長篩選這些數據、辨別模式,并識別在以往場景中可能被忽視的信息。這使兵力能夠迅速做出反應,以更快的速度做出關鍵決策。

此外,人工智能還具有適應和學習新信息的能力,這一特性在電子戰領域尤為有利。電子威脅和反制措施處于不斷演變的狀態,需要反應迅速和靈活的策略。人工智能驅動的系統可以根據不斷變化的情況迅速調整戰術,持續優化性能,而無需人工干預。這種適應性對于對抗復雜的電子攻擊和領先對手一步至關重要。

人工智能與電子戰的融合還為指揮官提供了更先進的決策工具,比歷史標準更詳細、更快速。人工智能算法可以分析各種場景,考慮地形、天氣以及友軍和敵軍兵力等因素。這種分析為指揮官提供了全面的戰場情況,使他們能夠在充分了解情況的基礎上做出決策,最大限度地提高任務成功的概率,最大限度地降低潛在風險。此外,人工智能驅動的模擬可以演繹不同的場景,使軍事規劃人員能夠完善戰略,評估不同行動方案的潛在結果。美國今年早些時候進行了一次以印度洋-太平洋地區為重點的演習,將大語言模型(LLM)作為規劃和決策過程的一部分。一位演習成員稱贊了系統 "學習 "的成功和速度,以及系統成為戰場上可行資源的速度。另一個例子是,利用已輸入人工智能系統的數據對目標清單進行優先排序,人工智能系統能夠考慮瞄準行動、網絡,從而比操作人員更快、更全面地了解戰區情況。

不過,必須承認,要完成人工智能整合,還存在一些潛在的障礙。首先,美國防部大多數實體無法直接獲得人工智能技術。大多數從事前沿人工智能工作的組織都是商業公司,它們必須與軍事系統合作或集成。這可能會受到美國現行預算和研發流程的阻礙。此外,美國的這些流程進展緩慢,人工智能技術很有可能無法融入美國兵力。還有潛在的道德和安全考慮。隨著人工智能系統在探測和應對威脅方面承擔更多責任,人類的監督和控制水平也會出現問題。為了與戰爭法則保持一致,需要有人工參與,而不是完全依賴人工智能來做出攻擊決策。任何時候,只要有可能造成人員傷亡、附帶損害或其他問題,就需要人類做出有意識的知情決策,而不能任由人工智能自生自滅。在人工智能自主決策和人工干預之間取得適當的平衡至關重要,以防止意外后果或機器在沒有適當問責的情況下做出生死攸關的選擇。

最后,人工智能的整合引發了對潛在網絡漏洞的擔憂。雖然人工智能可以提高電子戰的速度和準確性,但它也為試圖操縱或破壞人工智能系統的惡意行為者帶來了新的攻擊途徑。要保護這些系統免受網絡威脅,就必須采取強有力的整體網絡安全方法,同時考慮到人工智能驅動的電子戰的硬件和軟件層。

最后,不可否認,將人工智能融入戰爭預警的潛在戰略利益是巨大的。人工智能處理海量數據、適應不斷變化的條件和支持決策過程的能力有可能重塑現代戰爭的格局。隨著兵力越來越依賴技術來保持在數字化作戰空間中的優勢,負責任地開發和部署人工智能驅動的預警系統將是必要的。 如何在技術創新、人工監督和安全措施之間取得適當平衡,將決定能在多大程度上實現這些優勢,同時又不損害戰略目標或道德考量。美國采購系統面臨的挑戰也將在人工智能集成中發揮關鍵作用。人工智能在電子戰中的變革力量有可能改變游戲規則。問題是:它會嗎?人工智能將如何融入新型 EC-37B Compass Call 和 NexGen 干擾機等未來平臺?陸軍是否會將人工智能納入其推動營級決策的努力中?這些都是值得探討的問題,但有一點是肯定的:電磁作戰界必須繼續接受創新思維,因為我們知道未來的戰斗將在電磁頻譜中開始和結束。人工智能將在現代戰爭的新時代發揮關鍵作用。

付費5元查看完整內容

近年來,大型語言模型(LLMs)已取得了顯著的進展。這些進展,雖然引起了極大的關注,同時也引發了各種擔憂。這些模型的潛力無疑是巨大的;然而,它們可能會產生不準確、誤導性或甚至有害的文本。因此,采用對齊技術來確保這些模型表現出與人類價值觀一致的行為變得至關重要本調查旨在為大型語言模型的對齊方法提供廣泛的探討,結合現有的能力研究。通過AI對齊的視角,我們將現行的方法和新出現的大型語言模型的對齊提案分類為外部和內部對齊。我們還探討了一些顯著問題,包括模型的可解釋性和潛在的對抗攻擊的脆弱性。為了評估大型語言模型的對齊,我們提出了各種基準和評估方法。在討論了大型語言模型的對齊研究狀況之后,我們最終展望未來,思考了未來有前途的研究方向。 我們對本次調查的愿景不僅僅是激發在這一領域的研究興趣。我們還希望彌合AI對齊研究社群和致力于探索大型語言模型能力的研究人員之間的差距,為能力強大且安全的大型語言模型牽線搭橋。

1 引言

以OpenAI的ChatGPT(OpenAI,2022年)和GPT-4(OpenAI,2023a年)為例的大型語言模型(LLMs)已經迅速發展,重新點燃了對人工通用智能(AGI)的熱忱和期望。雖然LLMs作為通向AGI的路徑仍是一個討論的話題,但這些模型,憑借著擴展規律(Kaplan等,2020年;Hoffmann等,2022年),越來越展現出類似AGI的特征(Bubeck等,2023年)。在大量數據的訓練下,LLMs不僅展示出了強大的語言能力,而且在數學、推理、醫學、法律和編程等多個領域迅速接近人類水平的熟練度(Bubeck等,2023年)。 伴隨著LLMs在技術上的突破,人們越來越關注它們可能對人類構成的潛在威脅和倫理風險。有明確的倫理風險已被發現。研究表明,LLMs可能會無意中傳播它們訓練數據中的有害信息,例如偏見、歧視和有毒內容(Weidinger等,2021年)。它們可能會泄露訓練數據中的私人和敏感信息,或生成誤導性、虛假或低質量的信息。此外,部署LLMs也引入了社會和倫理挑戰,例如LLMs的潛在濫用和對嚴重依賴LLM代理的用戶的負面影響,以及對環境、信息傳播和就業的更廣泛影響(Bubeck等,2023年)。

對于長期影響,人們普遍擔憂未對齊的AGI構成存在風險。超越人類智力和知識的AI代理可能會發展出自己的目標,與人類設定的目標產生分歧。在追求其目標的過程中,這樣的代理可能會壟斷資源,確保其保存和自我增強。這一軌跡可能導致人類完全失權,不可避免地導致人類存在的災難性后果(Carlsmith,2022年)。

作為解決這些問題的技術解決方案,AI對齊,即確保AI系統產生與人類價值觀一致的輸出,越來越受到關注。在LLMs的背景下,對齊確保模型的響應不僅準確和連貫,而且從開發人員和用戶的角度來看是安全、道德和可取的。隨著語言代理越來越融入我們日常生活的各個方面,從內容創建到決策支持,任何未對齊都可能導致意想不到的后果。正確地將大型語言模型與人類價值觀對齊,確保了這些模型的巨大潛力得到可信賴和負責任的利用。

響應這一領域日益增長的興趣,最近有一些文章回顧了(或偶然討論了)LLMs的對齊方法(Pan等,2023年;Zhao等,2023b年;Fernandes等,2023年;Liu等,2023d年;Wang等,2023d年)。然而,一個值得注意的觀察是,這些評論主要集中在外部對齊上,常常忽略了AI對齊中的其他重要主題,如內部對齊和機械解釋性。雖然無可否認,外部對齊在LLM對齊中占據了關鍵地位,并且一直是深入和深刻研究的主題,但從更廣泛的AI對齊角度來看,它只是整個對齊景觀的一部分。

了彌補這一差距,我們從AI對齊的角度提供了LLM對齊的全面概述。我們認為,對齊的全面理解不僅應該包括廣泛研究的外部對齊,還應該深入探討目前還處于起步階段的領域。諸如內部對齊和機械解釋性這樣的主題,雖然目前還處于研究的初級階段,但卻擁有巨大的潛力。在這個階段,這些領域的許多提案仍然是理論性的,或者僅僅是思考實驗。然而,我們認為,它們對LLM對齊研究的未來軌跡是不可或缺的。通過揭示這些被忽視的領域,我們希望呈現出一個更為全面的對齊視角。因此,除了現有的LLM對齊方法,我們還將介紹幾個對齊主題,盡管這些主題尚未應用于LLMs,但顯示出前景,并可能在可預見的未來成為LLM對齊的組成部分。通過這樣做,我們致力于豐富AI對齊及其在大型語言模型領域的多方面應用的論述。

總結所有這些因素,我們在圖1中提出了一個LLM對齊的分類法。具體來說,本調查將首先討論LLM對齊研究的必要性(第2節)。為了提供AI/LLM對齊的歷史和鳥瞰視圖,我們介紹了AI對齊的起源和相關概念(第3節)。根據我們提出的分類法,將對齊LLMs的理論和技術方法分為外部對齊(第4節)、內部對齊(第5節)和機械解釋性(第6節),遵循AI對齊的哲學(Krakovna,2022年)。除了這些理論和實證方法外,我們還進一步討論了LLMs當前對齊方法的潛在副作用和脆弱性,包括對抗攻擊(第7節),以及LLM對齊評估的方法和基準(第8節)。最后,我們提出了我們對LLM對齊研究未來趨勢的有限觀點(第9節)。

為什么LLM對齊?

LLMs不僅在文本生成方面變得越來越有能力,還在許多其他任務中展現出能力,例如,文本到代碼生成(Poesia等,2022年),計劃(Huang等,2022年;Song等,2022年),工具學習(Qin等,2023年),推理(Mialon等,2023年)。然而,LLMs的訓練目標(Radford等,2019年;Devlin等,2019年),例如,下一個單詞預測(Radford等,2019年)或確定兩個句子在上下文中是否相關(Devlin等,2019年),并不一定符合人類價值觀。因此,LLMs可能會生成人類希望避免的不良內容或冒險行為。LLM風險通常可以從兩個方面來看:已建立的風險和預期的風險(Weidinger等,2021年)。前者主要是觀察到的社會和倫理風險(Weidinger等,2021年),而后者是與高級LLM相關的未來潛在風險(Hendrycks等,2023年)。 什么是LLM對齊?

為了深入理解大型語言模型(LLMs)中的技術對齊,我們需要討論更廣泛的概念,即AI對齊。盡管這是一個新興領域,但在LLMs出現之前就已經進行了研究。我們簡要介紹AI對齊的起源、研究格局和要點,以及與AI對齊相關的概念,這些都為LLM對齊及其最近出現的子領域提供了背景。

AI對齊的起源

AI對齊的起源可以追溯到激發AI革命的最初愿望:創建能夠像人類一樣思考和行動,甚至超越人類的機器。如果我們成功創建了這樣強大的機器,我們如何確保它們按照我們的最佳利益行事,而不是反對我們呢?這個未解之謎不僅引發了好奇心,而且強調了我們在塑造AI未來時所承擔的深遠責任。

賽博格學之父Norbert Wiener在一篇發表在《科學》雜志上的論文中提出了這樣的擔憂(Wiener, 1960): “如果我們為了實現我們的目的,使用了一個我們一旦啟動就無法有效干預其操作的機械機構,因為這個行動如此迅速和不可逆,以至于我們在行動完成之前沒有數據進行干預,那么我們最好確保放入機器的目的是我們真正的愿望,而不僅僅是它的多彩模仿。”

這個聲明強調了確保“機械機構”的目標與我們為它設定的真正目標一致的重要性,強調了機器和人類目標之間的對齊。

2014年,人工智能:一種現代的方法(Russell和Norvig,2010)的作者之一Stuart Russell在一次采訪中表示:要深入了解LLMs中的技術對齊,我們需要討論AI對齊這一更為廣泛的概念。即便這是一個新興領域,但AI對齊的研究在LLMs出現之前就已經開始。我們簡要介紹了AI對齊的起源、研究景觀和成分以及相關概念,為LLM對齊及其新興的子領域提供背景。

“正確的響應似乎應該是改變該領域本身的目標;我們需要構建的不是純粹的智能,而是可以證明與人類價值觀相一致的智能。由于實際原因,我們需要解決即便是在人類環境中操作的相對不那么智能的AI系統的價值對齊問題。如果我們理解這個問題是AI固有的一部分,就像容納是現代核聚變研究的固有部分一樣,那么我們有理由保持樂觀。世界不需要走向悲傷。” —— Stuart Russell, 2014。 他定義了“價值對齊問題”(VAP),強調了建造不僅聰明而且與人類價值觀一致的AI系統的需要。盡管AI對齊的概念在AI誕生之初就已經種下,但過去幾十年基本上沒有進行研究。長時間以來,AI在各種能力方面都沒有達到人類水平,甚至被嘲笑稱為“人工白癡”。

然而,最近的進展,尤其是大型語言模型的崛起,已經將AI能力推向了接近甚至超過人類在許多任務上的表現的水平。這種復蘇使得AI對齊的重要性和緊迫性浮出水面。從2012年開始,在相關論壇和arXiv上已經開始出現了關于AI對齊的討論和研究文章。到2017年,關于AI對齊的出版物已經爆炸性地增長,論文數量從每年不到20篇增加到了超過400篇(Kirchner等,2022),與Transformer(Vaswani等,2017)和GPT(Radford等,2018)的發明相吻合。

相較于其他AI研究領域,如自然語言處理,AI對齊還處于前范例階段(Kirchner等,2022)。這個新興領域中的許多關鍵概念和術語還沒有達成共識。術語如“對齊”,“AI對齊”,和“價值對齊”在討論中經常可以互換使用。在某些上下文中,“人機對齊”作為“AI對齊”的替代詞出現。而“對齊”一詞在AI對齊的上下文中是合適的,但在更廣泛的上下文中可能會產生歧義,可能與機器翻譯中的雙語對齊等其他對齊概念混淆。 此外,對AI對齊的定義還沒有達成共識。Paul Christiano將AI對齊定義為“如果A在嘗試做H希望它做的事,那么A就與H一致。”這個定義過于泛泛了然,因為幾乎所有的AI模型都在盡力做其創建者希望它們做的事。

在此調查中,我們從其內在的角度定義AI對齊:AI對齊確保AI代理的內外目標都與人類價值觀一致。外部目標是基于人類價值觀由AI設計師定義的,而內部目標則是AI代理內部優化的。這一定義雖然區分了AI代理的內外目標,但并未準確定義人類價值觀,因此略顯不精確。將AI系統的目標分類為外部目標和內部目標的原因在于AI對齊的技術性質(Hubinger等,2019c)。在這個定義中沒有指定人類價值觀,是因為AI對齊固有的社會和技術挑戰(Hendrycks等,2021)。

AI對齊的研究格局和成分

眾所周知,從廣泛的角度來看,AI對齊的關鍵研究議程包括外部對齊、內部對齊和可解釋性(Hubinger, 2020b; Ngo, 2022; Krakovna, 2022)。

外部對齊

這是選擇正確的損失函數或獎勵函數,并確保AI系統的訓練目標符合人類價值觀。換句話說,外部對齊試圖將指定的訓練目標與其設計者的目標對齊。至少出于以下原因,這在實踐中非常困難: ? 通常很難理解和定義人類價值觀或意圖。 ? 人類價值觀有很多不同的細粒度維度。我們需要將指定的目標與所有這些維度對齊嗎? ? 人類價值觀通常受社會和文化限制。我們需要將指定的目標與所有不同的文化和社會對齊,還是只對其中的一部分對齊?考慮到文化和社會的多樣性,我們如何確保價值對齊的公平性? ? 由于人類價值觀/意圖通常是定性的,而要優化的損失或獎勵必須是可衡量和可計算的,我們如何彌合它們之間的差距?這被稱為目標規范問題。 ? 外部對齊可能會遭受規范游戲的困擾,其中由于古德哈特定律,可能會出現無法預見的目標或后果。古德哈特定律起源于經濟學,其內容是“當一項衡量變成一個目標時,它就不再是一個好的衡量”。這與外部對齊有關,因為某個價值的代理是要被優化的目標,它可能不再是一個好的代理。

**內部對齊

這是為了確保AI系統實際上經過培訓以實現設計師設定的目標。一旦我們指定了培訓目標,我們需要確保AI系統的行為實際上符合這些規范。由于AI系統,尤其是深度學習模型,可以開發出難以從其訓練數據或目標中預測的行為,這是具有挑戰性的。例如,一個經過訓練來贏得游戲的AI系統可能會找到一個意想不到的漏洞或者逃避通道,這在技術上滿足了它的目標,但違反了游戲的精神。目標錯誤泛化問題(Shah等人,2022)是另一個例子,即使我們有正確的目標規范,由于在未見情況下的魯棒性失敗,仍然可能產生無意的目標。內部對齊確保AI的“內部”目標(它在學習過程中推導或優化的目標)符合設計師設定的“外部”目標。 外部和內部對齊對于構建安全可靠的AI至關重要。如果失敗,我們冒著創造的系統的行為與人類價值觀或意圖不一致的風險。隨著LLMs變得更加有能力,這些對齊問題的重要性增加,使得LLM對齊的研究與LLM能力的研究一樣關鍵。

**可解釋性

在AI對齊的背景下,可解釋性廣泛地指的是促使人們理解AI系統的內部運作、決定和行為的方法、模型和工具。它可以進一步分為: ? 透明性:這是通過追蹤AI系統的內部狀態來理解黑盒中的AI系統的內部運作,從而引導其行為和決定。透明性的一個新興而有趣的方法是機械可解釋性,它尋求將機器學習系統(特別是神經網絡)的輸出和行為逆向工程到其內部狀態、權重和組件(Nanda等人,2023)。由于LLMs中參數的巨大數量以及LLMs作為大型神經網絡的系統復雜性,逆向工程LLMs是非常困難的。當前的機械可解釋性通常在LLMs的小型和簡化模型上進行(例如,去除了FFN子層的兩個神經層)(Elhage等人,2021; 2022a)。然而,這是一個相當有前途的方向,為神經網絡的對齊提供了深刻的見解,并有望在未來取得突破。 ? 可解釋性:這涉及AI系統為其決定提供人類可理解的解釋的能力。在許多關鍵領域,例如醫療保健、金融和執法,AI做出的決定對許多方面都有深遠的影響。例如,考慮一個醫療診斷AI。如果這個系統預測一個患者患有特定的醫療病癥,僅僅輸出這樣的預測結果是不夠的。醫療專業人員、患者和其他利益相關者會想要知道這個預測是如何做出的。它是否考慮了患者的病史、最近的實驗室結果或特定的癥狀來做出全面的決定? 解釋通常被視為模型輸出的事后分析,該模型允許模型更多地了解其預測。透明度是查看模型內部以揭示模型的運作方式。盡管這種劃分不是絕對的(Lipton,2017),透明度更多地與對齊相關,因為透明度工具不僅使我們了解模型的內部結構,還提供了模型在培訓過程中變化的見解(Hubinger,2022a)。

**外部對齊、內部對齊和可解釋性之間的關系

外部和內部對齊共同確保模型的行為與人類的價值觀和意圖一致。外部對齊專注于從人類目標到模型的規范,而內部對齊深入研究模型的內部優化過程,以保證模型本質上試圖做設計師希望它做的事情。盡管存在這種差異,他們的二元和形式主義二分法并不建議,因為對齊失敗的分類有時是模糊的,構建安全和可信賴的系統時,整體對齊觀點是重要的。8雖然可解釋性不直接針對對齊,但其工具和技術可以幫助外部和內部對齊。通過了解模型如何演化和做出決定,我們可以更好地識別何時以及在哪里發生不對齊。例如,如果模型采取意想不到的捷徑來實現其目標,可解釋性可能會幫助我們了解這何時以及如何發生。此外,可解釋性可以向我們提供模型的內部推理過程的見解。

近年來,LLM(大型語言模型)的快速發展無疑揭開了新技術力量的新紀元。然而,隨著這一力量的出現,我們也承擔著確保這些模型在人類倫理和期望的范圍內運作的責任。本文提供了針對LLM的對齊方法的全面概述,強調了將能力研究與倫理考慮相結合的重要性。我們通過將對齊技術分類為外部對齊和內部對齊,揭示了研究社區目前所采用的多方面方法。同時,我們也討論了新興的主題,如模型的可解釋性和對抗性攻擊的脆弱性,突出了對齊過程中的復雜性。此外,本文不僅記錄了當前對齊研究的現狀,還展望了未來,確定了有望進一步完善和提高LLM對齊的潛在研究軌跡。我們真誠希望這份調查能作為催化劑,促進AI對齊社區與LLM研究人員之間的合作。這樣的合作方法是實現LLM全部潛力的必要條件,確保它們以道德合規和有益的方式服務于人類。總之,當我們繼續推動LLM的可能性邊界時,我們必須始終堅守對其負責任和有原則的部署的承諾。

付費5元查看完整內容

生成性任務,如文本生成和問答,在移動應用領域占據著關鍵地位。由于對隱私問題的敏感性,對它們在移動設備上直接執行的需求正在增長。目前,執行這些生成性任務在很大程度上依賴于大型語言模型(LLMs)。然而,這些設備的有限內存容量對這些模型的可擴展性構成了嚴峻挑戰。在我們的研究中,我們介紹了LLMCad,一種專門設計用于高效生成自然語言處理(NLP)任務的創新型設備內推理引擎。LLMCad的核心思想圍繞模型協作展開:一個位于內存中的緊湊型LLM負責生成最直接的標記,而一個高精度的LLM則負責驗證這些標記并糾正任何已識別的錯誤。LLMCad引入了三種新技術:(1)與按順序生成候選標記不同,LLMCad利用較小的LLM構建標記樹,包含更廣泛的可信標記路徑。隨后,較大的LLM可以高效地同時驗證所有這些路徑。(2)它采用了一種自動調整的回退策略,當較小的LLM生成錯誤的標記時,迅速啟動驗證過程。(3)為了確保標記的連續生成流,LLMCad在驗證過程中通過實施計算-IO流水線來猜測生成標記。通過一系列廣泛的實驗,LLMCad展示了印象深刻的標記生成速度,達到了比現有推理引擎快9.3倍的速度。

付費5元查看完整內容

軍隊正在研究改善其多域作戰(MDO)中的通信和敏捷性的方法。物聯網(IoT)的流行在公共和政府領域獲得了吸引力。它在MDO中的應用可能會徹底改變未來的戰局,并可能帶來戰略優勢。雖然這項技術給軍事能力帶來了好處,但它也帶來了挑戰,其中之一就是不確定性和相關風險。一個關鍵問題是如何解決這些不確定性。最近發表的研究成果提出了信息偽裝,將信息從一個數據域轉化為另一個數據域。由于這是一個相對較新的方法,我們研究了這種轉換的挑戰,以及如何檢測和解決這些相關的不確定性,特別是未知-未知因素,以改善決策。

背景

現代世界受到了技術和全球連接的基礎設施動態的重大影響。隨著這種新環境的出現,許多領域的決策過程面臨更大的挑戰。領導者和決策者必須考慮各種因素的影響,包括那些屬于已知和未知的數據來源[9]。

雖然這不是一個新的概念,但在一些論文中已經提出了對已知和未知因素進行分類的定義。當條件是"已知-已知"(Known-Knowns):那么條件是有我們知道和理解的知識,已知-未知(known-Unknowns):條件是有我們不知道但不理解的知識,未知-已知(Unknown-knowns):條件是有我們理解但不知道的知識,以及"未知-未知"(Unknown-Unknowns):條件是有我們不理解也不知道的知識[6]。在圖1中,對知識的已知和未知分區的討論是圍繞一個問題展開的。圖中所選的是與對風險的認識和理解有關的。

在這四種情況中,"已知-已知"是最明顯的一種,人們可以對一個特定的問題有完整的了解,而 "未知-未知"則完全相反,也是最具挑戰性的一種。因此,重點應該是制定策略,以發現可能的未知數,從而將其轉換為已知數的數據。然而,在許多情況下,這可能不是小事,這可能需要應急計劃和適應性技能來應對不可預見的情況。

已知-未知的任務計劃需要被徹底觀察。然而,由于已知的部分,只要有足夠的時間和資源投入,就可以找到一個合理的方案。最后,為了處理未知數[11,22,23],人類是最著名的直覺模型,具有很強的預知能力[5]。因此,包括來自個人或團體的建議可以幫助對那些被遺漏的數據進行分類,從而被機器學習模型認為是未知的。

我們在圖2中提供了上述與我們的 "已知 "和 "未知"知識相關的不確定性區域的可視化表示。在這項研究中,我們將未知數視為圖像數據中未見或未檢測到的對象類別,通過應用第3.1節所述的圖像-音頻編碼方案,這些對象可以被發現或重新歸類為已知數。

圖2:我們提出的方法的可視化表示,說明了已知和未知對的前提。當我們離開綠色區域外的中心,踏入其他顏色的區域時,人類知識的邊界變得模糊和混亂。"?"代表需要探索的區域。紅色區域的點狀周長表示該區域的無界性,因為對該區域及其存在缺乏任何知識。向內的點狀箭頭表示目標應該是將這個紅色區域匯聚到任何可能的黃色、藍色或綠色區域。按照這個順序,理想情況下,每一個包絡區域都應該被收斂到它所包絡的區域。

動機與挑戰

任何決策都會受到風險存在的嚴重影響,任何能夠幫助識別和了解已知和未知的過程都是理想的。此外,對未知數據的識別和檢測可以使風險最小化。然而,面對先驗知識并不奢侈,只有少數數據樣本可供分析的情況很常見。軍事決策者,如指揮官,在做出關鍵決定時可能沒有什么選擇,最終可能完全依賴于他們的專業知識和新數據的輸入。他們可能會利用以前的經驗來分析傳來的信息,并捕捉可能的未知數據,以盡量減少風險。這種方法可能仍然不能涵蓋所有的未知因素。

本文工作的動機是決策中的主要挑戰,即我們完全依靠有意義的和足夠的數據來支持決策。另外,決策者必須對用于提供數據支持決策的技術的性能和結果有信心。因此,我們研究了當深度學習模型的性能由于缺乏豐富的數據樣本而受到限制時,如何提高決策過程中的信任水平。我們關注一個訓練有素的模型如何能夠高精度地檢測和識別未知(未檢測到的)物體;該模型區分新的觀察是屬于已知還是未知類別的能力。

這項工作背后的動力來自于美國陸軍的IoBT CRA項目中的一個問題,該項目將設備分為:紅色(敵人)、灰色(中立)、藍色(朋友)資產。類的屬性和行為是非常不確定的,與前面提到的第1.1節中的已知或未知的挑戰有關,因為要么來自友好來源的數據可能被破壞,要么敵人有可能被欺騙成友好數據來源[1,2,3,4]。因此,以較高的置信度對這些資產進行分類是一項具有挑戰性的任務。應對這一挑戰的最初步驟是,從這些設備中獲取數據,例如圖像、文本或音頻,并調查未知數據是否可以被分類為已知數據。

提出的方法

我們的方法包括選擇圖像數據和建立一個深度學習框架來解決分類的挑戰。圖像類被特別選擇來代表類似于軍事行動中常用的地形景觀。

因此,我們的框架由兩個獨立的部分組成;對從原始數據集獲得的圖像進行分類,以及對使用圖像-音頻編碼方案從圖像獲得的音頻信號進行分類(第3.1節)。

由于編碼將數據從一個數據域(圖像)轉換到另一個數據域(音頻),預計會有信息損失。為了解決上述轉換后的數據樣本的挑戰,我們提出了以下問題:當數據被編碼方案轉換后,我們能否提高模型的性能,從而將未知數轉換成已知數?我們怎樣才能彌補模型的低性能,從而使以前的未知數據能夠用于提高決策過程中的可信度?在模型的性能和正確分類數據以支持決策之間的權衡是什么?

付費5元查看完整內容

機器學習的巨大成功導致了AI應用的新浪潮(例如,交通、安全、醫療、金融、國防),這些應用提供了巨大的好處,但無法向人類用戶解釋它們的決定和行動。DARPA的可解釋人工智能(XAI)項目致力于創建人工智能系統,其學習的模型和決策可以被最終用戶理解并適當信任。實現這一目標需要學習更多可解釋的模型、設計有效的解釋界面和理解有效解釋的心理要求的方法。XAI開發團隊正在通過創建ML技術和開發原理、策略和人機交互技術來解決前兩個挑戰,以生成有效的解釋。XAI的另一個團隊正在通過總結、擴展和應用心理解釋理論來解決第三個挑戰,以幫助XAI評估人員定義一個合適的評估框架,開發團隊將使用這個框架來測試他們的系統。XAI團隊于2018年5月完成了第一個為期4年的項目。在一系列正在進行的評估中,開發人員團隊正在評估他們的XAM系統的解釋在多大程度上改善了用戶理解、用戶信任和用戶任務性能。

付費5元查看完整內容

Code://github.com/Shen-Lab/GraphCL Paper:

對于當前的圖神經網絡(GNNs)來說,圖結構數據的可泛化、可遷移和魯棒表示學習仍然是一個挑戰。與為圖像數據而開發的卷積神經網絡(CNNs)不同,自監督學習和預訓練很少用于GNNs。在這篇文章中,我們提出了一個圖對比學習(GraphCL)框架來學習圖數據的無監督表示。我們首先設計了四種類型的圖擴充來包含不同的先驗。然后,我們在四種不同的環境下系統地研究了圖擴充的各種組合對多個數據集的影響:半監督、無監督、遷移學習和對抗性攻擊。結果表明,與最先進的方法相比,即使不調優擴展范圍,也不使用復雜的GNN架構,我們的GraphCL框架也可以生成類似或更好的可泛化性、可遷移性和健壯性的圖表示。我們還研究了參數化圖增強的范圍和模式的影響,并在初步實驗中觀察了性能的進一步提高。

付費5元查看完整內容

最近,終身學習在構建不斷積累和轉移知識以幫助未來學習的機器學習系統方面引起了關注。無監督主題建模廣泛用于從文檔集合中發現主題。然而,由于數據稀疏性,例如,在一個小的(短)文檔集合中,會產生不連貫的主題和次優的文檔表示,主題建模的應用具有挑戰性。為了解決這個問題,我們提出了一個神經主題建模的終身學習框架,它可以連續處理文檔集流,積累主題,并通過從多個來源的知識轉移來指導未來的主題建模任務,以更好地處理稀疏的數據。在終身學習過程中,我們特別共同研究:(1)終生共享生成同源性(潛在話題)以轉移先驗知識,(2)通過新穎的選擇性數據增強、聯合訓練和話題正則化方法最小化保留過去學習的災難性遺忘。在給定一個文檔集合流的情況下,我們應用所提出的終身神經主題建模(LNTM)框架,將三個稀疏文檔集合建模為未來任務,并通過perplexity、Topic coherence和information retrieval task量化,證明了性能的提高。

付費5元查看完整內容
北京阿比特科技有限公司