亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型代表了人工智能領域的重大進步。基礎技術是進一步創新的關鍵,盡管有批評意見,甚至在社區和地區內禁止,大型語言模型仍然存在。這篇立場論文從學生和教師的角度介紹了大型語言模型的教育應用的潛在好處和挑戰。簡要討論了大型語言模型及其應用的現狀。強調了如何使用這些模型來創建教育內容,提高學生參與度和互動,以及個性化學習體驗。關于挑戰,本文認為,教育中的大型語言模型需要教師和學習者開發一套必要的能力和素養,以理解技術以及這些系統的局限性和意想不到的脆弱性。此外,為了在學習環境和教學課程中整合和充分利用大型語言模型,需要在教育系統中有一個明確的策略和一個明確的教學方法,重點關注批判性思維和事實檢查策略。其他挑戰,如輸出中的潛在偏見,需要持續的人工監督,以及濫用的可能性,并不是人工智能在教育中的應用所特有的。但我們相信,如果合理處理,這些挑戰可以在教育場景中提供見解和機會,讓學生盡早了解人工智能應用的潛在社會偏見、關鍵和風險。最后,我們提出了如何應對這些挑戰的建議,并確保在教育中以負責任和道德的方式使用這些模式。

//www.edu.sot.tum.de/fileadmin/w00bed/hctl/my_direct_uploads/ChatGPT_for_Good.pdf

付費5元查看完整內容

相關內容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發的聊天機器人程序 [1] ,于2022年11月30日發布 。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文任務。 [1] //openai.com/blog/chatgpt/

本書主要有兩個目的。首先,它旨在成為工程師使用工具、自動化和流程來解決隱私問題的墊腳石。我不僅提供了實際操作的實現技術,還提供了在快速發展的公司中至關重要的業務環境。其次,這本書的目的是幫助企業、政府和媒體的決策者提供正確的指導,以幫助企業茁壯成長,并保護客戶數據。 本書分為4部分和11章。書擋,即第一部分和第四部分,提供上下文指導,并將幫助工程師開發可擴展的隱私計劃。第二部分和第三部分分別提供專注于數據治理和工具的實踐技能。 第一部分關注隱私工程如何成為公司整體創新生態系統的一部分:

第1章解釋了隱私如何受到技術棧和存儲中的數據流的影響,以及公司如何相應地開發編程控制。 * 第2章解釋了數據如何因違反、濫用和法規而產生隱私風險。

第二部分關注數據治理,使工程師能夠更好地管理他們收集的數據及其伴隨的風險:

第3章重點介紹了如何通過跨功能伙伴對數據進行分類,以應對隱私風險。 * 第4章深入探討數據目錄,將使用人工分類和智能分類相結合的方法對數據進行分類。 * 第5章以數據共享為例,提供了匿名數據集和衡量隱私影響的技術。

第3部分將幫助工程師開發關鍵任務的隱私工具,旨在提高隱私遵從性以及建立客戶信任:

第6章將幫助工程師建立一個技術隱私審查和咨詢流程,以提前提供隱私指導,并減輕隱私法律團隊的壓力。 * 第7章將介紹一個數據刪除的架構示例,這是數據風險最小化的核心要求,以及幾個合規機制。 * 第8章將幫助讀者設計一個數據導出功能,以協助完成“數據主體訪問請求”或“dsar”。 * 第9章提供了一個同意管理平臺(CMP)的設計示例,以便企業能夠滿足監管機構和企業正在執行的新要求。

第4部分將在本書前面幾部分的基礎上,幫助工程師擴展他們的隱私計劃。

第10章將隱私風險與安全風險聯系起來,并提供了減輕這些風險的最佳實踐。 * 第11章幫助工程師為他們的隱私服務和人員配置模型規劃成熟度模型。

如果您是一個動手實踐的工程師,第2部分和第3部分更直接地符合您迫在眉睫的需求。更高級的工程師將從本書的完整閱讀中受益,因為他們的職責通常涵蓋了組織的整個范圍。對于高管、媒體成員和監管機構,我建議深入閱讀第1和第4部分,而更自主的閱讀更技術性的中間部分就足夠了。

付費5元查看完整內容

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。

1. 引言

近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。

為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之,本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。

2. 什么是自然語言推理

目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

在大規模不同數據上預訓練的基礎模型在廣泛的視覺和語言任務中表現出了非凡的能力。當這樣的模型部署到現實世界環境中時,它們不可避免地要與其他實體和智能體進行交互。例如,語言模型通常用于與人類通過對話進行交互,視覺感知模型用于自主導航鄰域街道。為了響應這些發展,新的范式正在出現,用于訓練基礎模型與其他智能體交互并進行長期推理。這些范式利用了為多模態、多任務和通用交互策劃的越來越大的數據集的存在。在基礎模型和決策的交叉點進行研究,為創建強大的新系統提供了巨大的希望,這些系統可以在對話、自動駕駛、醫療健康、教育和機器人等各種應用中有效交互。本文研究了基礎模型決策的范圍,并為理解問題空間和探索新的研究方向提供了概念工具和技術背景。通過提示、條件生成建模、規劃、最優控制和強化學習等各種方法,回顧了地基模型在實際決策應用中的最新方法,并討論了該領域中常見的挑戰和開放問題。

//www.zhuanzhi.ai/paper/2061942c130806abb07d97214c5a7506

1. 引言

**通過自監督學習在廣泛的數據集上預訓練的基礎模型在向不同的下游任務遷移知識方面表現出了卓越的能力[Bommasani等人,2021]。**由于此類模型繼續應用于涉及長期推理[Wei等人2022a]、控制[Brohan等人2022]、搜索[Strohman等人2005]和規劃[Huang等人2022b]的更復雜問題,或部署在對話、自動駕駛、醫療保健和機器人等應用程序中,因此預計它們將與外部實體和代理接口。例如,在對話中,語言模型與人類進行多輪對話;在機器人技術中,感知-控制模型在現實世界環境中執行動作。這些場景為基礎模型提出了新的挑戰,包括(1)如何從外部實體給出的反饋中學習(如人類對對話質量的評級),(2)如何適應大型語言或視覺數據集通常不涵蓋的模態(如機器人動作),以及(3)如何對未來進行長期推理和規劃。

**傳統上,這些問題一直是序列決策的核心[Sutton和Barto 2018],包括強化學習、模仿學習、規劃、搜索和最優控制等領域。**與基礎模型的范式相反,在預訓練中使用了具有數十億圖像和文本標記的廣泛數據集,之前關于序列決策的工作主要集中在特定任務或tabula rasa設置,先驗知識有限[Silver等人,2017]。盡管看似不利的設置,序列決策的研究已經取得了重大進展,在諸如玩棋盤游戲[Tesauro 1994]和雅達利電子游戲[Mnih等人2013],以及操作機器人完成導航[Pomerleau 1988]和操作任務[Kalashnikov等人2018;Akkaya等。2019]。然而,由于這些方法在沒有視覺、語言或其他數據集的廣泛知識的情況下從頭開始學習解決任務,它們通常在泛化和樣本效率方面存在困難,例如,需要7個GPU天的交互式游戲才能解決一個Atari游戲[Agarwal等人2022]。直觀地說,類似于用于基礎模型的廣泛數據集也應該有利于序列決策模型。例如,互聯網上有無數關于如何玩雅達利游戲的文章和視頻。類似地,有大量關于物體和場景屬性的知識,這些知識對機器人很有用,或者關于人類需求和情感的知識,可以改進對話模型。

**雖然基礎模型和序列決策的研究在很大程度上由于不同的應用和焦點而脫節,但在這些社區的交叉點上的活動越來越多。**在基礎模型方面,隨著發現大型語言模型的涌現特性,目標應用程序已經從簡單的零次或少次視覺和語言任務過渡到現在涉及長期推理的問題[Srivastava等人,2022;Wei等。2022b;Lewkowycz et al. 2022]或多重交互[OpenAI 2022]。相反,在序列決策社區,受大規模視覺和語言模型成功的啟發,研究人員已經開始策劃越來越大的數據集,用于學習多模型、多任務和通用交互式智能體[Agarwal等人2020b;Szot等人,2021;Fan等,2022;Brohan等人,2022;Reed等,2022;Lee et al. 2022]。為了進一步模糊兩個領域之間的界限,最近的一些工作研究了使用預訓練基礎模型,如CLIP [Radford等人2021]和ViT [Dosovitskiy等人2020]來引導視覺環境的交互式智能體的訓練[Khandelwal等人2022;Tao等人2022],而其他工作將基礎模型作為通過人工反饋強化學習優化的對話代理進行了研究[Ouyang等人2022],以及其他工作使大型語言模型與搜索引擎等外部工具交互[Komeili等人2021;Thoppilan等人,2022;Lazaridou等人,2022;Shuster等人]。計算器[Cobbe等人,2021;Thoppilan等人2022]、翻譯器[Thoppilan等人2022]、MuJoCo模擬器[Liu等人2022d]和程序解釋器[Gao等人2022]。

**我們在本報告中的前提是,如果聯合考慮,基礎模型和交互式決策的研究可以是互利的。**一方面,基礎模型適應涉及外部實體的任務,可以從交互式地合并反饋和執行長期規劃中受益。另一方面,序列決策可以利用基礎模型的世界知識,更快地解決任務,泛化能力更好。為了推動這兩個領域的交叉研究,我們對決策基礎模型的問題空間進行了范圍界定。本文提供了技術工具來了解該領域當前的研究,回顧了仍然存在的挑戰和開放問題,并推測了克服這些挑戰的潛在解決方案和有希望的方法。

**本報告分為5個主要部分。**在第2節中,我們回顧了序列決策的相關背景和符號,并提供了幾個示例場景,其中基礎模型和決策可以更好地聯合考慮。接下來的三個部分將圍繞基礎模型如何描述決策系統的不同組件進行組織。在第3節中,我們討論了基礎模型如何作為行為的生成模型(例如,技能發現)和環境的生成模型(例如,進行基于模型的推出)。在第4節中,我們討論了基礎模型如何作為狀態、動作、獎勵和遷移動態的表示學習者(例如即插即用的視覺語言模型、基于模型的表示學習)。在第5節中,我們討論了語言基礎模型如何作為交互式智能體和環境,使我們能夠在順序決策框架(語言模型推理、對話、工具使用)下考慮新問題和應用。最后,在第6節中,我們概述了開放的問題和挑戰,并提出了潛在的解決方案(例如,如何利用廣泛的數據,如何構造環境,以及基礎模型和決策的哪些方面可以改進)。

付費5元查看完整內容

預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。

**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。

//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9

1. 引言

預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。

**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。

**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。

有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:

本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。

我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。

通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。

付費5元查看完整內容

OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮,它面對多種多樣的問題對答如流,似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model,LLM) 生成領域的新訓練范式:RLHF (Reinforcement Learning from Human Feedback) ,即以強化學習方式依據人類反饋優化語言模型。

過去幾年里各種 LLM 根據人類輸入提示 (prompt) 生成多樣化文本的能力令人印象深刻。然而,對生成結果的評估是主觀和依賴上下文的,例如,我們希望模型生成一個有創意的故事、一段真實的信息性文本,或者是可執行的代碼片段,這些結果難以用現有的基于規則的文本生成指標 (如 BLUE 和 ROUGE) 來衡量。除了評估指標,現有的模型通常以預測下一個單詞的方式和簡單的損失函數 (如交叉熵) 來建模,沒有顯式地引入人的偏好和主觀意見。 如果我們 用生成文本的人工反饋作為性能衡量標準,或者更進一步用該反饋作為損失來優化模型,那不是更好嗎?這就是 RLHF 的思想:使用強化學習的方式直接優化帶有人類反饋的語言模型。RLHF 使得在一般文本數據語料庫上訓練的語言模型能和復雜的人類價值觀對齊。 看看 ChatGPT 是如何解釋 RLHF 的:

ChatGPT 解釋的很好,但還沒有完全講透;讓我們更具體一點吧!

RLHF 技術分解

RLHF 是一項涉及多個模型和不同訓練階段的復雜概念,這里我們按三個步驟分解:

  1. 預訓練一個語言模型 (LM) ;
  2. 聚合問答數據并訓練一個獎勵模型 (Reward Model,RM) ;
  3. 用強化學習 (RL) 方式微調 LM。

Step 1. 預訓練語言模型

首先,我們使用經典的預訓練目標訓練一個語言模型。對這一步的模型,OpenAI 在其第一個流行的 RLHF 模型 InstructGPT 中使用了較小版本的 GPT-3; Anthropic 使用了 1000 萬 ~ 520 億參數的 Transformer 模型進行訓練;DeepMind 使用了自家的 2800 億參數模型 Gopher。 這里可以用額外的文本或者條件對這個 LM 進行微調,例如 OpenAI 對 “更可取” (preferable) 的人工生成文本進行了微調,而 Anthropic 按 “有用、誠實和無害” 的標準在上下文線索上蒸餾了原始的 LM。這里或許使用了昂貴的增強數據,但并不是 RLHF 必須的一步。由于 RLHF 還是一個尚待探索的領域,對于” 哪種模型” 適合作為 RLHF 的起點并沒有明確的答案。

接下來,我們會基于 LM 來生成訓練獎勵模型 (RM,也叫偏好模型) 的數據,并在這一步引入人類的偏好信息。

Step 2. 訓練獎勵模型

RM 的訓練是 RLHF 區別于舊范式的開端。這一模型接收一系列文本并返回一個標量獎勵,數值上對應人的偏好。我們可以用端到端的方式用 LM 建模,或者用模塊化的系統建模 (比如對輸出進行排名,再將排名轉換為獎勵) 。這一獎勵數值將對后續無縫接入現有的 RL 算法至關重要。 關于模型選擇方面,RM 可以是另一個經過微調的 LM,也可以是根據偏好數據從頭開始訓練的 LM。例如 Anthropic 提出了一種特殊的預訓練方式,即用偏好模型預訓練 (Preference Model Pretraining,PMP) 來替換一般預訓練后的微調過程。因為前者被認為對樣本數據的利用率更高。但對于哪種 RM 更好尚無定論。 關于訓練文本方面,RM 的提示 - 生成對文本是從預定義數據集中采樣生成的,并用初始的 LM 給這些提示生成文本。Anthropic 的數據主要是通過 Amazon Mechanical Turk 上的聊天工具生成的,并在 Hub 上可用 (//huggingface.co/datasets/Anthropic/hh-rlhf),而 OpenAI 使用了用戶提交給 GPT API 的 prompt。 關于訓練獎勵數值方面,這里需要人工對 LM 生成的回答進行排名。起初我們可能會認為應該直接對文本標注分數來訓練 RM,但是由于標注者的價值觀不同導致這些分數未經過校準并且充滿噪音。通過排名可以比較多個模型的輸出并構建更好的規范數據集。 對具體的排名方式,一種成功的方式是對不同 LM 在相同提示下的輸出進行比較,然后使用 Elo 系統建立一個完整的排名。這些不同的排名結果將被歸一化為用于訓練的標量獎勵值。 這個過程中一個有趣的產物是目前成功的 RLHF 系統使用了和生成模型具有 不同 大小的 LM (例如 OpenAI 使用了 175B 的 LM 和 6B 的 RM,Anthropic 使用的 LM 和 RM 從 10B 到 52B 大小不等,DeepMind 使用了 70B 的 Chinchilla 模型分別作為 LM 和 RM) 。一種直覺是,偏好模型和生成模型需要具有類似的能力來理解提供給它們的文本。

接下來是最后一步:利用 RM 輸出的獎勵,用強化學習方式微調優化 LM。

Step 3. 用強化學習微調

長期以來出于工程和算法原因,人們認為用強化學習訓練 LM 是不可能的。而目前多個組織找到的可行方案是使用策略梯度強化學習 (Policy Gradient RL) 算法、近端策略優化 (Proximal Policy Optimization,PPO) 微調初始 LM 的部分或全部參數。因為微調整個 10B~100B+ 參數的成本過高 (相關工作參考低秩適應 LoRA 和 DeepMind 的 Sparrow LM) 。PPO 算法已經存在了相對較長的時間,有大量關于其原理的指南,因而成為 RLHF 中的有利選擇。 事實證明,RLHF 的許多核心 RL 進步一直在弄清楚如何將熟悉的 RL 算法應用到更新如此大的模型。 讓我們首先將微調任務表述為 RL 問題。首先,該策略 (policy) 是一個接受提示并返回一系列文本 (或文本的概率分布) 的 LM。這個策略的行動空間 (action space) 是 LM 的詞表對應的所有詞元 (一般在 50k 數量級) ,觀察空間 (observation space) 是可能的輸入詞元序列,也比較大 (詞匯量 ^ 輸入標記的數量) 。獎勵函數是偏好模型和策略轉變約束 (Policy shift constraint) 的結合。 PPO 算法確定的獎勵函數具體計算如下:將提示 輸入初始 LM 和當前微調的 LM,分別得到了輸出文本 ,將來自當前策略的文本傳遞給 RM 得到一個標量的獎勵 。將兩個模型的生成文本進行比較計算差異的懲罰項,在來自 OpenAI、Anthropic 和 DeepMind 的多篇論文中設計為輸出詞分布序列之間的 Kullback–Leibler (KL) 散度的縮放,即 。這一項被用于懲罰 RL 策略在每個訓練批次中生成大幅偏離初始模型,以確保模型輸出合理連貫的文本。如果去掉這一懲罰項可能導致模型在優化中生成亂碼文本來愚弄獎勵模型提供高獎勵值。此外,OpenAI 在 InstructGPT 上實驗了在 PPO 添加新的預訓練梯度,可以預見到獎勵函數的公式會隨著 RLHF 研究的進展而繼續進化。 最后根據 PPO 算法,我們按當前批次數據的獎勵指標進行優化 (來自 PPO 算法 on-policy 的特性) 。PPO 算法是一種信賴域優化 (Trust Region Optimization,TRO) 算法,它使用梯度約束確保更新步驟不會破壞學習過程的穩定性。DeepMind 對 Gopher 使用了類似的獎勵設置,但是使用 A2C (synchronous advantage actor-critic) 算法來優化梯度。

作為一個可選項,RLHF 可以通過迭代 RM 和策略共同優化。隨著策略模型更新,用戶可以繼續將輸出和早期的輸出進行合并排名。Anthropic 在他們的論文中討論了迭代在線 RLHF,其中策略的迭代包含在跨模型的 Elo 排名系統中。這樣引入策略和 RM 演變的復雜動態,代表了一個復雜和開放的研究問題。


RLHF 的未來

盡管 RLHF 取得了一定的成果和關注,但依然存在局限。這些模型依然會毫無不確定性地輸出有害或者不真實的文本。這種不完美也是 RLHF 的長期挑戰和動力 —— 在人類的固有領域中運行意味著永遠不會到達一個完美的標準。 收集人類偏好數據的質量和數量決定了 RLHF 系統性能的上限。RLHF 系統需要兩種人類偏好數據:人工生成的文本和對模型輸出的偏好標簽。生成高質量回答需要雇傭兼職人員 (而不能依賴產品用戶和眾包) 。另一方面,訓練 RM 需要的獎勵標簽規模大概是 50k 左右,所以并不那么昂貴 (當然遠超了學術實驗室的預算) 。目前相關的數據集只有一個基于通用 LM 的 RLHF 數據集 (來自 Anthropic) 和幾個較小的子任務數據集 (如來自 OpenAI 的摘要數據集) 。另一個挑戰來自標注者的偏見。幾個人類標注者可能有不同意見,導致了訓練數據存在一些潛在差異。 除開數據方面的限制,一些有待開發的設計選項可以讓 RLHF 取得長足進步。例如對 RL 優化器的改進方面,PPO 是一種較舊的算法,但目前沒有什么結構性原因讓其他算法可以在現有 RLHF 工作中更具有優勢。另外,微調 LM 策略的一大成本是策略生成的文本都需要在 RM 上進行評估,通過離線 RL 優化策略可以節約這些大模型 RM 的預測成本。最近,出現了新的 RL 算法如隱式語言 Q 學習 (Implicit Language Q-Learning,ILQL) 也適用于當前 RL 的優化。在 RL 訓練過程的其他核心權衡,例如探索和開發 (exploration-exploitation) 的平衡也有待嘗試和記錄。探索這些方向至少能加深我們對 RLHF 的理解,更進一步提升系統的表現。


參考資料

首先介紹一些相關的開源工作: 關于 RLHF 的第一個項目,來自 OpenAI: PyTorch 的 repo: *

此外,Huggingface Hub 上有一個由 Anthropic 創建的大型數據集: 相關論文包括在現有 LM 前的 RLHF 進展和基于當前 LM 的 RLHF 工作:

  • TAMER: Training an Agent Manually via Evaluative Reinforcement (Knox and Stone 2008)
  • Interactive Learning from Policy-Dependent Human Feedback (MacGlashan et al. 2017)
  • Deep Reinforcement Learning from Human Preferences (Christiano et al. 2017)
  • Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces (Warnell et al. 2018)
  • Fine-Tuning Language Models from Human Preferences (Zieglar et al. 2019)
  • Learning to summarize with human feedback (Stiennon et al., 2020)
  • Recursively Summarizing Books with Human Feedback (OpenAI Alignment Team 2021)
  • WebGPT: Browser-assisted question-answering with human feedback (OpenAI, 2021)
  • InstructGPT: Training language models to follow instructions with human feedback (OpenAI Alignment Team 2022)
  • GopherCite: Teaching language models to support answers with verified quotes (Menick et al. 2022)
  • Sparrow: Improving alignment of dialogue agents via targeted human judgements (Glaese et al. 2022)
  • ChatGPT: Optimizing Language Models for Dialogue (OpenAI 2022)
  • Scaling Laws for Reward Model Overoptimization (Gao et al. 2022)
  • Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic, 2022)
  • Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (Ganguli et al. 2022)
  • Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning (Cohen at al. 2022)
  • Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization (Ramamurthy and Ammanabrolu et al. 2022)

本文翻譯自 Hugging Face 官方博客 () 參考資料部分鏈接請點擊閱讀原文到博客上查看。你也可以查看我們的直播活動回放了解更多: 本文譯者: 李濼秋,浙江大學計算機科學碩士,主要研究 NLP 領域。 我們正在招募更多翻譯志愿者幫助我們擴充官方公眾號內容,如果你感興趣,歡迎通過文章下方的留言功能介紹自己,并留下聯系方式。謝謝!

付費5元查看完整內容

作者

  • 加拿大陸軍陸戰中心的Geofrey Priems少校
  • 加拿大國防研究與發展--作戰研究與分析中心的Peter Gizewski

引言

全世界對人工智能(AI)軍事應用的興趣正在增長。事實上,與其他一些技術進步一樣,人工智能越來越被視為軍事效力的潛在重要推動力。

毫不疑問,人們對人工智能對加拿大陸軍(CA)的影響以及其采用人工智能的可能性的興趣正在上升。關于如何以及在多大程度上可以利用人工智能來潛在地幫助實現緊密作戰應用的問題:加拿大陸軍的頂點作戰概念--"不確定性時代的陸地力量 "的實現,以及加強陸軍的五項作戰功能的實施,這些問題尤為突出。有關有效采用人工智能可能面臨的挑戰以及克服這些挑戰所需措施的問題也同樣突出。

本文對這些問題進行了初步研究。它源于加拿大陸軍陸戰中心正在進行的關于人工智能的工作,以研究和確定人工智能對加拿大陸軍和有效實現陸軍頂點作戰概念的影響。

文章概述了人工智能在軍隊采用和開展軍事行動方面所帶來的潛在好處和挑戰。然后,文章研究了人工智能對實現密切交戰的潛在影響,確定了人工智能的應用有望提高軍隊的作戰效率的領域。文章最后概述了一些必要的關鍵前提條件和做法,以確保這些工作是負責任的和有效的。

人工智能

人工智能的定義有很多,而且在不斷發展。然而,按照國防部目前的定義,人工智能是 "計算機執行與人類邏輯有關功能的能力,如推理、學習和自我改進"。 雖然沒有被普遍接受,但這樣的表述為在CA背景下討論人工智能提供了一個體制上熟悉和充分的基礎。

潛在利益

軍事組織探索、開發和采用人工智能的激勵措施是引人注目的。鑒于高速計算機(網絡速度和處理能力)和人工智能算法處理和分析大量數據的能力,其速度和準確性遠遠超過人類,聲稱人工智能系統有可能全面改變國防,這并不令人驚訝。通過作為一種提高人類和機器分析速度的手段,人工智能有希望提高數據使用、管理和態勢感知能力。對于軍隊來說,其結果很可能轉化為成本節約、改進控制系統、加快決策、新的作戰概念和更大的行動自由。

由人工智能支持的信息和決策輔助系統有可能促進在 "復雜的、時間緊迫的戰地環境 "中做出更好的決策,允許更快地識別威脅,更快、更精確地確定目標,并根據戰地條件的變化為指揮官創造靈活的選擇。應用范圍可以從指揮和控制以及情報、監視和偵察到訓練和后勤。此外,作為機器人和自主系統的骨干技術,人工智能為武器裝備的創新提供了前景,使具有相當大的軍事潛力的先進自主系統(如機器人系統和無人機)得以發展。人工智能甚至可能在部隊結構和作戰概念方面產生巨大的變化,有可能減少人員的負擔和軍事硬件的成本,同時提高戰爭本身的效率和效力。

這些技術無處不在,而且越來越多的盟軍和對手都可以使用,這一事實進一步刺激了對人工智能軍事技術的追求。就前者而言,盟國對人工智能日益增長的興趣突出表明,需要有足夠的人工智能能力來確保未來盟國的互操作性和軍事有效性。至于后者,有證據表明,對手(如俄羅斯、中國)對人工智能的軍事應用進行了持續的探索和投資,這增強了追求此類技術的動力,以檢測和防御未來越來越多的人工智能軍事威脅。

采用的限制和挑戰

然而,有效引進人工智能的先決條件是相當多的,很可能對軍事組織充分實現人工智能應用所帶來的一些可能性的能力造成限制。此外,軍隊可能不完全愿意追求人工智能技術本身所固有的一些可能性。

事實上,目前的能力僅限于執行離散的功能和學習具體的任務(如狹義的人工智能)。人工智能技術的脆弱性令人擔憂。脆弱性是指任何算法不能泛化或適應狹窄的假設集以外的條件。例如,在添加了一些位數后,一個停車標志可以被讀成一個45英里/小時的限速標志。應用于涉及過度不確定性的情況實際上可能特別危險。例如,錯誤地選擇和起訴友軍目標,如友軍戰士或民用車輛。因此,在軍事環境中,特別是在軍事行動中,對人工智能的使用限制是相當大的。面對傳來的信息可能不可靠、不完整或甚至被對手故意偽造的環境,相信這些技術提供的解決方案仍然很脆弱。

除此之外,即使在這種技術被普遍認為是可靠的領域,其開發和應用也可能是苛刻的。要求包括確保有足夠數量的數據可供開發用于啟用軍事系統的算法。它們還包括確保算法本身的質量,這一要求取決于在將人工智能納入軍事系統之前提供和有效地準備和編碼訓練數據,以及確保來自現實世界數據的有效性,其中包括邊緣案例(不常見的使用案例)。而且,它們包括確保開發和集成到軍事系統中的人工智能是可靠的(即它以預定的方式工作)。

這些要求中的每一項都可能涉及相當大的挑戰。獲取大量的訓練數據可能會遇到基于政治和法律限制的數據共享阻力,從而降低待訓練算法的質量和使用這些算法的系統的可靠性。獲得的數據可能包含種族、性別和其他源于數據準備和編碼的偏見。此外,隨著算法變得更加復雜,通過對手在訓練數據集中注入不良數據而被操縱的可能性會增加。只要存在這些挑戰,對人工智能的信任及其在軍事領域的應用就可能受到影響。

這些風險可以通過仔細的人工監督和強大的測試得到控制。也就是說,真正有效的監督需要操作者熟悉人工智能技術的細節,以及重要的系統整合和社會化,這可能很難實現。由于對技術本身的理解存在困難,有效監督挑戰就更大了。機器推理的過程不等同于人類,人工智能系統采用的邏輯也不容易理解。對于負責使用這些能力的指揮官和系統操作者來說--其中一些能力可以很好地決定生命和死亡--相信那些決策過程不透明的技術,可能是一座太遙遠的橋梁。

對加拿大陸軍的影響

這些現實表明,加拿大陸軍采用人工智能,雖然有希望,但必須謹慎行事,并對限制有一個現實的認識。無論是加拿大還是加拿大陸軍,都無法避免遇到上述挑戰。例如,人工智能技術在沒有適當人類監督的情況下越接近殺戮鏈,可能發生災難性后果的風險就越大。因此,必須注意研究或采用能夠幫助人類決策的技術。一個指示人類做什么的 "黑盒"人工智能將是不可接受的。人工智能顧問必須能夠解釋其建議/結論,以便人類能夠理解并對所提出的建議有信心。人類決策者必須能夠對人工智能所提供的解決方案向領導作出清晰和可理解的解釋。

然而,如果謹慎地追求和應用,人工智能的大部分內容通常與《近距離接觸,不確定時代的陸地力量》中詳述的陸軍要求非常吻合。緊密的作戰應用目的是應對以快速變化為特征的作戰環境的挑戰,以及廣泛的復雜的人道主義挑戰和技術能力越來越強的對手,他們能夠使用一系列機動性越來越強的致命和非致命系統以及精心設計的反措施。應對這些挑戰在很大程度上取決于確保獲得必要的信息和分析的能力,以便比對手更快地了解和調整不斷變化的條件。作為一種先進的信息處理方法,人工智能可以提供一種重要的手段,通過提供比人類更快、更準確地處理和分析來自越來越多來源的數據來幫助滿足這些需求。因此,人工智能可以作為一個重要的決策輔助工具,使個人和共同的理解得到發展,這對于確定潛在的作戰方案,優先獲得、處置和使用軍事資產,以及提供及時開展行動所需的數據、信息和可操作的情報至關重要。

除此之外,人工智能甚至可能有助于加強陸軍所依賴的網絡安全。"能夠遠距離運行的高容量網絡為軍隊行動的開展提供了顯著的優勢。事實上,一個安全和強大的網絡是確保快速、安全地分發有效開展軍隊作戰所需的數據和分析的核心。通過開發能夠防范網絡故障、電子戰和網絡攻擊的算法,人工智能可以更充分地確保軍隊能夠 "獲得網絡的優勢",從而以更安全、協調和協作的方式開展行動。在諸如互操作性、力量生成、力量投射和維持以及開展分散行動等方面的改進,都可能因此而受益。

自始至終,隨著人工智能技術被推向戰術邊緣,將有必要確保有足夠的電力(能源)來支持它。除了網絡,先進的電源管理和電池技術將是至關重要的。

圖:加拿大國防研究與發展部-瓦爾卡蒂爾項目的數據收集工作,該項目被稱為聯合算法戰機傳感器。該項目是較大的加拿大陸軍科學和技術組合的一部分,即數字時代的授權分布式作戰。

付費5元查看完整內容

人工智能是生活中各領域的突破口。通過在商業、醫療保健和教育中應用人工智能,可以創造無限的潛在機會。不可否認,人工智能提供了一種廉價而高效的工具來完成耗時耗錢的任務,從而實現更快的增長和成功。向人工智能轉型需要仔細審視和前瞻性思考可能的結果和對人類的反思。

本書側重于人工智能在商業、教育和醫療保健中的實施,包括關于人工智能在決策、創業、社交媒體、醫療保健、教育、公共部門、金融科技和監管科技中的應用的研究文章和說明性論文。它還討論了人工智能在當前 COVID-19 大流行、衛生部門、教育和其他方面的作用。它還討論了人工智能對重要經濟部門決策的影響。

這本書共有26章,作者來自不同的國家。每一章都經過編輯委員會的評估,每一章都經過雙盲同行評審過程,因此賦予了四個主題:

  • 人工智能,區塊鏈技術,創業和商業成功。
  • 金融科技、RegTech、金融系統和人工智能。
  • 人工智能在醫療保健、教育和公共領域的實施部門。
  • 人工智能的專業實踐和社會影響。

這些章節反映了高質量的研究,對那些希望將人工智能應用于任何商業、醫療保健、教育部門的人,甚至希望將創業與人工智能和其他關鍵領域混合的企業家,具有理論和實踐意義。我們希望這本書的貢獻是學術層面的,即使是經濟和行政層面的決策者也會欣賞。

付費5元查看完整內容

【導讀】最新的一期《Science》機器人雜志刊登了關于XAI—Explainable artificial intelligence專刊,涵蓋可解釋人工智能的簡述論文,論述了XAI對于改善用戶理解、信任與管理AI系統的重要性。并包括5篇專刊論文,值得一看。

BY DAVID GUNNING, MARK STEFIK, JAESIK CHOI, TIMOTHY MILLER, SIMONE STUMPF, GUANG-ZHONG YANG

SCIENCE ROBOTICS18 DEC 2019

可解釋性對于用戶有效地理解、信任和管理強大的人工智能應用程序是至關重要的。

//robotics.sciencemag.org/content/4/37/eaay7120

最近在機器學習(ML)方面的成功引發了人工智能(AI)應用的新浪潮,為各種領域提供了廣泛的益處。然而,許多這些系統中不能向人類用戶解釋它們的自主決策和行為。對某些人工智能應用來說,解釋可能不是必要的,一些人工智能研究人員認為,強調解釋是錯誤的,太難實現,而且可能是不必要的。然而,對于國防、醫學、金融和法律的許多關鍵應用,解釋對于用戶理解、信任和有效地管理這些新的人工智能合作伙伴是必不可少的(參見最近的評論(1-3))。

最近人工智能的成功很大程度上歸功于在其內部表示中構造模型的新ML技術。其中包括支持向量機(SVMs)、隨機森林、概率圖形模型、強化學習(RL)和深度學習(DL)神經網絡。盡管這些模型表現出了高性能,但它們在可解釋性方面是不透明的。ML性能(例如,預測準確性)和可解釋性之間可能存在固有的沖突。通常,性能最好的方法(如DL)是最不可解釋的,而最可解釋的方法(如決策樹)是最不準確的。圖1用一些ML技術的性能可解釋性權衡的概念圖說明了這一點。

圖1 ML技術的性能與可解釋性權衡。

(A)學習技巧和解釋能力。(B)可解釋模型:學習更結構化、可解釋或因果模型的ML技術。早期的例子包括貝葉斯規則列表、貝葉斯程序學習、因果關系的學習模型,以及使用隨機語法學習更多可解釋的結構。深度學習:一些設計選擇可能產生更多可解釋的表示(例如,訓練數據選擇、架構層、損失函數、正則化、優化技術和訓練序列)。模型不可知論者:對任意給定的ML模型(如黑箱)進行試驗以推斷出一個近似可解釋的模型的技術。

什么是XAI?

一個可解釋的人工智能(XAI)系統的目的是通過提供解釋使其行為更容易被人類理解。有一些通用原則可以幫助創建有效的、更人性化的人工智能系統:XAI系統應該能夠解釋它的能力和理解;解釋它已經做了什么,現在正在做什么,接下來會發生什么; 披露其所依據的重要信息(4)。

然而,每一個解釋都是根據AI系統用戶的任務、能力和期望而設置的。因此,可解釋性和可解釋性的定義是與域相關的,并且可能不是與域獨立定義的。解釋可以是全面的,也可以是片面的。完全可解釋的模型給出了完整和完全透明的解釋。部分可解釋的模型揭示了其推理過程的重要部分。可解釋模型服從根據域定義的“可解釋性約束”(例如,某些變量和相關變量的單調性服從特定關系),而黑箱或無約束模型不一定服從這些約束。部分解釋可能包括變量重要性度量、局部模型(在特定點近似全局模型)和顯著性圖。

來自用戶的期望

XAI假設向最終用戶提供一個解釋,該用戶依賴于AI系統所產生的決策、建議或操作,然而可能有許多不同類型的用戶,通常在系統開發和使用的不同時間點(5)。例如,一種類型的用戶可能是智能分析師、法官或操作員。但是,需要對系統進行解釋的其他用戶可能是開發人員或測試操作員,他們需要了解哪里可能有改進的地方。然而,另一個用戶可能是政策制定者,他們試圖評估系統的公平性。每個用戶組可能有一個首選的解釋類型,能夠以最有效的方式交流信息。有效的解釋將考慮到系統的目標用戶組,他們的背景知識可能不同,需要解釋什么。

可操作性——評估和測量

一些方法提出了一些評價和衡量解釋有效性的方法;然而,目前還沒有通用的方法來衡量XAI系統是否比非XAI系統更容易被用戶理解。其中一些度量是用戶角度的主觀度量,例如用戶滿意度,可以通過對解釋的清晰度和實用性的主觀評級來度量。解釋有效性的更客觀的衡量標準可能是任務績效; 即,這樣的解釋是否提高了用戶的決策能力?可靠和一致的測量解釋的影響仍然是一個開放的研究問題。XAI系統的評價和測量包括評價框架、共同點[不同的思維和相互理解(6)]、常識和論證[為什么(7)]。

XAI -問題和挑戰

在ML和解釋的交集處仍然存在許多活躍的問題和挑戰。

  1. 從電腦開始還是從人開始(8). XAI系統應該針對特定的用戶進行解釋嗎?他們應該考慮用戶缺乏的知識嗎?我們如何利用解釋來幫助交互式和人在循環的學習,包括讓用戶與解釋交互以提供反饋和指導學習?

  2. 準確性與可解釋性。XAI解釋研究的一條主線是探索解釋的技術和局限性。可解釋性需要考慮準確性和保真度之間的權衡,并在準確性、可解釋性和可處理性之間取得平衡。

  3. 使用抽象來簡化解釋。高級模式是在大步驟中描述大計劃的基礎。對抽象的自動發現一直是一個挑戰,而理解學習和解釋中抽象的發現和共享是當前XAI研究的前沿。

  4. 解釋能力與解釋決策。有資格的專家精通的一個標志是他們能夠對新情況進行反思。有必要幫助終端用戶了解人工智能系統的能力,包括一個特定的人工智能系統有哪些能力,如何衡量這些能力,以及人工智能系統是否存在盲點;也就是說,有沒有一類解是永遠找不到的?

從以人為本的研究視角來看,對能力和知識的研究可以使XAI超越解釋特定XAI系統和幫助用戶確定適當信任的角色。未來,XAIs可能最終會扮演重要的社會角色。這些角色不僅包括向個人學習和解釋,而且還包括與其他代理進行協調以連接知識、發展跨學科見解和共同點、合作教授人員和其他代理,以及利用以前發現的知識來加速知識的進一步發現和應用。從這樣一個知識理解和生成的社會視角來看,XAI的未來才剛剛開始。

本期刊論文

Explainable robotics in science fiction

BY ROBIN R. MURPHY

SCIENCE ROBOTICS18 DEC 2019 RESTRICTED ACCESS

我們會相信機器人嗎?科幻小說說沒有,但可解釋的機器人可能會找到方法。

A tale of two explanations: Enhancing human trust by explaining robot behavior BY MARK EDMONDS, FENG GAO, HANGXIN LIU, XU XIE, SIYUAN QI, BRANDON ROTHROCK, YIXIN ZHU, YING NIAN WU, HONGJING LU, SONG-CHUN ZHU

SCIENCE ROBOTICS18 DEC 2019 FULL ACCESS

最適合促進信任的解釋方法不一定對應于那些有助于最佳任務性能的組件。

A formal methods approach to interpretable reinforcement learning for robotic planning

BY XIAO LI, ZACHARY SERLIN, GUANG YANG, CALIN BELTA

SCIENCE ROBOTICS18 DEC 2019 FULL ACCESS

形式化的強化學習方法能從形式化的語言中獲得回報,并保證了安全性。

An autonomous untethered fast soft robotic insect driven by low-voltage dielectric elastomer actuators BY XIAOBIN JI, XINCHANG LIU, VITO CACUCCIOLO, MATTHIAS IMBODEN, YOAN CIVET, ALAE EL HAITAMI, SOPHIE CANTIN, YVES PERRIARD, HERBERT SHEA

SCIENCE ROBOTICS18 DEC 2019 FULL ACCESS

參考文獻:

  1. W. Samek, G. Montavon, A. Vedaldi, L. K. Hansen, K. R. Muller, Explainable AI: Interpreting, Explaining and Visualizing Deep Learning (Springer Nature, 2019).

Google Scholar

  1. H. J. Escalante, S. Escalera, I. Guyon, X. Baró, Y. Gü?lütürk, U. Gü?lü, M. van Gerven, Explainable and Interpretable Models in Computer Vision and Machine Learning (Springer, 2018).

  2. O. Biran, C. Cotton, Explanation and justification in machine learning: A survey, paper presented at the IJCAI-17 Workshop on Explainable AI (XAI), Melbourne, Australia, 20 August 2017.

  3. Intelligibility and accountability: Human considerations in context-aware systems.Hum. Comput. Interact. 16, 193–212 (2009).

  4. T. Kulesza, M. Burnett, W. Wong, S. Stumpf, Principles of explanatory debugging to personalize interactive machine learning, in Proceedings of the 20th International Conference on Intelligent User Interfaces (ACM, 2015), pp. 126–137.

  5. H. H. Clark, S. E. Brennan, Grounding in communication, in Perspectives on Socially Shared Cognition, L. B. Resnick, J. M. Levine, S. D. Teasley, Eds. (American Psychological Association, 1991), pp. 127–149.

  6. D. Wang, Q. Yang, A. Abdul, B. Y. Lim, Designing theory-driven user-centric explainable AI, in Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems (ACM, 2019), paper no. 601.

?

  1. Explanation in artificial intelligence: Insights from the social sciences. Artif. Intell. 267, 1–38(2018).

  2. D. Gunning, Explainable artificial intelligence (XAI), DARPA/I2O;www.cc.gatech.edu/~alanwags/DLAI2016/(Gunning)%20IJCAI-16%20DLAI%20WS.pdf.

付費5元查看完整內容
北京阿比特科技有限公司