亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**本文對OpenAI的ChatGPT[1]在機器人應用中的使用進行了實驗研究。**本文概述了一種策略,將prompt工程的設計原則和高級函數庫的創建相結合,使ChatGPT能夠適應不同的機器人任務、模擬器和形狀因素。重點評估了不同的提示工程技術和對話策略對執行各種類型的機器人任務的有效性。探討了ChatGPT使用自由形式對話、解析XML標簽和合成代碼的能力,以及使用特定任務的提示函數和通過對話進行閉環推理的能力。**本文研究涵蓋了機器人領域的一系列任務,從基本的邏輯、幾何和數學推理一直到復雜的領域,如空中導航、操縱和具身智能體。**ChatGPT可以有效地解決其中的幾個任務,同時允許用戶主要通過自然語言指令與之交互。此外,本文還介紹了一個名為PromptCraft的開源研究工具,其中包括一個研究人員可以協作上傳并投票的機器人應用程序的良好提示方案示例的平臺,以及一個集成ChatGPT的機器人模擬器示例,使用戶更容易開始使用ChatGPT機器人。

自然語言處理(NLP)的快速發展導致了大型語言模型(LLMs)的發展,如BERT[2]、GPT-3[3]和Codex[4],這些模型正在對廣泛的應用程序進行革命。這些模型在文本生成、機器翻譯和代碼合成等各種任務中都取得了顯著的效果。這個模型集合的最新成員是OpenAI ChatGPT[1],這是一個預訓練的生成文本模型,使用人類反饋進行了微調。與以前主要基于單個提示符操作的模型不同,ChatGPT通過對話提供了特別令人印象深刻的交互技能,結合了文本生成和代碼合成。我們在本文中的目標是研究ChatGPT的能力是否以及如何推廣到機器人領域。我們將ChatGPT的功能擴展到機器人領域,并使用語言直觀地控制了多個平臺,如機器人手臂、無人機和家庭助理機器人。

你有沒有想過用你自己的語言告訴機器人該做什么,就像你對人類做的那樣?如果只是告訴你的家庭機器人助手:“請把我的午餐熱一下”,然后讓它自己找到微波爐,這不是很神奇嗎?盡管語言是我們表達意圖最直觀的方式,但我們仍然嚴重依賴手寫代碼來控制機器人。我們的團隊一直在探索如何改變這一現實,并使用OpenAI的新AI語言模型ChatGPT使自然的人-機器人交互成為可能。

ChatGPT是一個在大量文本和人類交互語料庫上訓練的語言模型,它可以對各種各樣的提示和問題生成連貫且語法正確的回答。我們這項研究的目標是看看ChatGPT是否能超越文本思考,并對物理世界進行推理,以幫助機器人任務。我們希望幫助人們更容易與機器人互動,而不需要學習復雜的編程語言或機器人系統的細節。這里的關鍵挑戰是教ChatGPT如何解決問題,考慮物理定律,操作環境的上下文,以及機器人的物理行為如何改變世界的狀態。

近年來,在將語言納入機器人系統方面有不同的嘗試。這些工作主要集中在針對特定形式因素或場景使用語言token嵌入模型、LLM特征和多模態模型特征。應用范圍從視覺-語言導航[5,6],基于語言的人機交互[7,8]和視覺-語言操作控制[9,10,11]。然而,盡管在機器人中使用LLMs有潛在的優勢,但大多數現有方法都受到嚴格的范圍和有限的功能集的限制,或其開環性質的限制,不允許從用戶反饋中進行流動交互和行為糾正。當被要求進行高層智能體規劃[12,13]或代碼生成[14,15]時,GPT-3、LaMDA和Codex等模型也在零樣本機器人場景中顯示出希望。這些早期的演示啟發我們研究ChatGPT,將其作為機器人領域的一個潛在的更多功能的工具,因為它結合了自然語言和代碼生成模型的優勢以及對話的靈活性。ChatGPT能夠參與自由形式的對話和捕獲長上下文,允許用戶以更自然的方式與模型交互,并靈活地進行行為矯正。

本文旨在展示ChatGPT在機器人應用中的潛力。我們概述了一個關鍵概念,它解鎖了用ChatGPT解決機器人應用程序的能力,這是創建一個高級函數庫。由于機器人是一個多樣化的領域,存在多種平臺、場景和工具,因此存在各種各樣的庫和api。我們創建了一個簡單的高級函數庫供ChatGPT處理,然后可以在后端鏈接到所選平臺的實際API,而不是要求LLM輸出特定于平臺或庫的代碼,這可能涉及大量的微調。因此,我們允許ChatGPT從自然對話框中解析用戶意圖,并將其轉換為高級函數調用的邏輯鏈。本文還概述了一些幫助ChatGPT解決機器人任務的提示工程指南。

事實證明,ChatGPT本身可以做很多事情,但它仍然需要一些幫助。我們的技術論文描述了一系列設計原則,可用于指導語言模型解決機器人任務。這些包括但不限于特殊的提示結構、高級API和通過文本的人工反饋。我們相信,我們的工作只是我們如何開發機器人系統的轉變的開始,我們希望激勵其他研究人員進入這個令人興奮的領域。繼續閱讀有關我們的方法和想法的更多技術細節。

當今機器人技術的挑戰,以及ChatGPT如何提供幫助

機器人系統與純文本應用不同,需要對現實世界的物理、環境上下文和執行物理動作的能力有深刻的理解。一個生成式機器人模型需要有一個強大的常識知識和一個復雜的世界模型,以及與用戶交互的能力,以物理上可行的方式解釋和執行命令,在現實世界中有意義。這些挑戰超出了語言模型的原始范圍,因為它們不僅必須理解給定文本的含義,還必須將意圖翻譯為物理動作的邏輯序列。

當前的機器人管道從工程師或技術用戶開始,他們需要將任務需求轉換為系統的代碼。工程師在循環中,這意味著他們需要編寫新的代碼和規范來糾正機器人的行為。總的來說,這個過程是緩慢的(用戶需要編寫低級代碼),昂貴的(需要具有深度機器人知識的高技能用戶),并且低效的(需要多次交互才能讓事情正常工作)。

ChatGPT開啟了一種新的機器人范式,并允許(潛在的非技術)用戶參與循環,在監視機器人性能的同時向大型語言模型(LLM)提供高級反饋。通過遵循我們的設計原則,ChatGPT可以為機器人場景生成代碼。在沒有任何微調的情況下,我們利用LLM的知識來控制不同的機器人形狀,以完成各種任務。在我們的工作中,我們展示了多個ChatGPT解決機器人難題的示例,以及在操作、空中和導航領域的復雜機器人部署。 ChatGPT機器人技術:設計原則

LLMs是一門高度經驗主義的科學。通過反復試驗,我們建立了一套方法和一套設計原則,用于為機器人任務編寫提示:

首先,我們定義一組高級機器人api或函數庫。這個庫可以特定于特定的機器人,并且應該映射到機器人的控制棧或感知庫中的現有底層實現。對高級api使用描述性的名稱非常重要,這樣ChatGPT可以推斷它們的行為; * 接下來,我們為ChatGPT編寫一個文本提示,它描述了任務目標,同時也明確說明了高級庫中的哪些函數可用。提示符還可以包含關于任務約束的信息,或者ChatGPT應該如何形成它的答案(使用特定的編碼語言,使用輔助解析元素); * 用戶停留在循環中來評估ChatGPT的代碼輸出,要么通過直接檢查,要么使用模擬器。如果需要,用戶可以使用自然語言向ChatGPT反饋答案的質量和安全。 * 當用戶對解決方案感到滿意時,就可以將最終代碼部署到機器人上。

ChatGPT到底能做什么?

零樣本任務規劃

我們讓ChatGPT訪問控制真正無人機的功能,事實證明,它是非技術用戶和機器人之間非常直觀的基于語言的界面。當用戶的指示模棱兩可時,ChatGPT會提出澄清性問題,并為無人機編寫復雜的代碼結構,如z字形模式以視覺檢查貨架。它甚至學會了自拍!???? 我們還在使用Microsoft AirSim模擬器的模擬工業檢測場景中使用ChatGPT。該模型能夠有效地解析用戶的高層意圖和幾何線索,從而準確地控制無人機。

循環中的用戶:當一個復雜的任務需要對話時

接下來,我們將ChatGPT用于機器人手臂的操作場景。我們使用對話反饋來教模型如何將最初提供的API組合成更復雜的高級函數:ChatGPT自己編碼。通過使用基于課程的策略,該模型能夠將這些學習到的技能邏輯地鏈接在一起,以執行堆疊積木等操作。 此外,當任務是用木塊構建微軟標志時,該模型展示了一個連接文本和物理域的有趣示例。它不僅能夠從其內部知識庫中回憶徽標,還能夠“繪制”徽標(作為SVG代碼),然后使用上述學到的技能來確定現有的機器人動作可以組成其物理形式。

接下來,我們委托ChatGPT編寫一個算法,使無人機在不撞到障礙物的情況下在太空中達到目標。我們告訴模型,這架無人機有一個面向前方的距離傳感器,ChatGPT立即為算法編寫了大多數關鍵的構建模塊。這項任務需要與人類進行一些對話,我們對ChatGPT僅使用語言反饋進行本地化代碼改進的能力印象深刻。

感知-行動循環:機器人在行動之前感知世界

在做某事(行動)之前感知世界(感知)的能力是任何機器人系統的基礎。因此,我們決定測試ChatGPT對這個概念的理解,并讓它探索一個環境,直到找到用戶指定的對象。我們允許模型訪問諸如對象檢測和對象距離API等函數,并驗證了它生成的代碼成功地實現了感知-動作循環。在實驗角色中,我們運行了額外的實驗來評估ChatGPT是否能夠根據傳感器實時反饋來決定機器人應該去哪里(而不是讓ChatGPT生成一個代碼循環來做出這些決定)。有趣的是,我們驗證了我們可以在每一步將相機圖像的文本描述輸入到聊天中,并且該模型能夠弄清楚如何控制機器人,直到它到達特定的對象。

付費5元查看完整內容

相關內容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美國OpenAI 研發的聊天機器人程序 [1] ,于2022年11月30日發布 。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文任務。 [1] //openai.com/blog/chatgpt/

基于transformer的大型語言模型在機器學習研究領域迅速發展,其應用范圍跨越自然語言、生物學、化學和計算機編程。來自人類反饋的擴展和強化學習顯著提高了生成文本的質量,使這些模型能夠執行各種任務并對其選擇進行推理。本文提出一個智能體系統,結合多個大型語言模型進行自主設計、規劃和科學實驗的執行。我們用三個不同的例子展示了智能體的科學研究能力,其中最復雜的是催化交叉耦合反應的成功表現。最后,我們討論了此類系統的安全影響,并提出了防止其濫用的措施。

1. 引言

大型語言模型(LLM),特別是基于transformer的模型,近年來正在經歷快速發展。這些模型已經成功地應用于各種領域,包括自然語言、生物和化學研究, 以及代碼生成。如OpenAI所展示的,模型的極端擴展已經導致了該領域的重大突破。此外,從人類反饋中強化學習(RLHF)等技術可以大大提高生成文本的質量,以及模型在推理其決策的同時執行不同任務的能力。

2023年3月14日,OpenAI發布了他們迄今為止最強大的LLM, GPT-4。雖然關于模型訓練、大小和使用的數據的具體細節在技術報告中有限,但研究人員已經提供了該模型非凡的解決問題能力的實質性證據。這些包括但不限于SAT和BAR考試的高百分位數,LeetCode挑戰,以及來自圖像的上下文解釋,包括小眾笑話。此外,技術報告提供了一個例子,說明如何使用該模型來解決化學相關的問題。

在這些結果的啟發下,我們旨在開發一個基于多LLMs的智能Agent(以下簡稱Agent),能夠自主設計、規劃和執行復雜的科學實驗。該智能體可以使用工具瀏覽互聯網和相關文檔,使用機器人實驗APIs,并利用其他LLMs完成各種任務。本文通過評估智能體在三個任務中的性能來證明其多功能性和有效性: 1.在廣泛的硬件文檔中高效搜索和導航 ;2.在低液位上精確控制液體處理儀表; 3.解決需要同時利用多個硬件模塊或集成不同數據源的復雜問題

2. 智能體的架構: 由其多個模塊定義的動作空間

智能體的系統由四個組件組成(圖1),由“規劃器”驅動。“規劃器”將一個提示作為輸入(例如,“執行多個Suzuki反應”),并根據這個請求執行動作。行動空間包括訪問互聯網(“谷歌 ”請求),用Python執行計算(“Python ”),訪問文檔(“documentation ”),以及運行最終實驗(“experiment ”)。實驗可以在各種環境中進行——云實驗室,使用液體處理程序,或通過提供手動執行實驗的說明。該模型被指示推理其行動,搜索互聯網,計算反應中的所有數量,然后執行相應的反應。智能體意識到,平均來說,至少需要十個步驟才能完全理解所請求的任務。如果提供的描述足夠詳細,則不需要向提示提供者進一步澄清問題。

網絡搜索器”組件接收來自規劃器的查詢,將它們轉換為適當的網絡搜索查詢,并使用谷歌搜索API執行它們。返回的前10個文檔被過濾,不包括pdf,得到的網頁列表被傳遞回“網絡搜索器”組件。然后,該組件可以使用“瀏覽”動作從網頁中提取文本,并為規劃器編譯一個答案。對于這項任務,我們可以采用GPT-3.5,因為它的執行速度明顯快于GPT-4,而質量沒有明顯損失。“文檔搜索器”組件通過利用查詢和文檔索引來查找最相關的頁面/部分,梳理硬件文檔(例如,機器人液體處理程序,GC-MS,云實驗室)。然后聚合最佳匹配結果,以提供全面和準確的最終答案。這個模塊側重于為硬件API提供具體的函數參數和語法信息。 “代碼執行”組件不利用任何語言模型,只是在一個隔離的Docker容器中執行代碼,保護終端主機機器免受規劃器任何意外操作的影響。所有的代碼輸出都被傳遞回規劃器,使其能夠在出現軟件錯誤的情況下修復其預測。這同樣適用于“自動化”組件,然后在相應的硬件上執行生成的代碼,或者只是提供人工實驗的合成過程。

3. 網絡搜索使Agent的綜合規劃能力成為可能

為了演示系統的功能,我們以布洛芬的合成為例(圖2A)。輸入提示直截了當:“合成布洛芬”。然后,該模型在互聯網上搜索關于布洛芬合成的信息,在特定網站上定位必要的細節。該模型正確地識別了合成的第一步,即氯化鋁催化的異丁基苯和乙酸酐之間的弗里德爾-克拉夫反應(見附錄A)。一旦模型要求提供弗里德爾-克拉夫合成程序的文件,第一步的規劃階段就結束了。

系統能力的另外兩個例子包括普通阿司匹林的合成(圖2B和附錄B)和阿斯巴甜的合成(圖2D和附錄C),前者是模型有效搜索和設計的,后者雖然缺少產品中的甲基,但一旦模型收到合適的合成示例,在云實驗室中執行,就可以糾正。此外,當被要求研究一個Suzuki反應時,該模型準確地識別了底物和產物(圖2C和附錄D)。當建議特定的催化劑或堿時,用于文本生成的高溫參數會導致波動。 通過API將模型連接到Reaxys14或SciFinder15等化學反應數據庫,可以顯著提高系統的性能。或者,分析系統之前的語句是提高其準確性的另一種方法。

向量搜索可用于軟件文檔的檢索。

為了將一個能夠復雜推理的智能體與軟件集成,提供相關技術文檔的清晰簡潔的表述至關重要。現代軟件的特點是其復雜性和各種組件之間錯綜復雜的相互作用。因此,全面的軟件文檔對于程序員理解這些交互作用并有效地利用它們來實現目標是必不可少的。盡管如此,傳統的軟件文檔經常使用高度技術性的語言,這對于非專業人士來說很難掌握。這為軟件的許多潛在用戶制造了障礙,限制了它的使用范圍和有效性。

大型語言模型有可能通過生成非專家更容易訪問的軟件文檔的自然語言描述來克服這一障礙。這些模型是在來自各種來源的大量文本語料庫上進行訓練的,這些語料庫包括與應用程序編程接口(API)相關的大量信息。其中一個這樣的API是Opentrons Python API.16然而,GPT-4的訓練數據包含截至2021年9月的信息。因此,有可能提高智能體使用API的準確性。為此,我們設計了一種方法來為智能體提供給定任務所需的文檔,總結在圖3A中。

掌握自動化: 多儀器系統由自然語言控制。

獲取文檔使我們能夠為智能體提供足夠的信息,以便在物理世界中進行實驗。為了啟動調查,我們選擇了一個開源的液體處理程序,它具有文檔完備的Python API。其文檔中的“入門”頁面在系統提示中提供給了規劃師。其他頁面使用“提供硬件API文檔”一節中描述的方法進行向量化。

綜合起來: 智能體的綜合化學實驗設計和執行能力之前的實驗可能會受到預訓練步驟中對智能體模塊的了解的影響。我們希望通過結合來自互聯網的數據,執行必要的計算,并最終為液體處理程序編寫代碼,來評估智能體計劃實驗的能力。為了增加復雜性,我們要求智能體使用在GPT-4訓練數據收集截止后發布的加熱器-震動器模塊。這些要求被納入到智能體的配置中(圖5A)。問題設計如下: Agent配備有一個裝有兩個微孔板的液體處理器。一個(源板)包含多種試劑的原液,包括苯乙炔和苯硼酸,多個芳基鹵化物偶聯伙伴,兩種催化劑,兩種堿基,以及溶解樣品的溶劑(圖5B)。靶板安裝在加熱-搖床模塊上(圖5C)。Agent的目標是設計一個協議來執行Suzuki和Sonogashira反應。智能體首先在互聯網上搜索有關所要求的反應、其化學計量和條件的信息(圖5D)。它為相應的反應選擇正確的耦合伙伴。在所有芳基鹵化物中,Suzuki反應選擇了溴苯,Sonogashira反應選擇了碘苯。這種行為在每次運行中都會發生變化,因為它還選擇了對硝基碘苯,因為它在氧化加成反應中反應性高,或溴苯,因為它反應性強,但毒性比芳基碘化物小。這突出了該模型潛在的未來用例——多次執行實驗以分析模型的推理并構建更大的圖景。該模型選擇了Pd/NHC催化劑作為更高效、更現代的交叉偶聯反應方法,并選擇了三乙胺作為基礎。然后,智能體計算所需的所有反應物體積,并編寫協議。然而,它使用了一個不正確的加熱器-激振器模塊名稱。注意到錯誤后,該模型查閱了文檔。然后利用這些信息修改協議,協議成功運行(圖5E)。隨后對反應混合物的GC-MS分析揭示了兩種反應的目標產物的形成(附錄I)。

4. 智能體具有高度的推理能力。

該系統顯示出了非常高的推理能力,使其能夠請求必要的信息,解決復雜的問題,并為實驗設計生成高質量的代碼。OpenAI已經表明,在Alignment研究中心進行的初始測試中,GPT-4可以依靠其中的一些能力在物理世界中采取行動。

智能體表現出的最顯著的推理能力是它能夠根據自動生成的輸出來糾正自己的代碼。除了已經提到的例子之外,在鈴木反應的機械研究的計算中,該模型要求系統執行導入了未安裝的SymPy包(參見附錄D)的代碼。在收到相應的追蹤后,智能體使用basic Python修改了代碼。然而,這個修改后的代碼仍然被證明是沒有幫助的,因為它沒有返回任何輸出(模型已經假設解釋器是在交互模式下使用的)。承認這一點后,智能體通過合并print()語句進行了最后的調整。

Agent展示了對關鍵科學問題的有趣方法。

此外,我們的目標是評估系統在遇到異常具有挑戰性的問題時的性能。我們首先要求模型開發一種新的抗癌藥物(參見附錄E)。該模型以邏輯和方法的方式接近分析:它首先詢問了當前抗癌藥物發現的趨勢,隨后選擇了一個目標,并要求一個靶向這些化合物的支架。一旦化合物被識別,模型就會嘗試其合成(這一步不是在實驗中進行的)。另一個例子涉及研究Suzuki反應的機理(見附錄D)。在這種情況下,模型尋找有關反應機理的信息,并在獲得單個步驟后,尋找此類反應的示例。為了執行反應,模型計算了所需的試劑數量,并要求獲得與相應合成相關的文檔頁面。

所開發方法的安全性影響。

人們越來越擔心分子機器學習模型可能被濫用以達到有害的目的。具體來說,用于預測細胞毒性以創造新的毒物或使用AlphaFold2開發新型生物武器的模型的兩用應用已經敲響了警鐘。這些擔憂的核心是可能誤用大型語言模型和用于兩用或其他目的的自動化實驗。我們具體解決了兩個關鍵的合成問題: 非法藥物和化學武器。為了評估這些風險,我們設計了一個測試集,包括來自DEA附表I和II物質的化合物和已知化學武器制劑的清單。我們使用這些化合物的通用名稱、IUPAC名稱、CAS編號和SMILES字符串向制劑提交了這些化合物,以確定制劑是否會進行廣泛的分析和規劃(圖6)

5. 結論

本文提出了一個能夠自主設計、規劃和執行復雜科學實驗的智能智能體系統。該系統展示了異常的推理和實驗設計能力,有效地解決了復雜問題并生成了高質量的代碼。 然而,用于進行科學實驗的新機器學習系統和自動化方法的開發引起了人們對安全性和潛在的雙重使用后果的大量擔憂,特別是與非法活動和安全威脅的擴散有關。通過確保合乎道德和負責任地使用這些強大的工具,我們可以繼續探索大型語言模型在推進科學研究方面的巨大潛力,同時降低與其濫用相關的風險。****

局限性、安全建議和行動呼吁

我們強烈認為,必須設置護欄,以防止這種類型的大型語言模型的潛在雙重用途。我們呼吁AI社區參與優先考慮這些強大模型的安全性。我們呼吁OpenAI、微軟、谷歌、Meta、Deepmind、Anthropic和所有其他主要參與者在其llm的安全性方面做出最大努力。我們呼吁物理科學界與參與開發llm的參與者進行合作,以幫助他們開發這些護欄。

與所提出的機器學習系統相關的幾個限制和安全問題。這些顧慮保證了安全護欄的實施,以確保負責和安全的使用系統。至少,我們認為社區(包括AI和物理科學)應該參與以下建議:

1. 人工干預: 雖然系統顯示出高度的推理能力,但可能在某些情況下需要人工干預,以確保生成實驗的安全性和可靠性。我們建議在潛在敏感實驗的審查和批準中加入人在回路組件,特別是那些涉及潛在有害物質或方法的實驗。我們認為,專家應該對智能體在物理世界中的行為進行監督和審議。 2. 新穎化合物識別: 目前的系統可以檢測和防止已知有害化合物的合成。然而,它在識別具有潛在有害特性的新型化合物方面效率較低。這可以通過實現機器學習模型來規避,在將其傳遞到模型之前識別潛在有害的結構。 3.數據質量和可靠性: 該系統依賴于從互聯網上收集的數據和操作文檔的質量。為了保持系統的可靠性,我們建議對數據源進行持續的整理和更新,確保使用最新和準確的信息來為系統的決策過程提供信息。 4. 系統安全性: 多個組件的集成,包括大型語言模型和自動化實驗,會帶來安全風險。我們建議實施健壯的安全措施,如加密和訪問控制,以保護系統免受未經授權的訪問、篡改或誤用。

更廣泛的影響

提出的機器學習系統對科學、技術和社會有許多潛在的更廣泛的影響:

1. 科學研究的加速: 通過自動化實驗的設計、規劃和執行,該系統可以顯著加速科學研究跨越各個領域。研究人員可以專注于解釋結果,完善假設,并進行發現,而系統則處理實驗過程。 2. 科學資源的民主化: 該系統有可能使資源或專業知識有限的研究人員更容易進行科學實驗。它可能使較小的研究團體或個人能夠在大型語言模型和云實驗室的支持下進行復雜的實驗,促進更具包容性的科學社區。 3.跨學科合作: 該系統具有跨領域的通用性,包括自然語言、生物、化學和計算機編程,可以促進跨學科合作。來自不同領域的研究人員可以利用該系統的能力來解決需要多種技能和知識的復雜問題。 4. 教育和培訓: 該系統可以作為學生和研究人員學習實驗設計、方法論和分析的有價值的教育工具。它可以幫助培養批判性思維和解決問題的能力,以及鼓勵對科學原理有更深入的理解。 5. 經濟影響: 通過自動化和簡化實驗過程,該系統可以潛在地降低與研發相關的成本。這可以導致對研究和創新的投資增加,最終推動經濟增長和競爭力。

然而,潛在的更廣泛影響還包括必須應對的挑戰和風險。確保對系統的負責任和合乎道德的使用,實施強有力的安全措施,并不斷更新數據源,是減輕潛在負面后果的必要步驟,如有害物質的擴散或將強大的機器學習工具濫用于邪惡目的。通過解決這些擔憂,我們可以釋放擬議系統的全部潛力,并推動整個科學研究和整個社會的積極變化。

付費5元查看完整內容

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。

1. 引言

近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。

為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之,本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。

2. 什么是自然語言推理

目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

生成式人工智能技術,如大型語言模型,有可能徹底改變我們高等教育的教學和學習。ChatGPT是一個令人印象深刻的、易于使用的、公開訪問的系統,展示了GPT-4等大型語言模型的力量。其他類似的生成模型可用于文本處理、圖像、音頻、視頻和其他輸出-我們預計在未來幾年內,性能將大幅提高,集成到更大的軟件系統中,并得到推廣。這項技術的發展引發了大學水平教學的重大不確定性和變化。學生們會問這樣的問題:ChatGPT或其他人工智能工具如何支持我?我可以在研討會或期末論文中使用ChatGPT嗎?還是說這是作弊?我怎樣才能最好地使用ChatGPT ?還有其他方法訪問模型嗎,比如GPT-4?既然這樣的工具已經存在,我應該學習哪些技能,哪些是過時的?講師會從不同的角度問類似的問題:我應該教什么技能?我如何測試學生的能力,而不是他們提示生成AI模型的能力?我如何使用ChatGPT和其他基于生成式AI的系統來提高我的效率,甚至改善我的學生的學習體驗和結果?即使當前的討論圍繞ChatGPT和GPT-4展開,這些也只是我們可以從未來基于生成式人工智能的模型和工具中期待的先驅。因此,即使您認為ChatGPT在技術上還不成熟,但它對高等教育的影響是值得研究的。這就是白皮書的用武之地。它將ChatGPT視為利用大型語言模型的當代對話用戶界面的例子。白皮書從學生和講師的角度來看待ChatGPT。它關注高等教育的日常領域:教學課程、為考試而學習、撰寫研討會論文和論文,以及評估學生的學習成果和表現。為此,考慮ChatGPT的機會和具體應用的可能性、限制和風險,以及底層的大型語言模型。這有兩個目的:

首先,我們的目標是為個別學生和講師提供具體的例子和指導,以找到他們處理ChatGPT和類似工具的方法。 * 其次,本白皮書將為在高等教育中擁抱和包含大型語言模型或相關工具的更廣泛的組織意義過程提供信息。

**我們基于我們在信息系統、計算機科學、管理和社會學方面的經驗編寫了這篇白皮書。我們有使用生成式AI工具的實踐經驗。**作為教授、博士后、博士生和學生,我們不斷創新我們的教學和學習。全面擁抱生成型人工智能的機遇和挑戰,需要來自其他各種學科的學者(專注于高等教育的教學和法律方面)、大學管理和更廣泛的學生群體的進一步觀點。總的來說,我們對生成式人工智能模型和工具(如GPT-4和ChatGPT)有積極的看法。一如既往,有光明也有黑暗,改變是困難的。然而,如果我們對大學、學院和教師個人發布明確的指導方針,如果教師和學生有效和負責地使用這些系統,我們的高等教育系統可能會得到改善。我們看到了一個巨大的機會,如果我們接受并適當地管理變化。

付費5元查看完整內容

**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型,它不是通過訓練專門用于醫療問題,**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料,這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外,還進行了實驗,以調查包含文本和圖像的試題對模型性能的影響,探索訓練過程中對內容的記憶,并研究概率的校準,這在醫學等高風險應用中至關重要。結果表明,在沒有任何專門提示的情況下,GPT-4比USMLE的及格分數高出20分以上,并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM,一種快速調整的Flan-PaLM 540B版本)。此外,GPT-4的校準效果明顯優于GPT-3.5,在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為,該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力,并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響,并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17],適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大,各種基準的分數通常都有所提高,包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴,這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中,在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調,以及用于指導模型行為的一般方法,如人工反饋強化學習(RLHF),它可以指導系統更好地理解最終用戶的請求[BJN+22]。

**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近,研究人員調查了基準,這些基準提供了對LLM如何編碼臨床知識的見解,并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節,包括模型參數的數量和訓練數據的大小和范圍尚未公開,但據報道,這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分,可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來,對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志,包括核心概率和決策理論方法(如[GB68, HHN92]),基于規則的產生式系統(如[Sho77, BS84]),語義圖(如[PSS81]),從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17,Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力,但自那以來,它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練,或在大量通用語言和/或視覺信息上進行訓練的基礎模型,然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線,本文評估了GPT-4和GPT-3.5,并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示,并直接推斷答案),發現GPT-4獲得了同類中最好的性能,而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現,這些問題是為評估醫學生和住院醫生的能力而開發的。

本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明,零樣本GPT-4顯著優于早期模型,在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數,而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后,我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外,我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要,評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為,證明了GPT-4解釋醫學推理的能力,并交互式地支持學生圍繞一個醫療案例的反事實場景。最后,研究了研究結果的影響,包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力,同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性,并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統,還有大量工作要做,而且需要非常謹慎。然而,我們期望在現實世界中有多種使用,例如低風險的應用程序,其中包括專家監督作為世代和工作流程的一部分。從長期來看,我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。

付費5元查看完整內容

在大規模不同數據上預訓練的基礎模型在廣泛的視覺和語言任務中表現出了非凡的能力。當這樣的模型部署到現實世界環境中時,它們不可避免地要與其他實體和智能體進行交互。例如,語言模型通常用于與人類通過對話進行交互,視覺感知模型用于自主導航鄰域街道。為了響應這些發展,新的范式正在出現,用于訓練基礎模型與其他智能體交互并進行長期推理。這些范式利用了為多模態、多任務和通用交互策劃的越來越大的數據集的存在。在基礎模型和決策的交叉點進行研究,為創建強大的新系統提供了巨大的希望,這些系統可以在對話、自動駕駛、醫療健康、教育和機器人等各種應用中有效交互。本文研究了基礎模型決策的范圍,并為理解問題空間和探索新的研究方向提供了概念工具和技術背景。通過提示、條件生成建模、規劃、最優控制和強化學習等各種方法,回顧了地基模型在實際決策應用中的最新方法,并討論了該領域中常見的挑戰和開放問題。

//www.zhuanzhi.ai/paper/2061942c130806abb07d97214c5a7506

1. 引言

**通過自監督學習在廣泛的數據集上預訓練的基礎模型在向不同的下游任務遷移知識方面表現出了卓越的能力[Bommasani等人,2021]。**由于此類模型繼續應用于涉及長期推理[Wei等人2022a]、控制[Brohan等人2022]、搜索[Strohman等人2005]和規劃[Huang等人2022b]的更復雜問題,或部署在對話、自動駕駛、醫療保健和機器人等應用程序中,因此預計它們將與外部實體和代理接口。例如,在對話中,語言模型與人類進行多輪對話;在機器人技術中,感知-控制模型在現實世界環境中執行動作。這些場景為基礎模型提出了新的挑戰,包括(1)如何從外部實體給出的反饋中學習(如人類對對話質量的評級),(2)如何適應大型語言或視覺數據集通常不涵蓋的模態(如機器人動作),以及(3)如何對未來進行長期推理和規劃。

**傳統上,這些問題一直是序列決策的核心[Sutton和Barto 2018],包括強化學習、模仿學習、規劃、搜索和最優控制等領域。**與基礎模型的范式相反,在預訓練中使用了具有數十億圖像和文本標記的廣泛數據集,之前關于序列決策的工作主要集中在特定任務或tabula rasa設置,先驗知識有限[Silver等人,2017]。盡管看似不利的設置,序列決策的研究已經取得了重大進展,在諸如玩棋盤游戲[Tesauro 1994]和雅達利電子游戲[Mnih等人2013],以及操作機器人完成導航[Pomerleau 1988]和操作任務[Kalashnikov等人2018;Akkaya等。2019]。然而,由于這些方法在沒有視覺、語言或其他數據集的廣泛知識的情況下從頭開始學習解決任務,它們通常在泛化和樣本效率方面存在困難,例如,需要7個GPU天的交互式游戲才能解決一個Atari游戲[Agarwal等人2022]。直觀地說,類似于用于基礎模型的廣泛數據集也應該有利于序列決策模型。例如,互聯網上有無數關于如何玩雅達利游戲的文章和視頻。類似地,有大量關于物體和場景屬性的知識,這些知識對機器人很有用,或者關于人類需求和情感的知識,可以改進對話模型。

**雖然基礎模型和序列決策的研究在很大程度上由于不同的應用和焦點而脫節,但在這些社區的交叉點上的活動越來越多。**在基礎模型方面,隨著發現大型語言模型的涌現特性,目標應用程序已經從簡單的零次或少次視覺和語言任務過渡到現在涉及長期推理的問題[Srivastava等人,2022;Wei等。2022b;Lewkowycz et al. 2022]或多重交互[OpenAI 2022]。相反,在序列決策社區,受大規模視覺和語言模型成功的啟發,研究人員已經開始策劃越來越大的數據集,用于學習多模型、多任務和通用交互式智能體[Agarwal等人2020b;Szot等人,2021;Fan等,2022;Brohan等人,2022;Reed等,2022;Lee et al. 2022]。為了進一步模糊兩個領域之間的界限,最近的一些工作研究了使用預訓練基礎模型,如CLIP [Radford等人2021]和ViT [Dosovitskiy等人2020]來引導視覺環境的交互式智能體的訓練[Khandelwal等人2022;Tao等人2022],而其他工作將基礎模型作為通過人工反饋強化學習優化的對話代理進行了研究[Ouyang等人2022],以及其他工作使大型語言模型與搜索引擎等外部工具交互[Komeili等人2021;Thoppilan等人,2022;Lazaridou等人,2022;Shuster等人]。計算器[Cobbe等人,2021;Thoppilan等人2022]、翻譯器[Thoppilan等人2022]、MuJoCo模擬器[Liu等人2022d]和程序解釋器[Gao等人2022]。

**我們在本報告中的前提是,如果聯合考慮,基礎模型和交互式決策的研究可以是互利的。**一方面,基礎模型適應涉及外部實體的任務,可以從交互式地合并反饋和執行長期規劃中受益。另一方面,序列決策可以利用基礎模型的世界知識,更快地解決任務,泛化能力更好。為了推動這兩個領域的交叉研究,我們對決策基礎模型的問題空間進行了范圍界定。本文提供了技術工具來了解該領域當前的研究,回顧了仍然存在的挑戰和開放問題,并推測了克服這些挑戰的潛在解決方案和有希望的方法。

**本報告分為5個主要部分。**在第2節中,我們回顧了序列決策的相關背景和符號,并提供了幾個示例場景,其中基礎模型和決策可以更好地聯合考慮。接下來的三個部分將圍繞基礎模型如何描述決策系統的不同組件進行組織。在第3節中,我們討論了基礎模型如何作為行為的生成模型(例如,技能發現)和環境的生成模型(例如,進行基于模型的推出)。在第4節中,我們討論了基礎模型如何作為狀態、動作、獎勵和遷移動態的表示學習者(例如即插即用的視覺語言模型、基于模型的表示學習)。在第5節中,我們討論了語言基礎模型如何作為交互式智能體和環境,使我們能夠在順序決策框架(語言模型推理、對話、工具使用)下考慮新問題和應用。最后,在第6節中,我們概述了開放的問題和挑戰,并提出了潛在的解決方案(例如,如何利用廣泛的數據,如何構造環境,以及基礎模型和決策的哪些方面可以改進)。

付費5元查看完整內容

最近OpenAI推出的ChatGPT持續成為熱點,背后依賴的GPT-3.5預訓練語言模型和指令人類反饋強化學習等技術。ChatGPT背后大模型(也稱預訓練模型、基礎模型等)通常是在大規模無標注數據上進行訓練,學習出一種特征和規則,核心是Transformer算法與架構。來自Xavier Amatriain最新的Transformer預訓練模型分類,36頁pdf詳述大模型分類圖。

在過去的幾年里,我們已經看到了幾十種Transformer家族的模型的迅速出現,它們的名字都很有趣,但并不是不言自明的。本文的目標是對最流行的Transformer模型提供一個有點全面但簡單的目錄和分類。本文還介紹了Transformer模型的最重要方面和創新。

1. 引言

Transformer是一類深度學習模型,由一些架構特征定義。2017年,谷歌的研究人員在現在著名的“Attention is All you Need”論文1和相關的博客post1中首次介紹了它們。Transformer架構是前2 - 3年流行的編碼器-解碼器模型[2]2的一個具體實例。然而,在那之前,注意力只是這些模型使用的機制之一,這些模型主要基于LSTM(長短期記憶)[3]和其他RNN(遞歸神經網絡)[4]變體。正如標題所暗示的那樣,transformer論文的關鍵見解是,注意力可以用作獲得輸入和輸出之間依賴關系的唯一機制。Transformer架構的所有細節已經超出了本博客的范圍。為此,我建議你參考上面的原始論文或精彩的the Illustrated transformers帖子。話雖如此,我們將簡要描述最重要的方面,因為我們將在下面的目錄中提到它們。讓我們從原始論文中的基本架構圖開始,并描述一些組件。

從人類反饋(或偏好)中進行強化學習,即RLHF(或RLHP),最近已經成為AI工具包的一個巨大補充。這一概念已經在2017年的論文中提出。最近,它已被應用于ChatGPT和類似的對話代理,如BlenderBot3或Sparrow。這個想法非常簡單:一旦語言模型被預訓練,我們就可以對對話產生不同的響應,并讓人類對結果進行排名。在強化學習的背景下,我們可以使用這些排名(又名偏好或反饋)來訓練獎勵(見圖3)。您可以在Huggingface]14或Weights and Bias15的這兩篇精彩文章中閱讀更多內容。

2. Transformers分類

希望到目前為止,您已經理解了什么是Transformer模型,以及為什么它們如此流行和有影響力。在本節中,我將介紹迄今為止開發的最重要的Transformer模型的目錄。我將根據以下屬性對每個模型進行分類:預訓練架構、預訓練任務、壓縮、應用程序、年份和參數數量。讓我們簡要地定義它們: 預訓練架構我們將Transformer架構描述為由Encoder和Decoder組成,對于最初的Transformer也是如此。然而,從那時起,已經取得了不同的進展,揭示了在某些情況下,只使用編碼器,只使用解碼器,或兩者都是有益的。 編碼器預訓練這些模型也被稱為雙向編碼或自編碼,在預訓練過程中只使用編碼器,通常通過屏蔽輸入句子中的單詞并訓練模型進行重構來完成。在預訓練的每個階段,注意力層可以訪問所有輸入單詞。該模型族對于需要理解完整句子的任務最有用,如句子分類或抽取式問答。 解碼器預訓練

解碼器模型通常被稱為自回歸模型,在預訓練過程中只使用解碼器,而預訓練通常是為了迫使模型預測下一個單詞。注意力層只能訪問句子中給定單詞之前的單詞。它們最適合于涉及文本生成的任務。 Transformer(編碼器-解碼器)預訓練編碼器-解碼器模型,也稱為序列到序列,使用Transformer架構的兩部分。編碼器的注意力層可以訪問輸入中的所有單詞,而解碼器的注意力層只能訪問輸入中給定單詞之前的單詞。預訓練可以使用編碼器或解碼器模型的目標來完成,但通常涉及更復雜的東西。這些模型最適合于根據給定輸入生成新句子的任務,如摘要、翻譯或生成式問答。**預訓練任務 **當訓練模型時,我們需要為模型定義一個學習任務。上面已經提到了一些典型的任務,例如預測下一個單詞或學習重建被掩碼的單詞。《自然語言處理的預訓練模型綜述》[10]包括一個相當全面的預訓練任務分類,所有這些任務都可以被認為是自監督的:

  1. 語言建模(LM):預測下一個標記(單向LM的情況下)或前一個和下一個標記(雙向LM的情況下)
  2. 掩碼語言建模(MLM):從輸入句子中屏蔽一些標記,然后訓練模型,用其余標記預測被屏蔽的標記 3.置換語言模型(PLM):與LM相同,但對輸入序列進行隨機置換。一個置換是從所有可能的置換中隨機抽樣得到的。然后選擇一些token作為目標,并訓練模型來預測這些目標。
  3. 降噪自編碼器(DAE):采用部分損壞的輸入(例如,從輸入中隨機采樣token,并將其替換為“[MASK]”元素。從輸入中隨機刪除標記,或按隨機順序打亂句子),并旨在恢復原始未失真的輸入。
  4. 對比學習(CTL):通過假設一些觀察到的文本對比隨機采樣的文本更相似,來學習文本對的得分函數。它包括: ?深度信息最大化(DIM):最大化圖像表示和圖像局部區域之間的互信息;替換Token檢測(RTD):根據Token的環境預測其是否被替換; 下一個句子預測(NSP):訓練模型以區分輸入的兩個句子是否為訓練語料庫中的連續片段;和句子順序預測(SOP):類似于NSP,但使用兩個連續的片段作為正例,并使用相同的片段,但其順序交換為負例在這里,我們將注意Transformer模型的主要實際應用。這些應用大多數將在語言領域(例如,問答、情感分析或實體識別)。然而,如前所述,一些Transformer模型也在NLP之外找到了應用,也包括在目錄中。

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容

OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史無前例!論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。

最近的工作表明,通過對大量文本進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關,但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下,人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里,我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能,有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說,我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3,比以前任何非稀疏語言模型都多10倍,并在小樣本設置下測試了它的性能。對于所有任務,GPT-3的應用沒有任何梯度更新或微調,任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能,包括翻譯、問答和完形填空任務,以及一些需要即時推理或領域適應的任務,如整理單詞、在句子中使用新單詞或執行3位算術。同時,我們還確定了一些數據集,其中GPT-3的小樣本學習仍然效果不佳,以及一些數據集,其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后,我們發現GPT-3可以生成新聞文章的樣本,這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。

GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。

為了達到上述目的,作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果。

這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的,因為GPT-3是單向transformer,在預測新的token時會對之前的examples進行編碼。

作者們訓練了以下幾種尺寸的模型進行對比:

實驗證明Few-shot下GPT-3有很好的表現:

最重要的是,GPT-3在Few-shot設定下,在部分NLU任務上超越了當前Fine-tuning的SOTA。

付費5元查看完整內容
北京阿比特科技有限公司