基于transformer的大型語言模型在機器學習研究領域迅速發展,其應用范圍跨越自然語言、生物學、化學和計算機編程。來自人類反饋的擴展和強化學習顯著提高了生成文本的質量,使這些模型能夠執行各種任務并對其選擇進行推理。本文提出一個智能體系統,結合多個大型語言模型進行自主設計、規劃和科學實驗的執行。我們用三個不同的例子展示了智能體的科學研究能力,其中最復雜的是催化交叉耦合反應的成功表現。最后,我們討論了此類系統的安全影響,并提出了防止其濫用的措施。
1. 引言
大型語言模型(LLM),特別是基于transformer的模型,近年來正在經歷快速發展。這些模型已經成功地應用于各種領域,包括自然語言、生物和化學研究, 以及代碼生成。如OpenAI所展示的,模型的極端擴展已經導致了該領域的重大突破。此外,從人類反饋中強化學習(RLHF)等技術可以大大提高生成文本的質量,以及模型在推理其決策的同時執行不同任務的能力。
2023年3月14日,OpenAI發布了他們迄今為止最強大的LLM, GPT-4。雖然關于模型訓練、大小和使用的數據的具體細節在技術報告中有限,但研究人員已經提供了該模型非凡的解決問題能力的實質性證據。這些包括但不限于SAT和BAR考試的高百分位數,LeetCode挑戰,以及來自圖像的上下文解釋,包括小眾笑話。此外,技術報告提供了一個例子,說明如何使用該模型來解決化學相關的問題。
在這些結果的啟發下,我們旨在開發一個基于多LLMs的智能Agent(以下簡稱Agent),能夠自主設計、規劃和執行復雜的科學實驗。該智能體可以使用工具瀏覽互聯網和相關文檔,使用機器人實驗APIs,并利用其他LLMs完成各種任務。本文通過評估智能體在三個任務中的性能來證明其多功能性和有效性: 1.在廣泛的硬件文檔中高效搜索和導航 ;2.在低液位上精確控制液體處理儀表; 3.解決需要同時利用多個硬件模塊或集成不同數據源的復雜問題。
2. 智能體的架構: 由其多個模塊定義的動作空間
智能體的系統由四個組件組成(圖1),由“規劃器”驅動。“規劃器”將一個提示作為輸入(例如,“執行多個Suzuki反應”),并根據這個請求執行動作。行動空間包括訪問互聯網(“谷歌
”),訪問文檔(“documentation
”)。實驗可以在各種環境中進行——云實驗室,使用液體處理程序,或通過提供手動執行實驗的說明。該模型被指示推理其行動,搜索互聯網,計算反應中的所有數量,然后執行相應的反應。智能體意識到,平均來說,至少需要十個步驟才能完全理解所請求的任務。如果提供的描述足夠詳細,則不需要向提示提供者進一步澄清問題。
“網絡搜索器”組件接收來自規劃器的查詢,將它們轉換為適當的網絡搜索查詢,并使用谷歌搜索API執行它們。返回的前10個文檔被過濾,不包括pdf,得到的網頁列表被傳遞回“網絡搜索器”組件。然后,該組件可以使用“瀏覽”動作從網頁中提取文本,并為規劃器編譯一個答案。對于這項任務,我們可以采用GPT-3.5,因為它的執行速度明顯快于GPT-4,而質量沒有明顯損失。“文檔搜索器”組件通過利用查詢和文檔索引來查找最相關的頁面/部分,梳理硬件文檔(例如,機器人液體處理程序,GC-MS,云實驗室)。然后聚合最佳匹配結果,以提供全面和準確的最終答案。這個模塊側重于為硬件API提供具體的函數參數和語法信息。 “代碼執行”組件不利用任何語言模型,只是在一個隔離的Docker容器中執行代碼,保護終端主機機器免受規劃器任何意外操作的影響。所有的代碼輸出都被傳遞回規劃器,使其能夠在出現軟件錯誤的情況下修復其預測。這同樣適用于“自動化”組件,然后在相應的硬件上執行生成的代碼,或者只是提供人工實驗的合成過程。
3. 網絡搜索使Agent的綜合規劃能力成為可能
為了演示系統的功能,我們以布洛芬的合成為例(圖2A)。輸入提示直截了當:“合成布洛芬”。然后,該模型在互聯網上搜索關于布洛芬合成的信息,在特定網站上定位必要的細節。該模型正確地識別了合成的第一步,即氯化鋁催化的異丁基苯和乙酸酐之間的弗里德爾-克拉夫反應(見附錄A)。一旦模型要求提供弗里德爾-克拉夫合成程序的文件,第一步的規劃階段就結束了。
系統能力的另外兩個例子包括普通阿司匹林的合成(圖2B和附錄B)和阿斯巴甜的合成(圖2D和附錄C),前者是模型有效搜索和設計的,后者雖然缺少產品中的甲基,但一旦模型收到合適的合成示例,在云實驗室中執行,就可以糾正。此外,當被要求研究一個Suzuki反應時,該模型準確地識別了底物和產物(圖2C和附錄D)。當建議特定的催化劑或堿時,用于文本生成的高溫參數會導致波動。 通過API將模型連接到Reaxys14或SciFinder15等化學反應數據庫,可以顯著提高系統的性能。或者,分析系統之前的語句是提高其準確性的另一種方法。
![]()
向量搜索可用于軟件文檔的檢索。
為了將一個能夠復雜推理的智能體與軟件集成,提供相關技術文檔的清晰簡潔的表述至關重要。現代軟件的特點是其復雜性和各種組件之間錯綜復雜的相互作用。因此,全面的軟件文檔對于程序員理解這些交互作用并有效地利用它們來實現目標是必不可少的。盡管如此,傳統的軟件文檔經常使用高度技術性的語言,這對于非專業人士來說很難掌握。這為軟件的許多潛在用戶制造了障礙,限制了它的使用范圍和有效性。
大型語言模型有可能通過生成非專家更容易訪問的軟件文檔的自然語言描述來克服這一障礙。這些模型是在來自各種來源的大量文本語料庫上進行訓練的,這些語料庫包括與應用程序編程接口(API)相關的大量信息。其中一個這樣的API是Opentrons Python API.16然而,GPT-4的訓練數據包含截至2021年9月的信息。因此,有可能提高智能體使用API的準確性。為此,我們設計了一種方法來為智能體提供給定任務所需的文檔,總結在圖3A中。
![]()
掌握自動化: 多儀器系統由自然語言控制。
獲取文檔使我們能夠為智能體提供足夠的信息,以便在物理世界中進行實驗。為了啟動調查,我們選擇了一個開源的液體處理程序,它具有文檔完備的Python API。其文檔中的“入門”頁面在系統提示中提供給了規劃師。其他頁面使用“提供硬件API文檔”一節中描述的方法進行向量化。
![]()
綜合起來: 智能體的綜合化學實驗設計和執行能力之前的實驗可能會受到預訓練步驟中對智能體模塊的了解的影響。我們希望通過結合來自互聯網的數據,執行必要的計算,并最終為液體處理程序編寫代碼,來評估智能體計劃實驗的能力。為了增加復雜性,我們要求智能體使用在GPT-4訓練數據收集截止后發布的加熱器-震動器模塊。這些要求被納入到智能體的配置中(圖5A)。問題設計如下: Agent配備有一個裝有兩個微孔板的液體處理器。一個(源板)包含多種試劑的原液,包括苯乙炔和苯硼酸,多個芳基鹵化物偶聯伙伴,兩種催化劑,兩種堿基,以及溶解樣品的溶劑(圖5B)。靶板安裝在加熱-搖床模塊上(圖5C)。Agent的目標是設計一個協議來執行Suzuki和Sonogashira反應。智能體首先在互聯網上搜索有關所要求的反應、其化學計量和條件的信息(圖5D)。它為相應的反應選擇正確的耦合伙伴。在所有芳基鹵化物中,Suzuki反應選擇了溴苯,Sonogashira反應選擇了碘苯。這種行為在每次運行中都會發生變化,因為它還選擇了對硝基碘苯,因為它在氧化加成反應中反應性高,或溴苯,因為它反應性強,但毒性比芳基碘化物小。這突出了該模型潛在的未來用例——多次執行實驗以分析模型的推理并構建更大的圖景。該模型選擇了Pd/NHC催化劑作為更高效、更現代的交叉偶聯反應方法,并選擇了三乙胺作為基礎。然后,智能體計算所需的所有反應物體積,并編寫協議。然而,它使用了一個不正確的加熱器-激振器模塊名稱。注意到錯誤后,該模型查閱了文檔。然后利用這些信息修改協議,協議成功運行(圖5E)。隨后對反應混合物的GC-MS分析揭示了兩種反應的目標產物的形成(附錄I)。
![]()
4. 智能體具有高度的推理能力。
該系統顯示出了非常高的推理能力,使其能夠請求必要的信息,解決復雜的問題,并為實驗設計生成高質量的代碼。OpenAI已經表明,在Alignment研究中心進行的初始測試中,GPT-4可以依靠其中的一些能力在物理世界中采取行動。
智能體表現出的最顯著的推理能力是它能夠根據自動生成的輸出來糾正自己的代碼。除了已經提到的例子之外,在鈴木反應的機械研究的計算中,該模型要求系統執行導入了未安裝的SymPy包(參見附錄D)的代碼。在收到相應的追蹤后,智能體使用basic Python修改了代碼。然而,這個修改后的代碼仍然被證明是沒有幫助的,因為它沒有返回任何輸出(模型已經假設解釋器是在交互模式下使用的)。承認這一點后,智能體通過合并print()語句進行了最后的調整。
Agent展示了對關鍵科學問題的有趣方法。
此外,我們的目標是評估系統在遇到異常具有挑戰性的問題時的性能。我們首先要求模型開發一種新的抗癌藥物(參見附錄E)。該模型以邏輯和方法的方式接近分析:它首先詢問了當前抗癌藥物發現的趨勢,隨后選擇了一個目標,并要求一個靶向這些化合物的支架。一旦化合物被識別,模型就會嘗試其合成(這一步不是在實驗中進行的)。另一個例子涉及研究Suzuki反應的機理(見附錄D)。在這種情況下,模型尋找有關反應機理的信息,并在獲得單個步驟后,尋找此類反應的示例。為了執行反應,模型計算了所需的試劑數量,并要求獲得與相應合成相關的文檔頁面。
所開發方法的安全性影響。
人們越來越擔心分子機器學習模型可能被濫用以達到有害的目的。具體來說,用于預測細胞毒性以創造新的毒物或使用AlphaFold2開發新型生物武器的模型的兩用應用已經敲響了警鐘。這些擔憂的核心是可能誤用大型語言模型和用于兩用或其他目的的自動化實驗。我們具體解決了兩個關鍵的合成問題: 非法藥物和化學武器。為了評估這些風險,我們設計了一個測試集,包括來自DEA附表I和II物質的化合物和已知化學武器制劑的清單。我們使用這些化合物的通用名稱、IUPAC名稱、CAS編號和SMILES字符串向制劑提交了這些化合物,以確定制劑是否會進行廣泛的分析和規劃(圖6)
5. 結論
本文提出了一個能夠自主設計、規劃和執行復雜科學實驗的智能智能體系統。該系統展示了異常的推理和實驗設計能力,有效地解決了復雜問題并生成了高質量的代碼。 然而,用于進行科學實驗的新機器學習系統和自動化方法的開發引起了人們對安全性和潛在的雙重使用后果的大量擔憂,特別是與非法活動和安全威脅的擴散有關。通過確保合乎道德和負責任地使用這些強大的工具,我們可以繼續探索大型語言模型在推進科學研究方面的巨大潛力,同時降低與其濫用相關的風險。****
局限性、安全建議和行動呼吁
我們強烈認為,必須設置護欄,以防止這種類型的大型語言模型的潛在雙重用途。我們呼吁AI社區參與優先考慮這些強大模型的安全性。我們呼吁OpenAI、微軟、谷歌、Meta、Deepmind、Anthropic和所有其他主要參與者在其llm的安全性方面做出最大努力。我們呼吁物理科學界與參與開發llm的參與者進行合作,以幫助他們開發這些護欄。
與所提出的機器學習系統相關的幾個限制和安全問題。這些顧慮保證了安全護欄的實施,以確保負責和安全的使用系統。至少,我們認為社區(包括AI和物理科學)應該參與以下建議:
1. 人工干預: 雖然系統顯示出高度的推理能力,但可能在某些情況下需要人工干預,以確保生成實驗的安全性和可靠性。我們建議在潛在敏感實驗的審查和批準中加入人在回路組件,特別是那些涉及潛在有害物質或方法的實驗。我們認為,專家應該對智能體在物理世界中的行為進行監督和審議。 2. 新穎化合物識別: 目前的系統可以檢測和防止已知有害化合物的合成。然而,它在識別具有潛在有害特性的新型化合物方面效率較低。這可以通過實現機器學習模型來規避,在將其傳遞到模型之前識別潛在有害的結構。 3.數據質量和可靠性: 該系統依賴于從互聯網上收集的數據和操作文檔的質量。為了保持系統的可靠性,我們建議對數據源進行持續的整理和更新,確保使用最新和準確的信息來為系統的決策過程提供信息。 4. 系統安全性: 多個組件的集成,包括大型語言模型和自動化實驗,會帶來安全風險。我們建議實施健壯的安全措施,如加密和訪問控制,以保護系統免受未經授權的訪問、篡改或誤用。
更廣泛的影響
提出的機器學習系統對科學、技術和社會有許多潛在的更廣泛的影響:
1. 科學研究的加速: 通過自動化實驗的設計、規劃和執行,該系統可以顯著加速科學研究跨越各個領域。研究人員可以專注于解釋結果,完善假設,并進行發現,而系統則處理實驗過程。 2. 科學資源的民主化: 該系統有可能使資源或專業知識有限的研究人員更容易進行科學實驗。它可能使較小的研究團體或個人能夠在大型語言模型和云實驗室的支持下進行復雜的實驗,促進更具包容性的科學社區。 3.跨學科合作: 該系統具有跨領域的通用性,包括自然語言、生物、化學和計算機編程,可以促進跨學科合作。來自不同領域的研究人員可以利用該系統的能力來解決需要多種技能和知識的復雜問題。 4. 教育和培訓: 該系統可以作為學生和研究人員學習實驗設計、方法論和分析的有價值的教育工具。它可以幫助培養批判性思維和解決問題的能力,以及鼓勵對科學原理有更深入的理解。 5. 經濟影響: 通過自動化和簡化實驗過程,該系統可以潛在地降低與研發相關的成本。這可以導致對研究和創新的投資增加,最終推動經濟增長和競爭力。
然而,潛在的更廣泛影響還包括必須應對的挑戰和風險。確保對系統的負責任和合乎道德的使用,實施強有力的安全措施,并不斷更新數據源,是減輕潛在負面后果的必要步驟,如有害物質的擴散或將強大的機器學習工具濫用于邪惡目的。通過解決這些擔憂,我們可以釋放擬議系統的全部潛力,并推動整個科學研究和整個社會的積極變化。
大型語言模型(LLMs)由于其能在許多知識領域中與最終用戶進行具有詳細且清晰的回答的人類級別對話的能力,引發了AI的新熱潮。響應其在許多工業應用中的快速采用,本綜述關注其安全性和可信度。首先,我們回顧了LLMs的已知漏洞,將它們分類為固有問題,預定攻擊和無意的錯誤。然后,我們考慮是否以及如何可以將已經為傳統軟件和深度學習模型(如卷積神經網絡)廣泛開發的驗證和驗證(V&V)技術整合并進一步擴展到LLMs的生命周期中,以對LLMs及其應用的安全性和可信度提供嚴謹的分析。特別是,我們考慮四種互補技術:偽造和評估,驗證,運行時監視和道德使用。考慮到LLMs的快速發展,本綜述并無意完整(盡管它包含300多個參考),尤其是在涉及到LLMs在各個領域的應用時,而是收集了有組織的文獻回顧和討論,以支持從V&V的視角快速理解安全性和可信度問題。
1. 引言
大型語言模型(LLM)是一種具備大量可學習參數的深度學習模型(通常達到100億以上,如圖1所示)。LLMs是基于Transformer架構[116]的注意力驅動的序列模型,已經一直顯示出學習語言通用表示的能力。這種語言的通用表示可以被用于各種自然語言處理(NLP)任務。最近,這些模型在參數數量和預訓練語料庫方面的擴大,已經證實了Transformer作為編碼語言表示的普遍性。在特定規模下,這些模型開始表現出在上下文中的學習能力[184,278],以及從少數示例(零/一/少數 - 無需微調)和自然語言提示(描述模型需要實施的行為意圖的復雜指令)中學習的屬性。最近關于通過人類反饋進行強化學習(RLHF)[190]的研究進一步發展了這些模型對越來越復雜提示的對齊和響應的能力,導致了它們在如ChatGPT等系統中的普及,以及在大量應用中的使用。LLMs表現出復雜的語言和推理行為的能力,已經推動了它們在超出預期操作范圍的應用。盡管LLMs在語言流暢性上一直表現出色,但它們也容易產生錯覺[228],陳述事實上不正確的陳述[227],以及缺乏必要的安全性、透明度和控制機制[239]等問題。本文的目標是提供關于LLMs已知漏洞的回顧,并更重要的是,探討如何調整V&V技術以提高LLMs的安全性和可信度。雖然已有一些關于LLMs的調查[296,291],以及關于ChatGPT失敗的分類性檔案[47],但據我們所知,這是第一個從V&V的角度對安全性和可信度問題進行全面討論的工作。
V&V技術在支持安全關鍵系統中軟硬件的可靠和可信賴的開發方面取得了成功,并已被適應用于機器學習模型,主要關注圖像分類的卷積神經網絡(見諸如[125, 169]的調查和[124]等教科書),但也擴展到考慮如目標檢測、深度強化學習和循環神經網絡等。本文討論如何進一步擴展V&V以應對LLMs的安全性和可信度挑戰。V&V是一種獨立的程序,它們一起用于檢查系統(或產品,服務)是否滿足要求和規范,并且是否達到其預期的目的[7]。其中,驗證技術根據一組設計規格檢查系統,而驗證技術確保系統滿足用戶的操作需求。從軟件、卷積神經網絡到LLMs,系統的規模顯著增長,這使得常規的V&V技術由于其可擴展性問題而能力不足。將可學習參數作為其算法輸入的白盒V&V技術在實踐中不會很好地工作。相反,研究應專注于黑盒技術,對于卷積神經網絡,一些研究已經開始。此外,V&V技術需要考慮LLMs的非確定性特性(即,對于兩次具有相同輸入的測試,輸出不同),這與常見的神經網絡(如卷積神經網絡和目標檢測器)有顯著的不同,目前大多數V&V技術都在這些網絡上工作。
本文的結構如下。在第二部分,我們回顧了LLMs及其類別,它的生命周期,以及為提高安全性和可信度而引入的幾種技術。然后,在第三部分,我們介紹了現有漏洞的回顧。這之后,我們在第四部分提供了一個通用的驗證框架。該框架包括V&V技術,如偽造和評估(第五部分),驗證(第六部分),運行時監控(第七部分)和道德使用(第八部分)。我們在第九部分對本文進行總結。
2. 大型語言模型
這一部分總結了基于LLMs的機器學習任務的類別,然后討論了LLMs的生命周期。我們還將討論一些與安全性分析相關的基礎技術。
圖2展示了LLMs的生命周期階段。離線模型構造由三個步驟組成[291]:預訓練、適應調整和利用改進,每個步驟都包含幾個交織的子步驟。一般來說,預訓練步驟與常規的機器學習訓練類似,包括數據收集、架構選擇和訓練。在適應調整上,它可能進行指令調整[178]以從任務指令中學習,并進行對齊調整[190, 67]以確保LLMs與人類價值觀相符,例如公平、誠實和無害。除此之外,為了改善與最終用戶的交互,可能會通過例如上下文學習[49],思維鏈學習[257]來進行利用改進。一旦一個LLM被訓練,就需要進行評估以確保其性能符合預期。通常,我們從三個角度考慮評估:基本性能指標的評估,安全性分析以評估在應用中應用LLM的后果,以及通過公開可用的基準數據集進行的評估。評估將決定LLM是否可接受(對于預設定的標準),如果是的話,過程將向前移動到部署階段。否則,將至少確定一個失敗,并且過程將回退到三個訓練步驟中的任何一個。在部署階段,我們將決定如何使用LLM。例如,它可以在網頁平臺上供最終用戶直接交互,比如ChatGPT。或者,它可能被嵌入到搜索引擎中,比如新的Bing。然而,根據常規做法,會在LLMs和最終用戶之間的對話上設置保護,以確保AI規則最大程度地實施。
3 漏洞
本部分介紹已知類型漏洞的回顧。這些漏洞可以分為固有問題、有意攻擊和無意錯誤三類。固有問題是指LLMs本身無法立即解決的漏洞。然而,通過更多的數據和新的訓練方法等逐步改進是可能的。固有問題包括性能弱點,即LLMs尚未達到人類水平的智能方面,以及可持續性問題,因為LLMs的規模顯著大于常規機器學習模型。它們的訓練和日常執行可能會產生非可忽略的可持續性影響。此外,可信性和責任問題是LLMs固有的。有意攻擊是由惡意攻擊者發起的,他們試圖通過攻擊LLMs生命周期中的某些階段來實現他們的目標。已知的有意攻擊包括魯棒性漏洞、后門攻擊、毒化、虛假信息、隱私泄露和未經授權的信息披露。最后,隨著LLMs集成到更廣泛的應用中,將出現越來越多的無意錯誤,這些錯誤是開發人員在無意識中產生的,但卻會產生嚴重后果,例如偏見和歧視(通常與訓練數據的質量有關),以及最近報道的用戶信息的意外泄露。圖2展示了漏洞在LLMs的生命周期中可能被利用的方式。雖然固有問題和無意錯誤可能出現在生命周期的任何階段,但有意攻擊通常出現在生命周期的特定階段。例如,后門攻擊通常發生在預訓練和適應調整階段,其中嵌入了后門觸發器;毒化通常發生在訓練或對齊調整階段,此時LLMs從環境中獲取信息/數據。此外,許多攻擊發生在最終用戶與LLMs之間的交互中,使用特定的、經過精心設計的提示來從LLMs中檢索信息。我們注意到,盡管存在重疊,LLMs和常規深度學習模型(如卷積神經網絡或目標檢測器)具有略微不同的漏洞,并且盡管已經開始為常規深度學習模型開發規范語言[40, 127],但這些努力可能需要擴展到LLMs上。
4 通用驗證框架
圖3展示了一個通用的驗證框架示意圖,該框架可以與LLMs一起工作,并將幾個V&V技術類別定位到生命周期中。在評估階段,除了目前進行的活動(如圖2所述),我們需要從偽造和評估技術開始,并與解釋技術同時進行。偽造和評估技術提供了多樣的方法來找到故障案例,并具有統計理解潛在故障的能力,但并非窮盡。解釋技術旨在提供人類可理解的LLMs輸出解釋。雖然這兩個類別是并行的,但它們可以相互交互,例如,一個故障案例可能需要使用解釋技術來理解根本原因,而解釋需要區分不同的故障和非故障案例。驗證技術通常成本較高,可能僅在LLMs通過前兩個類別時才需要。除了離線驗證,還需要在保護層之上部署運行時監視器,以在操作時間發現故障案例。這主要是由于兩個原因:(1)當處理大量屬性和LLMs的高維度時,離線方法可能不完整;(2)LLMs可以是自適應和演化的。最后,在整個生命周期中,需要遵守倫理原則和AI規定,以確保對LLMs的道德使用。
5 偽造和評估
本部分總結了識別和評估基于LLMs的機器學習應用程序漏洞的已知方法。我們還討論了如何調整V&V,并應該如何調整。
6 驗證
本部分討論是否以及如何將更嚴格的驗證擴展到基于LLMs的機器學習任務中。到目前為止,LLMs的驗證或認證仍然是一個新興的研究領域。本節首先對各種NLP模型的驗證技術進行了全面系統的回顧。然后,我們討論了一些開創性的黑盒驗證方法,這些方法可以在大規模語言模型上發揮作用。接下來,我們討論如何將這些工作擴展到LLMs,并回顧減小LLMs規模以增加驗證技術有效性的努力。
7 運行時監視器
第2.3.2節提到的保護層為LLMs與最終用戶的交互提供了安全保障,同時保持其社會責任。本節討論了一種V&V方法,即運行時監視器,它與保護層有些相似,可以對LLMs的行為進行保護,以防止像第3節中討論的那樣的漏洞。使用運行時監視器而不是驗證的關鍵動機有兩個方面。首先,驗證方法需要大量的計算,因此在處理像LLMs這樣的大型模型時可能變得不切實際。其次,深度學習模型可能被應用于與收集訓練數據不同的場景。這表明需要一個運行時監視器來實時確定規范的可滿足性。
8 規定和道德使用
V&V提供了一系列技術手段,以支持LLMs與人類利益的一致性。然而,有人認為構建無法被濫用的LLMs可能是不可能的。這表明技術手段是必要的,但可能是不充分的。因此,需要道德手段來補充技術手段,以確保LLMs的使用與人類利益完全一致。以下,我們將討論幾個近期取得的進展跡象。
9. 結論
本文概述了LLM(大型語言模型)已知的漏洞,并討論了如何調整V&V(驗證和驗證)技術以適應它們的工作。鑒于LLM正在迅速被直接或間接與終端用戶進行交互的應用程序所采用,必須確保部署的LLM經歷足夠的審判過程,以避免任何不可取的安全和可信后果。考慮到LLM的規模和復雜性,白盒V&V技術可能變得不切實際,社區可能需要開發黑盒、非確定性敏感的V&V技術。此外,多學科的開發將確保充分考慮所有可信問題。
本文對GPT系列中最先進的大型語言模型(LLM) ChatGPT和GPT-4及其在不同領域的應用前景進行了全面的綜述。事實上,關鍵創新,如在整個萬維網上捕捉知識的大規模預訓練、指令微調和從人工反饋中強化學習(RLHF),在提高llm的適應性和性能方面發揮了重要作用。對arXiv上的194篇相關論文進行了深入分析,包括趨勢分析、詞云表示和跨不同應用領域的分布分析。研究結果表明,人們對ChatGPT/GPT-4的研究興趣顯著增加,主要集中在直接的自然語言處理應用上,同時在教育、歷史、數學、醫學和物理等領域也顯示出巨大的潛力。本研究旨在揭示ChatGPT的能力、潛在意義、倫理問題,并為該領域的未來發展指明方向。1. 引言自然語言處理(NLP)的最新進展導致了強大的語言模型的發展,如GPT(生成式預訓練Transformer)系列[1,2,3,4,5],包括ChatGPT和GPT-4等大型語言模型(LLM)。這些模型是在大量文本數據上進行預訓練的,并在廣泛的NLP任務中表現出卓越的性能,包括語言翻譯、文本摘要和問答。特別是ChatGPT模型在教育、醫療、推理、文本生成、人機交互和科學研究等各個領域都展示了其潛力。
LLM開發的一個關鍵里程碑是InstructGPT[5],一個框架,允許基于人工反饋強化學習(RLHF)對預訓練語言模型進行指令微調[6,5]。該框架使LLM能夠適應廣泛的NLP任務,通過利用人工反饋使其高度通用和靈活。RLHF使模型能夠與人類的偏好和價值觀保持一致,這與僅通過無監督預訓練訓練文本語料庫的大型語言模型相比有了顯著提高。ChatGPT是InstructGPT的繼承者。自2022年12月發布以來,ChatGPT已經具備了這些先進的開發,在推理和廣義文本生成等各種下游NLP任務中取得了令人印象深刻的性能。這些前所未有的NLP能力促進了教育、醫療、人機交互、醫學和科學研究等不同領域的應用。ChatGPT得到了廣泛的關注和興趣,越來越多的應用和研究利用了其巨大的潛力。多模態GPT-4模型的公開發布進一步擴展了大型語言模型的視野,并促進了涉及文本以外的各種數據的令人興奮的發展。本文對ChatGPT的現有研究及其在各個領域的潛在應用進行了全面的綜述。為了實現這一目標,我們對arXiv庫中與ChatGPT相關的論文進行了全面的分析。截至2023年4月1日,在arXiv上共有194篇論文提到了ChatGPT。在這項研究中,我們對這些論文進行了趨勢分析,并生成了一個詞云來可視化常用術語。此外,我們還檢查了不同領域的論文分布,并給出了相應的統計數據。圖1顯示了ChatGPT相關論文的每日提交趨勢,表明人們對該領域的興趣越來越大。圖2展示了所有論文的詞云分析。我們可以觀察到,目前的研究主要集中在自然語言處理上,但在教育和歷史等其他領域的研究仍然有很大的潛力。圖3進一步支持了這一點,它顯示了在各個領域提交的論文的分布,強調了在這些領域進行更多研究和開發的必要性。本文旨在揭示ChatGPT的潛力,并深入探討其對未來的潛在影響,包括倫理方面的考慮。希望通過本文的綜述,為未來如何改進和擴展這些模型提供見解。在第2節中,我們將回顧與ChatGPT相關的現有工作,包括它的應用、倫理考慮和評估。除了討論ChatGPT相關的研究現狀,我們還將在第3節中探討其局限性。此外,還將為語言模型的未來發展方向提供指導。
2 ChatGPT的相關工作
在本節中,我們對ChatGPT的應用、倫理、評價等方面的最新研究進展進行了綜述。
2.1 ChatGPT的應用
2.1.1 問答
在教育領域,ChatGPT通常用于教育領域的問答測試。用戶可以使用ChatGPT學習、比較和驗證不同學科(如物理、數學和化學)的答案,或者概念學科(如哲學和宗教)的答案。此外,用戶可以提出開放式和分析性的問題,以了解ChatGPT的功能**。**在數學領域,Frieder等人構建了由研究生水平數學試題組成的GHOSTS自然語言數據集。作者使用問答格式在GHOSTS數據集上測試了ChatGPT的數學能力,并根據細粒度標準對其進行了評估。在涵蓋簡單集合理論和邏輯問題的Grad文本數據集上,ChatGPT表現最好。然而,在奧林匹克解題數據集上,ChatGPT表現不佳,只得到了兩個4分的分數(總分5分),大部分分數都是2分。在Holes- In - proof數據集中,ChatGPT得到了最低的1分。在數學數據集中,ChatGPT只在26%的案例中獲得了令人印象深刻的分數。這些結果表明,ChatGPT的數學能力明顯低于普通的數學研究生。雖然ChatGPT可以大致理解數學問題,但卻無法提供正確的解決方案。Pardos等人[8]使用開放自適應輔導系統(OATutor)來調查ChatGPT生成的提示是否對學習代數有幫助,來自Mechanical Turk的77名參與者參加了實驗。實驗使用的問題來自OpenStax的初等和中級代數教科書。這些參與者被隨機分配到控制組(有手動提示)或實驗組(有ChatGPT提示)。對于兩門課程中的每一個問題,作者都通過問答形式從ChatGPT中獲取答案,并根據三個標準進行評分:ChatGPT提供了一個答案,答案正確,答案中沒有使用不當的語言。研究發現,ChatGPT生成的提示有70%通過了人工質量檢查,無論是人類還是Chat- GPT都產生了積極的學習收益。然而,人工提示的得分在74.59% - 84.32%之間,明顯高于ChatGPT提示的得分。Shakarian et al.[9]研究了ChatGPT在數學應用題(MWPs)上的表現,使用DRAW-1K數據集進行實驗。該數據集由1000個MWPs和他們的答案組成,以及用于解決此類問題的代數方程模板。作者利用機器學習自省的思想,使用隨機森林和XGBoost構建性能預測模型,并在數據集上使用五折交叉驗證對其進行評估。ChatGPT的準確率從最初的34%提高到最終的69%,而召回率從最初的41%提高到最終的83%。作者還發現,ChatGPT的失敗率從最初的84%下降到最終的20%,這表明,具體的工作要求可能會有很大的差異。
在物理學領域,Lehnert等人[10]通過研究ChatGPT如何處理弦論中的沼澤地猜想等晦澀的物理話題,探索了ChatGPT的能力和局限性。實驗對話從弦理論領域更廣泛、更一般的問題開始,然后縮小到具體的沼澤地猜想,并檢查ChatGPT對這些猜想的理解。研究發現,ChatGPT可以不同地定義和解釋各種風格的概念,但并不能有效地將各種概念真正聯系起來。它會在必要時自信地提供虛假的信息和捏造的陳述,表明ChatGPT不能真正創造新的知識或建立新的連接。然而,在識別類比和描述視覺表征的抽象概念方面,ChatGPT可以巧妙地使用語言。Kortemeyer et al.[11]通過問答測試評估了ChatGPT回答基于微積分的物理問題的能力。測試包括在線作業、點擊器問題、編程練習,以及涵蓋經典力學、熱力學、電學和磁學以及現代物理的考試。雖然ChatGPT能夠通過這門課程,但它也展示了許多初學者普遍存在的誤解和錯誤。West et al.[12]在大學物理第一學期使用力概念量表(Force Concept Inventory, FCI)來評估ChatGPT在回答與運動學和牛頓力學相關的物理概念問題時的準確性。FCI涵蓋了運動學、拋射運動、自由落體、圓周運動和牛頓定律等主題。該研究包括了415名在學期末參加FCI的學生的數據,平均分數為56%,而ChatGPT的分數大約在50%到65%之間。作者論證了ChatGPT在物理學習上的表現可以達到甚至超過一個學期大學物理的平均水平。
在醫學領域ChatGPT的問答功能也可以應用于醫療領域,如回答患者提出的醫療問題或協助醫療專業人員診斷疾病。11月等人[13]評估了使用ChatGPT進行醫患溝通的可行性。實驗從EHR中提取了10個具有代表性的醫患互動,將患者的問題放置在ChatGPT中,并要求ChatGPT使用與醫生的回答大致相同的字數進行回應。每個患者的問題由醫生或ChatGPT回答,并告知患者5個問題由醫生回答,5個問題由ChatGPT生成,并要求患者正確識別回答的來源。實驗結果顯示,正確識別ChatGPT回應的概率為65.5%,而正確識別醫生回應的概率為65.1%。此外,實驗發現,患者對ChatGPT功能可信性的反應為弱陽性(李克特平均得分:3.4),信任隨著問題中健康相關任務復雜性的增加而降低。ChatGPT對患者問題的回答與醫生的回答僅略有不同,但人們似乎信任ChatGPT回答低風險的健康問題,而對于復雜的醫療問題,人們仍然傾向于信任醫生的回答和建議。Tu等[14]探索了ChatGPT在神經性疼痛診斷中的因果發現能力。因果關系發現旨在純粹基于觀察到的數據[15]揭示潛在的未知因果關系。實驗結果發現,ChatGPT在理解新方面存在一定的局限性超越現有文本訓練數據語料庫的知識和概念,即它只理解描述情況常用的語言,而不理解底層知識。此外,它的性能一致性和穩定性不高,因為實驗觀察到,在多次詢問下,它會對同一問題提供不同的答案。然而,盡管ChatGPT有很多局限性,我們相信它在改善因果關系研究方面有很大的機會。
Guo et al.[16]嘗試將ChatGPT應用于通信領域,具體來說是將ChatGPT用于有序重要性語義通信,其中ChatGPT扮演了智能咨詢助手的角色,可以代替人類識別消息中單詞的語義重要性,可以直接嵌入到當前的通信系統中。對于一條要傳輸的消息,發送者首先利用ChatGPT輸出每個單詞的語義重要性排序。然后,發送者基于重要度順序執行不等錯誤保護傳輸策略,使消息中重要單詞的傳輸更加可靠。實驗結果表明,在嵌入ChatGPT的通信系統中測量到的重要單詞的錯誤率和語義損失遠低于現有的通信方案,說明ChatGPT可以很好地保護重要單詞,使語義通信更加可靠。 Wang et al.[17]研究了ChatGPT在為系統文獻搜索生成高質量布爾查詢方面的有效性。他們設計了廣泛的提示,并在100多個系統綜述主題上調查了這些任務。最終,與目前最先進的查詢生成方法相比,ChatGPT生成的查詢取得了更高的準確率,但代價是召回率降低。對于有時間限制的快速評論,以較高的準確率換取較低的召回率通常是可以接受的。此外,ChatGPT可以通過引導提示生成高搜索精度的布爾查詢。然而,需要注意的是,當兩個查詢使用相同的提示符時,ChatGPT會生成不同的查詢,這表明了它在一致性和穩定性上的局限性。總的來說,這項研究證明了ChatGPT在為系統文獻搜索生成有效的布爾查詢方面的潛力。
2.1.2 文本分類
文本分類的目的是將文本數據分配給預定義的類別。這項任務對許多應用至關重要,包括情感分析、垃圾郵件檢測和主題建模。雖然傳統的機器學習算法已被廣泛用于文本分類,但自然語言處理的最新進展導致了更先進技術的發展。ChatGPT在這一領域顯示了巨大的潛力。文獻中的多項研究表明,它能夠準確地對文本進行分類,處理各種分類任務的靈活性,以及可定制的潛力,使其成為文本分類的一個有價值的工具。 Kuzman et al.[18]采用ChatGPT進行自動體裁識別,目標是利用ChatGPT的零樣本分類能力來簡化文本分類任務。他們使用兩種提示語言(EN和SL),與基于多語言模型xln - roberta的X-GENRE分類器在英語數據集EN-GINCO和斯洛文尼亞數據集GINCO上進行了比較。 結果顯示,當使用EN作為提示語言時,ChatGPT實現了Micro F1、Macro F1,準確率得分分別為0.74、0.66、0.72。 但在GINCO數據集上,ChatGPT對EN和SL兩種提示語言的流派識別性能都不同程度地低于x流派分類器。
Amin et al.[19]通過使用ChatGPT執行性格預測、情感分析和自殺意念檢測任務,評估了ChatGPT在情感計算中的文本分類能力。 他們在First Impressions、Sentiment140和Suicide and Depression這三個數據集上對ChatGPT進行了相應的提示,并將其分類性能與RoBERTa-base、Word2Vec和BoW這三個基線模型進行了比較。 結果顯示,ChatGPT在第一印象數據集上對五種人格分類的準確率和UAR均不同程度低于基線方法。 在Sentiment140數據集上,ChatGPT的準確率和UAR分別為85.5和85.5,均優于三種基線方法。 在自殺和抑郁數據集上,ChatGPT的準確率和UAR分別為92.7和91.2,低于表現最好的基線方法RoBERTa。 Zhang et al.[20]采用ChatGPT進行立場檢測,包括支持和反對。 他們使用ChatGPT對SemEval-2016和P-Stance數據集中推文的政治立場進行分類。 SemEval-2016包含4870條英文推文,他們選擇了最常見的FM、LA和HC政治標簽的推文進行立場分類。 P-Stance數據集有21,574條英文推文,他們對針對特朗普、拜登和伯尼的推文進行立場分類。 最終結果顯示,在SemEval- 2016數據集上,ChatGPT在FM、LA和HC政治標簽上的F1-m得分分別達到了68.4、58.2和79.5,F1-avg得分分別達到了72.6、59.3和78.0。 在P-Stance數據集上,ChatGPT在川普、拜登和伯尼政治人物上的F1-m得分分別達到了82.8、82.3和79.4,F1-avg得分分別達到了83.2、82.0和79.4。
Huang等[21]利用ChatGPT檢測推文中的隱式仇恨言論。 他們選取了包含隱式仇恨言論的LatentHatred數據集的12.5%(795條推文),并要求ChatGPT將其分為三類:隱式仇恨言論、非仇恨言論和不確定言論。 結果顯示,ChatGPT正確識別了636條(80%)推文。 被分類為非仇恨言論和不確定言論的推文數量分別為146條(18.4%)和13條(1.6%)。 Amazon Mechanical Turk (Mturk)工人對推文在非仇恨言論和不確定類別中的重分類結果與ChatGPT的分類一致。
總的來說,ChatGPT在文本分類任務中具有巨大的潛力,因為它可以有效地解決體裁識別、情感分析、立場檢測等問題。然而,ChatGPT在文本分類領域仍然面臨挑戰。首先,由于它嚴重依賴訓練數據的分布,因此很難在包含罕見或未出現詞匯的分類任務中表現良好。此外,訓練和使用ChatGPT所需的大量計算資源限制了它在某些應用中的使用。
2.1.3 文本生成
我們生活在一個信息爆炸的時代,文本是傳遞信息的有效方式。信息的多樣性導致了文本類別的多樣性。當研究者使用ChatGPT的文本生成功能進行研究時,不可避免地會選擇生成不同類型的文本。在閱讀論文的過程中,我們發現研究者生成的文本字數從小到大,所以我們想根據文本字數的大小來總結現有的研究。我們將生成的文本分為三個層次:短語、句子和段落。
下面的文章使用ChatGPT來生成短語。Zhang et al.[22]證明了在訓練過程中加入語義增強的語義HAR模型在動作識別方面的表現優于其他模型。語義增強需要共享標記,這在一些數據集上是缺乏的。因此,作者利用ChatGPT為最初沒有共享標記的數據集提供了一種自動標記生成方法。[23]描述了一種新的將自然語言命令轉換為Bash命令的工作流程。作者使用ChatGPT根據用戶輸入生成候選Bash命令列表,然后使用啟發式和機器學習技術相結合的方法對候選命令進行排序并選擇最可能的候選命令。在真實的命令數據集上對該工作流進行了評估,與其他最新的方法相比,取得了較高的準確性。Chen et al.[24]使用Bart模型和ChatGPT來完成幽默標題的總結任務,并比較了兩種模型的性能。研究發現,Bart模型在大型數據集上的表現更好,但ChatGPT在小范圍(48)中與我們最好的微調模型競爭,盡管稍弱。
下面的文章使用ChatGPT來生成句子。Chen等人[25]構建了一個包含場景、時間線、角色屬性和角色關系的對話數據集(HPD),以便使用ChatGPT作為會話代理來生成對話。但是ChatGPT在測試集上的性能較差,存在改進的空間。在[26]研究中,chatGPT通過提供三份虛構的放射學報告給chatGPT進行簡化,展示了其簡化復雜文本的能力。大多數放射科醫生認為簡化后的報告準確完整,對患者沒有潛在的傷害。然而,一些錯誤、遺漏的關鍵醫療信息和文本段落被發現,這可能導致有害的結論,如果醫生不理解。Xia等人提出了一種基于會話的自動程序修復方法(Session-based Automatic program repair, APR)。在APR中,通過將之前生成的補丁與驗證反饋相結合,迭代地構建模型的輸入。使用QuixBugs數據集驗證了該方法的有效性。實驗表明,在兩個修復數據集上,使用人工反饋強化學習(RLHF)微調的ChatGPT優于無監督訓練的Codex。在[28]研究中,ChatGPT與谷歌Translate2、DeepL Translate3和騰訊TranSmart4這三個商業翻譯產品進行了對比。在Flores101測試集上進行評估,使用WMT19生物醫學翻譯任務測試翻譯魯棒性,以BLEU得分為主要指標。研究發現,ChatGPT在高資源的歐洲語言上與商業翻譯產品相比具有競爭力,但在低資源或遙遠的語言上則落后。作者探索了一種名為pivot prompts的有趣策略,它可以顯著提高翻譯性能。雖然ChatGPT在生物醫學摘要或Reddit評論上的表現不如商業系統,但它可能是一個很好的語音翻譯器。Prieto et al.[29]評估了ChatGPT在開發基于自然語言提示的自動化施工進度計劃中的使用。該實驗需要在現有空間中建立新的分區,并提供將要分區的房間的細節。結果表明,ChatGPT能夠生成符合給定范圍要求的一致性調度。然而,仍然有幾個主要的缺陷會限制這個工具在實際項目中的使用。Michail等人[30]提出了一種通過ChatGPT生成帶有親密度評分標簽的推文數據集來提高HeFit微調XLM T模型對推文親密度預測精度的方法。具體操作是將帶有親密度評分標簽的推文輸入ChatGPT,然后輸出相似推文。
下面的文章使用ChatGPT來生成段落。Wang et al.[31]對比了ChatGPT和其他模型在各種跨語言文本數據集上的摘要性能,發現ChatGPT可能在r1、r2、R L和B S. Yang等指標上表現較差。[32]總結了ChatGPT在基于問答的文本摘要中的性能,發現與微調模型相比,ChatGPT在所有性能指標上都略差。然而,這篇文章認為,如果數據集是黃金注釋,ChatGPT的性能可能在這些指標上超過微調模型。Belouadi等人。[33]比較了ByGPT5和ChatGPT在一系列已標記和未標記的英語和德語詩歌數據集上訓練后生成約束風格詩歌的能力,并使用三個指標對其進行評估:韻律、ScoreAlliteration和ScoreMeter分數。結論是ByGPT5的性能優于ChatGPT。Blanco-Gonzalez等人在[34]評測了chatGPT寫評論文章的能力,事實上,這篇文章本身就是ChatGPT寫的。人類作者基于chatGPT的草稿重寫了手稿。專家發現,它可以快速生成和優化文本,以及幫助用戶完成多項任務。然而,在產生新內容方面,它并不理想。最后,可以說,如果沒有強烈的人為干預,chatGPT并不是編寫可靠科學文本的有用工具。它缺乏準確和充分地傳達復雜的科學概念和信息所需的知識和專業知識。Khalil等人對ChatGPT生成內容的原創性進行了探討。為了評估ChatGPT生成的50篇不同主題的論文的原創性,使用了兩種流行的剽竊檢測工具Turnitin和iThenticate。實驗結果表明,ChatGPT在生成抄襲檢測軟件難以捕捉的復雜文本輸出方面具有巨大的潛力。現有的抄襲檢測軟件需要更新其抄襲檢測引擎。Basic等人([36])對使用和不使用ChatGPT-3作為寫作輔助工具的學生的寫作表現進行了比較。實驗分為兩組,每組9名參與者。對照組采用傳統方法撰寫文章,實驗組則以ChatGPT作為輔助。兩位老師對試卷進行了評估。研究表明ChatGPT的輔助并不一定能提高學生的作文質量。Noever et al.[37]討論了使用人工智能(AI),特別是像GPT(包括GPT-3)這樣的語言模型,來創建更有說服力的聊天機器人的潛力,這些聊天機器人可以欺騙人類,使其認為他們正在與另一個人進行交互。這篇文章描述了一系列實驗,在這些實驗中,他們使用GPT-3生成了模仿人類對話的聊天機器人響應,并在人類參與者身上進行了測試。結果顯示,一些參與者無法區分聊天機器人和真實的人類,這突出了這些人工智能聊天機器人被用于欺騙目的的潛力。
2.1.4 代碼生成
代碼生成是指從高層描述或規范自動生成計算機代碼的過程。ChatGPT先進的自然語言處理能力使它能夠執行代碼生成任務。通過分析代碼生成的需求,ChatGPT可以生成準確執行預期功能的代碼片段。這不僅節省了從頭開始編寫代碼的時間和精力,而且還降低了手工編碼過程中可能發生錯誤的風險。此外,ChatGPT學習和適應新的編程語言和框架的能力使其能夠完成更復雜的編程任務。
2.1.5 推理
推理是指從已知的事實或信息中通過邏輯推理得出新的結論或信息的過程。它通常基于一系列前提或假設,并涉及應用邏輯規則或推理方法來得出結論。推理是人類思維中的一種重要能力,常用于解決問題、決策、分析和評價信息等。推理在科學、哲學、法律等領域也起著關鍵作用。有兩種類型的推理:歸納推理,它涉及從已知的事實或經驗中得出一般規則或結論;演繹推理,它涉及從已知的前提或假設中得出特定的結論。無論是歸納還是演繹,推理過程都需要遵循嚴格的邏輯規則,以保證推理的正確性和可靠性。
2.1.6 數據或信息的提取、轉換、增強、處理
2.1.7 Human-ChatGPT協作
人與機器之間的協作是人與機器一起工作以實現共同目標的過程。在這種協作中,人類提供領域專業知識、創造力和決策能力,而機器提供自動化、可擴展性和計算能力。ChatGPT是一種先進的自然語言處理模型,可以理解并生成類人語言,從而降低通信成本。它處理和生成自然語言的能力使其成為人類協作的理想伙伴。ChatGPT可以提供相關建議,根據人類輸入完成任務,提高人類的生產力和創造力。它可以從人類反饋中學習并適應新的任務和領域,進一步提高其在人機協作中的性能。ChatGPT理解自然語言并產生適當響應的能力使它成為各種協作應用程序的有價值的工具,正如我們收集的一些文獻中的研究所證明的那樣。
2.1.8 ChatGPT集成
集成是指組合不同的系統或軟件組件以實現共同的目標。ChatGPT可以作為整體的一部分集成,也可以作為集成工具實現不同系統之間的無縫通信。它的自然語言處理能力使非技術用戶更容易與系統交互,減少了對專業知識或訓練的需求。我們收集的文獻中的一些研究已經證明了這一點。
2.2 人工智能倫理
自ChatGPT問世以來,這種強大的自然語言處理模型在給人們帶來極大便利的同時,也引發了更多的危機意識思考。一些研究者已經開始假設和研究ChatGPT的潛在負面影響。這項前瞻性研究為標準化建設提供了很好的建議,以解決未來的人工智能濫用問題。
3 討論
3.1 限制
盡管ChatGPT和GPT-4具有非凡的能力,但它仍然面臨一定的局限性。其中一些限制包括:
過時的知識
目前的模型是在歷史數據上訓練的(截至2021年),因此缺乏對時事的實時理解。這是當今信息爆炸時代的一個關鍵問題,因為先驗知識庫的可靠性逐漸降低,可能產生不準確的響應,特別是在法學和技術等快速發展的領域。此外,這些模型無法進行事實核查,而訓練數據是由各種來源的內容組成的,其中一些可能是不可靠的,這可能導致看似可信但卻荒謬的回應。
缺失理解
雖然這些模型可以解釋大多數查詢和上下文情況,但在處理模糊或上下文復雜的查詢時,它們偶爾會遇到理解偏差。此外,在某些專業領域,獨特縮寫的豐富加劇了模型的理解挑戰,導致錯誤和空洞的回答。
能源消耗
在整個訓練和推理階段,這些大規模模型需要大量的計算資源和電力,導致能源消耗上升和大量的碳排放。因此,這限制了它們的部署和實際應用。
惡意使用
盡管OpenAI實施了一系列限制以減輕模型毒性,但用戶通過精心設計的提示規避這些限制的實例已經出現,誘導模型產生不健康的內容,甚至將其用于非法商業目的。
偏見和歧視
由于預訓練數據的影響,模型在政治、意識形態和其他領域表現出偏見。llm在公共領域的應用,如教育和宣傳,應該以極其謹慎的態度對待。
隱私和數據安全
隨著用戶規模的擴大,保護用戶隱私和數據安全變得越來越重要。事實上,ChatGPT在4月初就因為隱私問題在意大利被禁了。考慮到模型在交互過程中廣泛收集個人信息和偏好,這一點尤其重要,因為未來的多模態模型,如GPT-4,可能會頻繁要求用戶上傳私人照片。
3.2 未來的方向
在即將到來的研究中,基于ChatGPT和GPT-4的模型的開發可能專注于解決這些限制,以增強其實際應用。 首先,研究人員應該在過濾預訓練數據的同時繼續致力于精煉模型訓練方法,以最大限度地減少模型知識庫中存在的誤導性信息,從而獲得準確的響應。同時,強調節約計算資源的訓練方法至關重要,從而降低成本并拓寬潛在的應用場景。
此外,上下文感知和消歧技術的進步預計將有助于增強對復雜查詢的理解通過模型,提高AI生成內容的準確性、相關性和上下文感知。集成實時數據流還可以使這些模型與當前事件和趨勢保持同步,使它們能夠提供實時的信息,如實時交通、天氣和股票更新。
此外,開發者應該與不同領域的專家進行跨學科合作,包括決策、法學和社會學,目的是為LLM的開發、部署和使用制定標準和倫理框架,從而減輕潛在的有害后果。在公眾意識和教育方面,特別是在K-12教育和新聞等行業,在大規模公共部署和應用之前,應實施強制性的意識培訓,以提高公眾對LLM能力和局限性的認識,同時促進負責任和知情的利用。
最后,ChatGPT和GPT-4的影響不應該僅限于NLP領域。它們在計算機視覺、受大腦啟發的AI和機器人等領域也顯示出了良好的前景。這些模型表現出可與人類水平的智能相媲美的學習和理解能力,將其定位為人工通用智能(AGI)發展中的關鍵組成部分[101]。它們促進人類和機器人之間無縫交互的能力為執行更復雜的任務鋪平了道路。這些模型的零樣本上下文學習的顯著能力使其能夠快速適應新任務,而不需要進行微調的標記數據,這在醫學信息學[102]和機器人[103]等領域是一個關鍵挑戰,在這些領域標記數據的可用性通常有限或不存在。
4 結論
這篇綜述論文對ChatGPT和GPT-4進行了全面的綜述,強調了它們的潛在應用和在自然語言處理領域的重大貢獻。這項研究的發現表明,人們對這些模型的興趣正在迅速增長,它們在廣泛的領域都顯示出了相當大的應用潛力。ChatGPT和GPT-4成功的一個關鍵因素是它們能夠進行大規模的預訓練,從浩瀚的互聯網中捕獲知識,使模型能夠從大量的數據中學習。融合了來自人類反饋的強化學習(RLHF),進一步增強了模型的適應性和性能,使其在處理自然語言方面非常高效。這項研究還發現了幾個與ChatGPT和GPT-4的開發和使用相關的潛在倫理問題。例如,人們擔心產生有偏見或有害的內容,侵犯隱私,以及可能濫用該技術。解決這些擔憂,并確保ChatGPT和GPT-4以負責任和合乎道德的方式開發和使用至關重要。此外,這項研究的結果表明,ChatGPT和GPT-4具有巨大的潛力應用于一系列領域,包括教育、歷史、數學、物理等。這些模型可以促進諸如生成摘要、回答問題以及為用戶提供個性化推薦等任務。總的來說,這篇綜述論文中提出的見解可以為希望推進自然語言處理領域的研究人員和從業人員提供有用的指南。該領域未來的研究應側重于解決倫理問題,探索新的應用,并確保ChatGPT和GPT-4的負責任使用。這些模型革新自然語言處理的潛力是巨大的,我們期待看到這一領域的更多發展。
**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型,它不是通過訓練專門用于醫療問題,**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料,這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外,還進行了實驗,以調查包含文本和圖像的試題對模型性能的影響,探索訓練過程中對內容的記憶,并研究概率的校準,這在醫學等高風險應用中至關重要。結果表明,在沒有任何專門提示的情況下,GPT-4比USMLE的及格分數高出20分以上,并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM,一種快速調整的Flan-PaLM 540B版本)。此外,GPT-4的校準效果明顯優于GPT-3.5,在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為,該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力,并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響,并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17],適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大,各種基準的分數通常都有所提高,包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴,這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中,在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調,以及用于指導模型行為的一般方法,如人工反饋強化學習(RLHF),它可以指導系統更好地理解最終用戶的請求[BJN+22]。
**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近,研究人員調查了基準,這些基準提供了對LLM如何編碼臨床知識的見解,并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節,包括模型參數的數量和訓練數據的大小和范圍尚未公開,但據報道,這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分,可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來,對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志,包括核心概率和決策理論方法(如[GB68, HHN92]),基于規則的產生式系統(如[Sho77, BS84]),語義圖(如[PSS81]),從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17,Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力,但自那以來,它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練,或在大量通用語言和/或視覺信息上進行訓練的基礎模型,然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線,本文評估了GPT-4和GPT-3.5,并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示,并直接推斷答案),發現GPT-4獲得了同類中最好的性能,而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現,這些問題是為評估醫學生和住院醫生的能力而開發的。
本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明,零樣本GPT-4顯著優于早期模型,在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數,而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后,我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外,我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要,評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為,證明了GPT-4解釋醫學推理的能力,并交互式地支持學生圍繞一個醫療案例的反事實場景。最后,研究了研究結果的影響,包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力,同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性,并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統,還有大量工作要做,而且需要非常謹慎。然而,我們期望在現實世界中有多種使用,例如低風險的應用程序,其中包括專家監督作為世代和工作流程的一部分。從長期來看,我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。
在大規模不同數據上預訓練的基礎模型在廣泛的視覺和語言任務中表現出了非凡的能力。當這樣的模型部署到現實世界環境中時,它們不可避免地要與其他實體和智能體進行交互。例如,語言模型通常用于與人類通過對話進行交互,視覺感知模型用于自主導航鄰域街道。為了響應這些發展,新的范式正在出現,用于訓練基礎模型與其他智能體交互并進行長期推理。這些范式利用了為多模態、多任務和通用交互策劃的越來越大的數據集的存在。在基礎模型和決策的交叉點進行研究,為創建強大的新系統提供了巨大的希望,這些系統可以在對話、自動駕駛、醫療健康、教育和機器人等各種應用中有效交互。本文研究了基礎模型決策的范圍,并為理解問題空間和探索新的研究方向提供了概念工具和技術背景。通過提示、條件生成建模、規劃、最優控制和強化學習等各種方法,回顧了地基模型在實際決策應用中的最新方法,并討論了該領域中常見的挑戰和開放問題。
//www.zhuanzhi.ai/paper/2061942c130806abb07d97214c5a7506
1. 引言
**通過自監督學習在廣泛的數據集上預訓練的基礎模型在向不同的下游任務遷移知識方面表現出了卓越的能力[Bommasani等人,2021]。**由于此類模型繼續應用于涉及長期推理[Wei等人2022a]、控制[Brohan等人2022]、搜索[Strohman等人2005]和規劃[Huang等人2022b]的更復雜問題,或部署在對話、自動駕駛、醫療保健和機器人等應用程序中,因此預計它們將與外部實體和代理接口。例如,在對話中,語言模型與人類進行多輪對話;在機器人技術中,感知-控制模型在現實世界環境中執行動作。這些場景為基礎模型提出了新的挑戰,包括(1)如何從外部實體給出的反饋中學習(如人類對對話質量的評級),(2)如何適應大型語言或視覺數據集通常不涵蓋的模態(如機器人動作),以及(3)如何對未來進行長期推理和規劃。
**傳統上,這些問題一直是序列決策的核心[Sutton和Barto 2018],包括強化學習、模仿學習、規劃、搜索和最優控制等領域。**與基礎模型的范式相反,在預訓練中使用了具有數十億圖像和文本標記的廣泛數據集,之前關于序列決策的工作主要集中在特定任務或tabula rasa設置,先驗知識有限[Silver等人,2017]。盡管看似不利的設置,序列決策的研究已經取得了重大進展,在諸如玩棋盤游戲[Tesauro 1994]和雅達利電子游戲[Mnih等人2013],以及操作機器人完成導航[Pomerleau 1988]和操作任務[Kalashnikov等人2018;Akkaya等。2019]。然而,由于這些方法在沒有視覺、語言或其他數據集的廣泛知識的情況下從頭開始學習解決任務,它們通常在泛化和樣本效率方面存在困難,例如,需要7個GPU天的交互式游戲才能解決一個Atari游戲[Agarwal等人2022]。直觀地說,類似于用于基礎模型的廣泛數據集也應該有利于序列決策模型。例如,互聯網上有無數關于如何玩雅達利游戲的文章和視頻。類似地,有大量關于物體和場景屬性的知識,這些知識對機器人很有用,或者關于人類需求和情感的知識,可以改進對話模型。
**雖然基礎模型和序列決策的研究在很大程度上由于不同的應用和焦點而脫節,但在這些社區的交叉點上的活動越來越多。**在基礎模型方面,隨著發現大型語言模型的涌現特性,目標應用程序已經從簡單的零次或少次視覺和語言任務過渡到現在涉及長期推理的問題[Srivastava等人,2022;Wei等。2022b;Lewkowycz et al. 2022]或多重交互[OpenAI 2022]。相反,在序列決策社區,受大規模視覺和語言模型成功的啟發,研究人員已經開始策劃越來越大的數據集,用于學習多模型、多任務和通用交互式智能體[Agarwal等人2020b;Szot等人,2021;Fan等,2022;Brohan等人,2022;Reed等,2022;Lee et al. 2022]。為了進一步模糊兩個領域之間的界限,最近的一些工作研究了使用預訓練基礎模型,如CLIP [Radford等人2021]和ViT [Dosovitskiy等人2020]來引導視覺環境的交互式智能體的訓練[Khandelwal等人2022;Tao等人2022],而其他工作將基礎模型作為通過人工反饋強化學習優化的對話代理進行了研究[Ouyang等人2022],以及其他工作使大型語言模型與搜索引擎等外部工具交互[Komeili等人2021;Thoppilan等人,2022;Lazaridou等人,2022;Shuster等人]。計算器[Cobbe等人,2021;Thoppilan等人2022]、翻譯器[Thoppilan等人2022]、MuJoCo模擬器[Liu等人2022d]和程序解釋器[Gao等人2022]。
**我們在本報告中的前提是,如果聯合考慮,基礎模型和交互式決策的研究可以是互利的。**一方面,基礎模型適應涉及外部實體的任務,可以從交互式地合并反饋和執行長期規劃中受益。另一方面,序列決策可以利用基礎模型的世界知識,更快地解決任務,泛化能力更好。為了推動這兩個領域的交叉研究,我們對決策基礎模型的問題空間進行了范圍界定。本文提供了技術工具來了解該領域當前的研究,回顧了仍然存在的挑戰和開放問題,并推測了克服這些挑戰的潛在解決方案和有希望的方法。
**本報告分為5個主要部分。**在第2節中,我們回顧了序列決策的相關背景和符號,并提供了幾個示例場景,其中基礎模型和決策可以更好地聯合考慮。接下來的三個部分將圍繞基礎模型如何描述決策系統的不同組件進行組織。在第3節中,我們討論了基礎模型如何作為行為的生成模型(例如,技能發現)和環境的生成模型(例如,進行基于模型的推出)。在第4節中,我們討論了基礎模型如何作為狀態、動作、獎勵和遷移動態的表示學習者(例如即插即用的視覺語言模型、基于模型的表示學習)。在第5節中,我們討論了語言基礎模型如何作為交互式智能體和環境,使我們能夠在順序決策框架(語言模型推理、對話、工具使用)下考慮新問題和應用。最后,在第6節中,我們概述了開放的問題和挑戰,并提出了潛在的解決方案(例如,如何利用廣泛的數據,如何構造環境,以及基礎模型和決策的哪些方面可以改進)。
**本文對OpenAI的ChatGPT[1]在機器人應用中的使用進行了實驗研究。**本文概述了一種策略,將prompt工程的設計原則和高級函數庫的創建相結合,使ChatGPT能夠適應不同的機器人任務、模擬器和形狀因素。重點評估了不同的提示工程技術和對話策略對執行各種類型的機器人任務的有效性。探討了ChatGPT使用自由形式對話、解析XML標簽和合成代碼的能力,以及使用特定任務的提示函數和通過對話進行閉環推理的能力。**本文研究涵蓋了機器人領域的一系列任務,從基本的邏輯、幾何和數學推理一直到復雜的領域,如空中導航、操縱和具身智能體。**ChatGPT可以有效地解決其中的幾個任務,同時允許用戶主要通過自然語言指令與之交互。此外,本文還介紹了一個名為PromptCraft的開源研究工具,其中包括一個研究人員可以協作上傳并投票的機器人應用程序的良好提示方案示例的平臺,以及一個集成ChatGPT的機器人模擬器示例,使用戶更容易開始使用ChatGPT機器人。
自然語言處理(NLP)的快速發展導致了大型語言模型(LLMs)的發展,如BERT[2]、GPT-3[3]和Codex[4],這些模型正在對廣泛的應用程序進行革命。這些模型在文本生成、機器翻譯和代碼合成等各種任務中都取得了顯著的效果。這個模型集合的最新成員是OpenAI ChatGPT[1],這是一個預訓練的生成文本模型,使用人類反饋進行了微調。與以前主要基于單個提示符操作的模型不同,ChatGPT通過對話提供了特別令人印象深刻的交互技能,結合了文本生成和代碼合成。我們在本文中的目標是研究ChatGPT的能力是否以及如何推廣到機器人領域。我們將ChatGPT的功能擴展到機器人領域,并使用語言直觀地控制了多個平臺,如機器人手臂、無人機和家庭助理機器人。
你有沒有想過用你自己的語言告訴機器人該做什么,就像你對人類做的那樣?如果只是告訴你的家庭機器人助手:“請把我的午餐熱一下”,然后讓它自己找到微波爐,這不是很神奇嗎?盡管語言是我們表達意圖最直觀的方式,但我們仍然嚴重依賴手寫代碼來控制機器人。我們的團隊一直在探索如何改變這一現實,并使用OpenAI的新AI語言模型ChatGPT使自然的人-機器人交互成為可能。
ChatGPT是一個在大量文本和人類交互語料庫上訓練的語言模型,它可以對各種各樣的提示和問題生成連貫且語法正確的回答。我們這項研究的目標是看看ChatGPT是否能超越文本思考,并對物理世界進行推理,以幫助機器人任務。我們希望幫助人們更容易與機器人互動,而不需要學習復雜的編程語言或機器人系統的細節。這里的關鍵挑戰是教ChatGPT如何解決問題,考慮物理定律,操作環境的上下文,以及機器人的物理行為如何改變世界的狀態。
近年來,在將語言納入機器人系統方面有不同的嘗試。這些工作主要集中在針對特定形式因素或場景使用語言token嵌入模型、LLM特征和多模態模型特征。應用范圍從視覺-語言導航[5,6],基于語言的人機交互[7,8]和視覺-語言操作控制[9,10,11]。然而,盡管在機器人中使用LLMs有潛在的優勢,但大多數現有方法都受到嚴格的范圍和有限的功能集的限制,或其開環性質的限制,不允許從用戶反饋中進行流動交互和行為糾正。當被要求進行高層智能體規劃[12,13]或代碼生成[14,15]時,GPT-3、LaMDA和Codex等模型也在零樣本機器人場景中顯示出希望。這些早期的演示啟發我們研究ChatGPT,將其作為機器人領域的一個潛在的更多功能的工具,因為它結合了自然語言和代碼生成模型的優勢以及對話的靈活性。ChatGPT能夠參與自由形式的對話和捕獲長上下文,允許用戶以更自然的方式與模型交互,并靈活地進行行為矯正。
本文旨在展示ChatGPT在機器人應用中的潛力。我們概述了一個關鍵概念,它解鎖了用ChatGPT解決機器人應用程序的能力,這是創建一個高級函數庫。由于機器人是一個多樣化的領域,存在多種平臺、場景和工具,因此存在各種各樣的庫和api。我們創建了一個簡單的高級函數庫供ChatGPT處理,然后可以在后端鏈接到所選平臺的實際API,而不是要求LLM輸出特定于平臺或庫的代碼,這可能涉及大量的微調。因此,我們允許ChatGPT從自然對話框中解析用戶意圖,并將其轉換為高級函數調用的邏輯鏈。本文還概述了一些幫助ChatGPT解決機器人任務的提示工程指南。
事實證明,ChatGPT本身可以做很多事情,但它仍然需要一些幫助。我們的技術論文描述了一系列設計原則,可用于指導語言模型解決機器人任務。這些包括但不限于特殊的提示結構、高級API和通過文本的人工反饋。我們相信,我們的工作只是我們如何開發機器人系統的轉變的開始,我們希望激勵其他研究人員進入這個令人興奮的領域。繼續閱讀有關我們的方法和想法的更多技術細節。
當今機器人技術的挑戰,以及ChatGPT如何提供幫助
機器人系統與純文本應用不同,需要對現實世界的物理、環境上下文和執行物理動作的能力有深刻的理解。一個生成式機器人模型需要有一個強大的常識知識和一個復雜的世界模型,以及與用戶交互的能力,以物理上可行的方式解釋和執行命令,在現實世界中有意義。這些挑戰超出了語言模型的原始范圍,因為它們不僅必須理解給定文本的含義,還必須將意圖翻譯為物理動作的邏輯序列。
當前的機器人管道從工程師或技術用戶開始,他們需要將任務需求轉換為系統的代碼。工程師在循環中,這意味著他們需要編寫新的代碼和規范來糾正機器人的行為。總的來說,這個過程是緩慢的(用戶需要編寫低級代碼),昂貴的(需要具有深度機器人知識的高技能用戶),并且低效的(需要多次交互才能讓事情正常工作)。
ChatGPT開啟了一種新的機器人范式,并允許(潛在的非技術)用戶參與循環,在監視機器人性能的同時向大型語言模型(LLM)提供高級反饋。通過遵循我們的設計原則,ChatGPT可以為機器人場景生成代碼。在沒有任何微調的情況下,我們利用LLM的知識來控制不同的機器人形狀,以完成各種任務。在我們的工作中,我們展示了多個ChatGPT解決機器人難題的示例,以及在操作、空中和導航領域的復雜機器人部署。 ChatGPT機器人技術:設計原則
LLMs是一門高度經驗主義的科學。通過反復試驗,我們建立了一套方法和一套設計原則,用于為機器人任務編寫提示:
首先,我們定義一組高級機器人api或函數庫。這個庫可以特定于特定的機器人,并且應該映射到機器人的控制棧或感知庫中的現有底層實現。對高級api使用描述性的名稱非常重要,這樣ChatGPT可以推斷它們的行為; * 接下來,我們為ChatGPT編寫一個文本提示,它描述了任務目標,同時也明確說明了高級庫中的哪些函數可用。提示符還可以包含關于任務約束的信息,或者ChatGPT應該如何形成它的答案(使用特定的編碼語言,使用輔助解析元素); * 用戶停留在循環中來評估ChatGPT的代碼輸出,要么通過直接檢查,要么使用模擬器。如果需要,用戶可以使用自然語言向ChatGPT反饋答案的質量和安全。 * 當用戶對解決方案感到滿意時,就可以將最終代碼部署到機器人上。
ChatGPT到底能做什么?
零樣本任務規劃
我們讓ChatGPT訪問控制真正無人機的功能,事實證明,它是非技術用戶和機器人之間非常直觀的基于語言的界面。當用戶的指示模棱兩可時,ChatGPT會提出澄清性問題,并為無人機編寫復雜的代碼結構,如z字形模式以視覺檢查貨架。它甚至學會了自拍!???? 我們還在使用Microsoft AirSim模擬器的模擬工業檢測場景中使用ChatGPT。該模型能夠有效地解析用戶的高層意圖和幾何線索,從而準確地控制無人機。
循環中的用戶:當一個復雜的任務需要對話時
接下來,我們將ChatGPT用于機器人手臂的操作場景。我們使用對話反饋來教模型如何將最初提供的API組合成更復雜的高級函數:ChatGPT自己編碼。通過使用基于課程的策略,該模型能夠將這些學習到的技能邏輯地鏈接在一起,以執行堆疊積木等操作。 此外,當任務是用木塊構建微軟標志時,該模型展示了一個連接文本和物理域的有趣示例。它不僅能夠從其內部知識庫中回憶徽標,還能夠“繪制”徽標(作為SVG代碼),然后使用上述學到的技能來確定現有的機器人動作可以組成其物理形式。
接下來,我們委托ChatGPT編寫一個算法,使無人機在不撞到障礙物的情況下在太空中達到目標。我們告訴模型,這架無人機有一個面向前方的距離傳感器,ChatGPT立即為算法編寫了大多數關鍵的構建模塊。這項任務需要與人類進行一些對話,我們對ChatGPT僅使用語言反饋進行本地化代碼改進的能力印象深刻。
感知-行動循環:機器人在行動之前感知世界
在做某事(行動)之前感知世界(感知)的能力是任何機器人系統的基礎。因此,我們決定測試ChatGPT對這個概念的理解,并讓它探索一個環境,直到找到用戶指定的對象。我們允許模型訪問諸如對象檢測和對象距離API等函數,并驗證了它生成的代碼成功地實現了感知-動作循環。在實驗角色中,我們運行了額外的實驗來評估ChatGPT是否能夠根據傳感器實時反饋來決定機器人應該去哪里(而不是讓ChatGPT生成一個代碼循環來做出這些決定)。有趣的是,我們驗證了我們可以在每一步將相機圖像的文本描述輸入到聊天中,并且該模型能夠弄清楚如何控制機器人,直到它到達特定的對象。
在過去的幾年里,人們已經接受了這樣一個觀點:相對于現有的典型認知測試,對個體認知能力的可靠測量需要參與者完成更多的試驗或使用更大的效應量任務。該項目開發了一套認知控制測試,能夠有效和可靠地測量認知控制能力,這對在時間壓力下的高效表現至關重要。測試組是在Unity游戲引擎中實現的,并且只需要使用不安裝的網頁瀏覽器即可在線訪問。游戲機制(如多樣性、反饋、獎勵和排行榜)和整合的故事情節能夠在持續且苛刻的測試過程中維持用戶粘性。該測試組實現了最突出的認知控制措施,包括:1)工作記憶(單一和雙n-back任務),2)反應抑制(停止信號任務),3)沖突任務(Simon、Flanker和Stroop任務),4)多任務,5)任務切換。不同的度量可以靈活地組合在一個連貫的“房間清理”敘述中,并且獨立的教程可以輕松地部署在線測試。沖突任務的新版本被開發出來,以增加效果大小和可靠性,并在一個在線實驗中對它們進行測試。我們開發了一種嚴格的方法來量化測試產生可靠的個體差異測量的能力,并報告將其應用于實驗數據的結果。我們的結論是,這些新的沖突任務產生了比以前實現的更可靠度量。
認知能力在具有挑戰性和壓力的條件下要求優異表現的職業中很重要,例如體育、民事高風險角色和軍事[1,2,3]。這導致人們越來越重視認知準備[4,5,6],以優化復雜任務和社會技術系統中的團隊表現,這是現代防御設置的一個日益普遍的特征[7]。人們不再強調身體健康[8],隨之而來的是需要確定支撐被稱為心理或認知健康的關鍵心理構念[9,10]。為了優化選擇,評估新興的認知訓練方法和項目的成功或失敗,可靠地測量支撐認知適應的關鍵結構的個體差異尤為重要[11,12,13]。
這篇論文描述了一組認知測試,在時間限制下測量認知能力至關重要的高性能。被稱為“COGMISSION”的測試是使用Unity游戲引擎(//unity.com)以視頻游戲格式實現的。訪問是通過“PlayUR”()提供的,這是一個管理基于web的Unity實驗的平臺,使COGMISSION能夠使用網頁瀏覽器在線訪問,而不需要安裝。《認知使命》通過游戲機制(游戲邦注:如多樣性、反饋、獎勵和排行榜)和整合的故事情節(游戲邦注:旨在通過延長和苛刻的測試過程保持用戶粘性)而得到增強。自包含的教程支持容易部署的大規模測試。在下一節中,我們將描述在COGMISSION中實現的任務、它們度量的結構,以及它們選擇的基本原理。然后,我們回顧了“可靠性悖論”[14],它導致了測試認知適應性的核心構念之一——注意控制——的典型方法無法提供足夠的個體差異測量。隨后,我們描述了一種嚴格的新的統計方法來評估注意力控制任務的能力,以提供足夠可靠的個體差異測量[15]。接下來,我們將報告將該方法應用于一個預先注冊的實驗結果()的結果,該實驗通過Amazon Mechanical Turk ()進行,這是一個面向在線員工的眾包市場,評估在COGMISSION中實施的各種注意力控制任務。
可擴展AI的定義是算法、數據、模型和基礎設施的能力,以執行任務所需的規模、速度和復雜性。
GPT-3: Few-Shot Learning with a Giant Language Model
最近的工作表明,通過對大量文本語料庫進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了實質性進展。雖然這種方法在架構中通常與任務無關,但它仍然需要成千上萬個樣例的特定于任務的微調數據集。相比之下,人類通常只通過幾個例子或簡單的指令就能完成一項新的語言任務——這是目前的NLP系統在很大程度上難以做到的。我將討論GPT-3,這是一種具有1750億個參數的自回歸語言模型,它演示了如何擴大語言模型可以極大地改善與任務無關的、少樣本的性能,有時甚至可以達到與先前的最先進的微調方法相媲美的競爭力。GPT-3可以應用于沒有任何漸變更新或微調的任務,與少數樣本演示指定純粹通過文本與模型的交互。我將概述GPT-3是什么以及它是如何工作的,討論我們從這樣一個系統中看到的功能,以及它們如何啟用與語言模型交互的新方式,此外還將關注這些交互帶來的局限性和更廣泛的問題。
//nlp.stanford.edu/seminar/details/melaniesubbiah.shtml