大型語言模型(LLM)展現出了卓越的能力,且越來越多的研究者開始關注將其作為智能體——能夠將復雜的用自然語言表達的人類目標轉換為在數字環境中(如網頁瀏覽器)執行的一系列動作的系統。實現這一目標需要兩個核心能力:首先是理解任意且組合性的語言輸入的能力;其次是學習未知環境的能力,使得語言目標能夠在有效的多步驟決策中得到實現。本論文解決了這兩個挑戰。
在第一部分,我介紹了樹投影(Tree Projections)這一框架,用于理解變換器(transformer)如何構建組合結構。接著,我展示了一系列基于樹投影的結果,闡明了組合泛化、深刻理解(grokking)和樣本高效學習在變換器中的機制。雖然樹投影有助于解釋成功的泛化,但先前的研究表明,標準的變換器在處理深度遞歸時存在困難,因為它們缺乏應對無界層次深度的機制。為了解決這個問題,我提出了推送層(Pushdown Layers),這是一種通過向變換器中添加基于棧的記憶來進行架構增強的方法。推送層在需要嵌套或遞歸推理的任務上提升了樣本效率和泛化能力。
在第二部分,我介紹了NNetNav和BAGEL,這兩種方法支持在網頁環境中的無監督、開放式探索,使模型能夠在沒有人工監督的情況下自動為新網站收集訓練數據。我們最好的結果來自于使用NNetNav收集的示范對大型語言模型進行微調,NNetNav利用語言的層次結構來引導探索策略。使用NNetNav,我們從20個真實網站收集了10,000個示范,并對一個8B模型進行了微調,創下了無監督方法的新最佳成績,并在多個瀏覽器基準測試中超越了零-shot的GPT-4。
綜合來看,這些貢獻使我們更接近于開發能夠處理語言指令復雜性并能通過與環境互動自主學習的數字語言智能體。
//searchworks.stanford.edu/view/in00000451497
實現人工通用智能(Artificial General Intelligence, AGI)需要開發能夠跨越多種感知模態——不僅限于語言——去感知、理解并與世界交互的模型。盡管自監督學習(self-supervised learning)已在大型語言模型(LLMs)中取得了顯著突破,但在視覺領域復刻這一成功仍面臨重大挑戰,其主要原因在于當前仍高度依賴人工標注數據。本文探討了自監督學習如何突破人類監督的限制,釋放視覺智能的潛力,使模型能夠直接從視覺世界固有的結構與規律中學習。 本論文圍繞這一愿景,展開了多項探索與實踐。首先,我們研究了自監督的視覺世界理解,證明了模型無需依賴如 Segment Anything Model(SAM)等監督方法所需的數十億標注掩膜,也能實現強大的圖像分割性能。相反,我們的工作表明,模型可以通過利用未標注數據中豐富的語義信息,實現“分割任何物體”的能力。其次,論文提出了基于自監督與合成數據的方法,將生成式與判別式視覺模型進行統一,使二者能夠互補,從而同時提升視覺理解與生成能力。再次,論文探討了如何通過自監督去偏學習(debiased learning)構建魯棒的視覺模型,提出了在數據條件不完美的情況下,緩解偏差并增強泛化性的技術方案,并將其置于數據中心(data-centric)的表征學習框架中進行系統化設計。 總體而言,這些工作服務于一個共同目標:構建可擴展的、多模態的視覺智能系統,使其學習方式不再是模仿人工標注,而是主動發現世界的潛在結構! 大型語言模型(Large Language Models,LLMs)[1]–[5],以 GPT 系列為代表,已經從根本上改變了人類處理和交互信息的方式。這些突破由兩個關鍵因素驅動:互聯網規模數據的廣泛可得性,以及無需顯式人類監督的自監督下一詞預測范式。然而,語言只是人類智能的一個狹窄投影。要實現真正的人工通用智能(Artificial General Intelligence,AGI),模型必須整合更豐富的感知模態——涵蓋視覺、物理交互、空間導航與社會動態——遠遠超越僅限于文本的范疇。其中,視覺智能至關重要:它是系統直接從原始像素中解析場景、定位目標、建模組合結構的能力,使其能夠以最少的人類干預感知并推理視覺世界。 遺憾的是,盡管大型語言模型已能通過利用語言的組合性與結構性實現令人印象深刻的泛化,將這些成果擴展到視覺領域仍是一個重大未解難題。與文本不同,視覺數據是連續且高維的,缺乏天然的離散化單元或語義語法。此外,視覺領域的監督學習高度依賴大規模標注數據集,而這些數據集的采集成本高昂,且內容與分布往往存在偏差。 本論文試圖回答:我們能否構建一種通用視覺系統,使其能從視覺數據的自然結構中學習——以極少甚至無需人類監督?我的目標是建立理論基礎與實用的自監督學習(Self-Supervised Learning,SSL)方法,以處理多樣化的真實世界視覺數據,并將其應用于復雜的下游任務。通過增強面向多模態模型的 SSL 技術、最大限度地減少對人工標注數據集的依賴,我力圖開發能夠理解并與環境交互的智能系統,使其在感知、認知與反應方面與人類相媲美,甚至超越人類。 為實現這一目標,我探索了一系列基于自監督學習的技術,從未標注的圖像與視頻中直接獲取以物體為中心的、語義化的、可組合的表征。我著重利用視覺歸納偏置(visual inductive bias)、借助合成信號進行監督,并在統一的 SSL 框架下閉合判別式模型與生成式模型之間的回路。所有這些工作共同體現了一個更宏大的愿景:視覺智能應當從數據的結構中涌現,而非源于標簽的結構。這一觀點挑戰了傳統的監督學習范式,并倡導構建一種無需標簽、數據驅動且可擴展的視覺系統。
語言模型(Language Models, LMs)在自然語言處理(NLP)任務中展現出了卓越的能力,然而要將其潛力充分釋放到具體應用中,仍面臨諸多挑戰。隨著模型規模與復雜度的不斷增長,如何高效且穩健地對其進行適配變得愈發困難。目前主流的方法通常是在帶標簽數據上進行微調(fine-tuning),但該范式往往難以有效利用大量可獲取的無標簽數據,容易在任務特定的小規模數據集上產生過擬合,并且伴隨著高昂的計算開銷。這些限制在現實世界中尤為突出——語言任務與領域的邊界常常是開放且動態變化的。 本論文圍繞如何將語言模型更有效地適配于下游任務,提出了一系列創新方法,旨在從后訓練(post-training)的視角解決模型適配過程中的關鍵難題。首先,我們研究了在標簽資源有限的情況下最大化無標簽數據利用的策略,目標是從無標簽數據中提取與任務相關的知識,以提升模型在特定任務上的表現,并實現更魯棒的任務對齊。相關研究促成了新型的持續預訓練(continued pre-training)技術,其性能優于現有的半監督學習方法。 接著,我們提出了一種新的參數高效微調方法,該方法顯著降低了微調語言模型所需的內存與時間成本,從而在保持競爭性性能的同時,使得微調過程更加高效與可行。此外,我們還改進了有監督微調策略,以增強模型的指令跟隨能力,尤其適用于學習資源受限的情境。這一改進使語言模型在各類 NLP 任務中表現更為出色,特別是在開放式生成任務中,進一步提升了其實用性與靈活性。 為了更好地理解與評估模型在特定下游任務上的適應能力,我們還構建了新的評測基準與評估方法。其中包括用于測試復雜認知能力(如多跳空間推理)的測評工具,提供了更全面、細致的評估維度。 通過在多種 NLP 任務上的廣泛實證評估,我們的研究表明:所提出的方法顯著提升了語言模型在多任務環境中的魯棒性、效率與泛化能力。本文提出的方法代表了邁向更強大、更高效語言模型的重要一步,也為實現通用人工智能(Artificial General Intelligence, AGI)帶來了切實進展。
大語言模型(LLMs)已展現出卓越的能力,越來越多的研究致力于將其作為智能體(agents)使用——即能夠將自然語言表達的復雜人類目標轉化為在數字環境(如網頁瀏覽器)中的一系列操作行為。要實現這一目標,需具備兩個核心能力:第一,理解任意組合性的語言輸入;第二,在陌生環境中自主學習,以便將語言目標有效地落實為多步決策行為。本論文正是圍繞這兩個挑戰展開研究。 在第一部分中,我提出了 Tree Projections 框架,用于理解 Transformer 如何構建組合性結構。隨后,我基于 Tree Projections 提出一系列研究成果,揭示了 Transformer 中組合泛化(compositional generalization)、“頓悟”現象(grokking)以及樣本高效學習的機制。盡管 Tree Projections 有助于解釋模型的泛化能力,已有研究表明標準 Transformer 在處理深層遞歸時表現不佳,其根本原因是缺乏支持無限層級結構的機制。為此,我提出了 Pushdown Layers,一種引入基于棧的記憶機制的結構增強方法。Pushdown Layers 能夠提升模型在嵌套或遞歸推理任務中的樣本效率與泛化能力。 在第二部分中,我介紹了 NNetNav 與 BAGEL,兩種用于網頁環境中無監督、開放式探索的方法,使得模型能夠在無需人工監督的情況下,自動為新網頁采集訓練數據。最佳效果來自于結合 NNetNav 所采集的示范數據對 LLM 進行微調。NNetNav 利用語言的層級結構來引導探索策略。借助 NNetNav,我們從 20 個真實網站中采集了 10,000 條交互示范,并據此微調了一個 80 億參數的模型,在多個網頁瀏覽基準測試中實現了無監督方法的新 SOTA,超越了零樣本設置下的 GPT-4 表現。 總體而言,這些工作將我們更進一步推向具備語言理解與自主交互學習能力的數字語言智能體的發展目標。
語言模型在訓練過程中需要大量的數據,這限制了它們的使用范圍,僅限于能夠滿足這些數據需求的語言。為了將語言技術擴展到更多的語言社區,研究人員開發了多語言模型(MLMs),這些模型基于來自多種語言的數據進行訓練。其理念是,不同語言可以互相支持,因為它們共享共同的模式,這使得模型可以在更多語言中有效使用。
然而,這種方法在技術和社會層面上都帶來了新的挑戰。當一個模型在多種語言上進行訓練時,這些語言會開始爭奪有限的模型容量,這可能導致負面干擾,降低模型的有效性。此外,為了將多語言模型部署到文化多樣的社區,它們的輸出需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型也必須具備內在的多文化特征。 在本論文中,我們探討了如何構建更有效的多語言模型,以減輕跨語言的負面干擾,并研究多語言訓練對它們所編碼的社會偏見和文化價值觀的影響。 近年來,自然語言處理(NLP)領域在多種任務中取得了快速的性能提升。這一成功在很大程度上歸因于大規模自監督預訓練方法的發展,這些方法繞過了對大量人工標注數據集的需求。然而,大規模預訓練仍然需要海量文本數據,使得這些技術的有效性在很大程度上依賴于特定語言所能提供的資源量。這嚴重限制了NLP的進展,僅限于能夠滿足這些文本需求的少數幾種語言(Hedderich等人,2021)。因此,這導致了不同語言社區之間在語言技術的質量和可用性上的差異(O’Horan等人,2016;Joshi等人,2020)。為了彌合這一差距,并將大規模預訓練的優勢擴展到低資源語言,研究人員集中開發了更廣泛適用于多種語言的模型。這激發了對多語言NLP領域的重新關注,并促成了基于多語言文本聯合訓練的單一模型的發展,即多語言語言模型(MLMs)。多語言聯合訓練的直覺是,它促進了語言之間的信息共享。通過這樣做,語言能夠通過利用它們的共同點來相互支持,并創造一個共享的多語言語義空間。這樣做的好處是多方面的:它限制了低資源語言的文本需求,更好地支持少樣本或零樣本的跨語言模型遷移,并允許模型對新(未見過的)語言進行泛化。 然而,盡管語言模型(LMs)已經變得越來越多語言化,在預訓練過程中涵蓋了100多種語言,但當前的多語言建模設計仍然帶來了新的技術和社會挑戰。特別是,先前的研究表明,多語言聯合學習會受到負面干擾的影響——即有利于某一語言的參數更新,卻會損害其處理另一種語言的能力——這削弱了多語言建模的優勢,尤其是在低資源語言上(Arivazhagan等人,2019;Wang等人,2020;Ansell等人,2021)。此外,多語言的“詛咒”意味著,在某些時刻,有限的模型容量阻止了MLMs進一步學習更多語言(Conneau等人,2020a)。這提出了一些有趣的問題:(1)當前的MLMs如何學習跨語言編碼和共享信息;(2)我們如何更好地引導MLMs中的信息共享,以實現跨語言共享中的正向知識遷移與負面干擾之間的最佳平衡。 此外,除了技術挑戰,MLMs在實踐中的應用還面臨著社會層面的挑戰。尤其是,MLMs的一個限制因素是,為了將它們部署到文化多樣的社區中,它們不僅需要在生成多語言文本方面表現出色,而且它們的輸出還需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型在功能上也必須具備內在的多文化特性。然而,由于MLMs是基于來自全球多種語言文本的拼接進行訓練的,我們可以預期它們會同時編碼不同甚至相反的社會偏見。目前,尚不清楚跨文化價值觀的互動如何在MLMs中體現出來。此外,已有研究表明,語言模型在實際應用中與人類價值觀對齊并不完全,進而開啟了關于如何改進語言模型對齊的一條全新研究路線(Shen等人,2023)。 盡管多語言NLP近年來取得了巨大進展,但多文化NLP領域仍處于起步階段。因此,本論文研究了MLMs在技術和社會挑戰方面的問題。具體而言,我們探討了如何構建更有效的MLMs,以減輕負面干擾,并研究聯合多語言訓練對MLMs中編碼的社會偏見和文化價值觀的影響。
近年來,語言模型(Language Models, LMs)在多種自然語言處理(NLP)任務中取得了顯著進展。然而,這些模型的學習能力與人類之間仍存在明顯差距。其中一個主要區別在于學習的效率與靈活性。人類可以通過少量帶標簽的樣本迅速掌握新概念,并能在一生中持續學習新任務而不會遺忘先前獲得的知識。相比之下,語言模型通常需要大量數據才能實現有效泛化,并在適應新任務或不同數據分布時容易出現災難性遺忘(catastrophic forgetting)的問題,即忘記之前已學到的知識。
本論文聚焦于解決這些挑戰,圍繞人類類學習(human-like learning)的兩個核心方面展開研究:(1) 小樣本學習(few-shot learning),即語言模型需能從有限的標簽數據中有效泛化;(2) 持續(終身)學習(continual/lifelong learning),即模型在連續任務中學習時能夠保留并積累知識。圍繞這兩個目標,我們提出了一系列新穎的框架與學習算法,旨在使語言模型成為更高效、類人化的學習者,能夠從少量樣本中學習并適應不斷變化的數據分布,同時避免災難性遺忘。
首先,我們提出了**元提示調優(Meta Prompt Tuning, MPT)**方法,該方法通過從相關任務中學習提示向量的初始化,系統探索了元學習(meta-learning)在提升跨任務小樣本泛化中的潛力。通過大量實驗與分析,我們驗證了MPT在多種源任務/目標任務配置下的有效性與局限性。
接下來,我們研究了**終身序列生成(Lifelong Sequence Generation, LSG)問題,即在一系列生成任務中持續訓練模型,使其能夠不斷學習新模式的同時保留先前任務中的知識。受人類學習過程啟發,我們提出了動態模塊擴展與自適應(Dynamic Module Expansion and Adaptation, DMEA)**框架,使模型能夠根據任務間相關性動態調整結構,并選擇最相關的先前任務以輔助新任務的適應。
在此基礎上,我們進一步挑戰更復雜且更現實的學習場景:持續小樣本學習(Continual Few-Shot Learning)。在該場景下,模型不僅需從少量樣本中學習新任務,還需適應任務序列的不斷演化,貼近人類增量式學習過程。鑒于關系抽取(relation extraction)是眾多NLP下游任務的基礎,我們提出了**持續小樣本關系學習(Continual Few-shot Relation Learning, CFRL)問題,并通過嵌入空間正則化與數據增強(Embedding space Regularization and Data Augmentation, ERDA)**方法進行解決。
最后,考慮到當前語言模型在處理多種任務方面已具備強大能力,我們提出了一種新的學習范式:終身小樣本語言學習(Lifelong Few-shot Language Learning, LFLL),并構建了統一框架LFPT5,該框架基于提示調優(prompt tuning),能夠靈活適應新類型任務或新領域,同時保留已學知識。
本論文在提升語言模型學習效率、靈活性與適應性方面做出重要貢獻,使其更適用于數據稀缺、不斷演化的現實應用環境。通過融合小樣本學習與持續學習的研究進展,我們朝著構建不僅性能優異且認知能力更接近人類的語言模型邁出了堅實一步。最終,本研究表明,語言模型可以成為更穩健、多能、適應性更強的學習體,不再依賴大規模標注數據,而是邁向一種更類人、更智能的學習范式。
基于 Transformer 的預訓練語言模型(Pre-trained Language Models, PLMs)借助海量自然語言文本進行訓練,極大地推動了自然語言處理(Natural Language Processing, NLP)領域的迅猛發展。這些模型已被廣泛應用于各種下游任務中,并通過微調(fine-tuning)或小樣本學習(few-shot learning)等方式展現出優異性能,在若干任務中甚至超越了人類水平。
由于這些顯著的實驗成果,業界逐漸形成一種普遍觀點,認為 PLMs 擁有廣泛的世界知識,并具備理解自然語言的能力。然而,已有大量研究指出,PLMs 在自然語言理解方面仍存在內在缺陷。多項實驗證明,PLMs 在處理否定表達、數值相關知識等方面存在明顯不足。同時,也有研究發現,PLMs 可能展現出邏輯上錯誤的行為,與人類的推理過程顯著偏離。這些不可靠行為引發了廣泛關注,嚴重影響了模型的可信度,進而限制其在高風險領域(如醫療、金融、法律等)的應用。
在此背景下,本文聚焦于從“一致性”角度提升語言模型(Language Models, LMs)的可信度。盡管已有研究嘗試探索 LMs 的一致性行為,并致力于構建更具一致性的增強模型,但這些工作仍存在關鍵性不足:
首先,不同研究對“一致性”的定義各不相同,導致當前研究碎片化,缺乏統一和全面的評估體系。定義的不一致也使得已有緩解方法僅能覆蓋某一類一致性問題,而無法泛化到其他一致性類型。
其次,提升一致性行為的方法普遍依賴大量資源。例如,最常見的技術為數據增強(Data Augmentation),即收集符合某一特定一致性類型的額外數據;或一致性正則化(Consistency Regularisation),即引入額外損失函數對模型的不一致行為進行懲罰。雖然某些一致性類型可通過自動化手段收集(如利用對稱性屬性),但大多數策略仍需大量語言資源或人工干預,以保證數據質量,從而使其在低資源語言或資源受限研究者中難以實現。此外,額外的數據增強與正則化訓練目標也顯著增加了模型參數更新時的計算成本,尤其是在當代大模型參數規模急劇增長的背景下(如 GPT-4),這一問題更為突出。
為解決上述問題,本文提出了以下三方面改進:
統一定義與分類體系:首先,我們基于“行為一致性”(behavioural consistency)的概念,提出了一套系統化的一致性定義與分類方法,將現有研究中涉及的一致性類型劃分為三個互斥類別,構建出統一的研究框架。
基準數據集構建:其次,本文構建了一個統一的基準數據集,用于在多種下游任務中評估不同類型的一致性行為,旨在實現全面、系統的性能評估。
高效可行的一致性增強方法:最后,我們提出了一種高效、實用的一致性增強方法。該方法通過學習詞典數據中的“概念角色”(conceptual roles),幫助模型精準理解語言意義,并將這一增強后的表示與現有語言模型進行融合。該融合通過參數整合方式實現,在保持極低計算資源需求的前提下,有效提升模型能力。
大量實驗證據表明,本文工作有以下兩項重要發現:
不論模型的大小、架構或訓練目標如何,當前主流語言模型在多個測試場景中都存在明顯的不一致行為,未有任何模型在所有一致性類型與下游任務中都保持一致性;
與現有方法相比,本文提出的策略能同時提升多種一致性類型的表現,這一能力是以往方法所不具備的。同時,該方法在計算資源使用上更為節省,且適用于非英語的低資源語言環境。
強化學習是一種優化決策的框架,考慮到行動的長期后果。
強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。
在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。
首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。
近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。
//searchworks.stanford.edu/view/14784050
盡管語言模型(LMs)在現實應用中無處不在(例如,網頁搜索,文本自動完成和內容生成),但大多數LMs并沒有針對人類用戶與LMs的交互進行優化,也沒有在這方面進行評估。為了解決這一缺口,本論文專注于設計和評估用于人機交互的LMs。我們首先關注作者在修訂過程中遇到的一個特定需求:在給定周圍環境的情況下提出內容。為了支持這種需求,我們提出了一種訓練方法,使任何預先訓練過的LMs都能完成填空任務,有助于更好地促進人機交互。其次,我們構建了一個平臺,CoAuthor,用于捕獲人機交互的交互痕跡。通過CoAuthor,我們展示了如何收集大規模交互數據集并分析這些痕跡,從而對LM在語言,思想發展和協作方面的能力提供獨特的見解。最后,我們提出了一個新的評估框架,人工智能語言交互評估(HALIE),該框架定義了交互系統的組成部分以及超越寫作任務的人機交互任務的度量標準。最后,我們討論了這個領域的開放性挑戰和未來的發展方向。
在飛速變化的環境中撰寫論文是一種特殊的嘗試。自然語言處理(NLP)領域正在經歷一個不斷變化和創新的時代,本論文旨在捕捉該領域的一個快照,并從這個不斷變化的景觀中研究一種永恒的質量:設計和評估用于人類交互的語言模型(LMs)。自我開始博士研究以來,LMs至少可以說發展迅猛。在2017年,構建LM的最常見方式是選擇一個特定任務,收集一個定制的數據集,設計一個定制的模型,并從頭開始訓練定制的模型,正如我在我第一個項目中所演示的那樣(Lee等人,2019)。到了2023年,即使沒有NLP或編程的先前知識,我們也可以通過API或簡單用戶界面對預訓練的LMs進行提示,快速“構建”并與LMs進行交互,以執行廣泛的任務,正如我在后續項目中所演示的那樣(Lee等人,2022a,b,Bommasani等人,2023)。
然而,盡管近期的語言模型(LMs)具有前所未有的能力和廣泛的應用(Radford等人,2019; Brown等人,2020; Rae等人,2021; Zhang等人,2022; Chowdhery等人,2022; Lieber等人,2021; OpenAI, 2022, 2023),但在NLP領域的大部分現有LM研究主要側重于非交互場景:給定一個輸入文本,模型生成一個輸出文本,只關注輸出的質量。在這種情況下,人類的參與要么被忽視,要么限于特定的目的或形式,如對模型輸出的人類評估(Ribeiro等人,2020; Kiela等人,2021)或像對話那樣的嚴格交互(Paranjape等人,2020; Thoppilan等人,2022; Shuster等人,2022)。幾乎所有的基準測試,即使是那些包含了多樣任務的基準測試(Gehrmann等人,2021; Hendrycks等人,2021; Liang等人,2022),也都采取了這種非交互的視角。與此相反,我的工作的中心論點是將交互置于LM設計和評估的最前沿。以問答任務為例,與其構建一個孤立運作的模型(即,將預定義的問題作為模型輸入,并將模型輸出與靜態基準中的預定義答案進行比較),我更注重交互場景。在這種場景下,用戶參與到一個迭代的過程中,寫下問題,詢問(或查詢)模型,解讀并處理模型輸出,根據輸出調整他們的問題,并隨著他們對模型的了解逐漸適應他們的策略。我在故事寫作上的工作也遵循了類似的哲學(Lee等人,2022a)。我努力開發的LM并不是可以自行生成整個故事的模型(圖1.1a),而是能夠增強和支持我們的寫作過程的模型(圖1.1b),可能通過生成部分故事來讓用戶選擇和調整。這種對LM的交互式使用與Engelbart(1962)、Skagestad(1993, 1996)、Shneiderman和Maes(1997)、Horvitz(1999)、Hassani等人(2020)、Brynjolfsson(2022)、Shneiderman(2022)的觀點相吻合,其最終目標是增強人類能力,而不是自動化它們(即,智能增強)。 對于人機交互(HCI)社區來說,近期的語言模型(LMs)為新穎的交互設計提供了令人興奮的機會。我們開始看到許多應用和原型利用LMs進行快速原型制作和設計新穎的自然語言交互(Calderwood等人,2020;Buschek等人,2021;Wang等人,2021;Chen等人,2021;Chakrabarty等人,2022;Ippolito等人,2022;Valencia等人,2023)。為了研究LMs的生成能力,HCI中最傳統的方法是情境詢問,邀請并訪問用戶(Calderwood等人,2020;Clark等人,2018b;Gero和Chilton,2019;Wu等人,2020, 2022;Yang等人,2019a)。然而,由于情境詢問的時間和資源密集性,它在捕捉LM能力的主觀解釋方面更有效,而在涵蓋多樣化的上下文方面則較為欠缺。 我的研究核心是交互跡線,即在人類用戶和LMs交互過程中展開的事件序列(圖1.1b)。這些跡線包含了各種行為,包括按鍵操作,光標移動,系統查詢,以及通過系統建議進行導航。它們包含豐富的信息,捕獲了人機交互的動態性,提供了對LMs在交互場景中能力的深入了解。例如,通過檢查用戶查詢的頻率,我們可以量化用戶對LMs的依賴程度,以及LM響應的幫助程度。此外,交互跡線還能讓我們了解用戶在與LMs交互時采取的策略,以及交互的時間屬性。最后但同樣重要的是,利用交互跡線可以覆蓋各種上下文,因為設計者可以一次性大規模捕捉人機交互,并將其重復使用并多次回放以便于分析。 我相信,通過利用這些交互跡線,NLP和HCI社區可以設計出更有針對性和以用戶為中心的LM開發和部署方法。 這篇論文包括以下章節: ? 第二章通過提供有關語言模型(LMs)、人機交互和人機交互在寫作中的設計空間的背景,為后續章節建立基礎理解。 ? 第三章深入探討了一個特定的交互環境,即寫作的修訂過程,并關注了大多數LMs無法直接解決的用戶需求。具體來說,我們提出了一種訓練方法,使LMs能夠填補空白(即,文本填充)。 ?** 第四章介紹了CoAuthor,這是一個設計用來捕捉和分析協同寫作中的人機交互的平臺**。該平臺促進了交互跡線的收集,產生了一個豐富且可以重復分析的數據集。通過使用這個數據集,我展示了如何通過檢查這些交互跡線,對LM在語言、創意和協作等方面的能力獲得無比寶貴的見解。 ? 第五章提出了一個新的評估框架,即人工智能基于語言的交互評估(HALIE),它定義了交互系統的基本組成部分,并引入了新的評估指標,用于評估人機交互超越寫作相關任務的性能。這個框架涵蓋了更廣泛的交互場景,使得可以全面理解和評估LM在各種情境下的性能。 ?** 第六章討論了人機交互領域內的開放性挑戰,以激發更深入的研究和創新**。 論文中的一部分工作已經在學術會議上發表。第三章基于Donahue等人的研究(2020),該研究在2020年的計算語言學協會(ACL)上發表。第四章基于Lee等人的材料(2022a),該材料在2022年的人機交互系統會議(CHI)上發表。第五章基于Lee等人的研究(2022b),該研究目前正在審查中。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。