亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

語言模型在訓練過程中需要大量的數據,這限制了它們的使用范圍,僅限于能夠滿足這些數據需求的語言。為了將語言技術擴展到更多的語言社區,研究人員開發了多語言模型(MLMs),這些模型基于來自多種語言的數據進行訓練。其理念是,不同語言可以互相支持,因為它們共享共同的模式,這使得模型可以在更多語言中有效使用。

然而,這種方法在技術和社會層面上都帶來了新的挑戰。當一個模型在多種語言上進行訓練時,這些語言會開始爭奪有限的模型容量,這可能導致負面干擾,降低模型的有效性。此外,為了將多語言模型部署到文化多樣的社區,它們的輸出需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型也必須具備內在的多文化特征。 在本論文中,我們探討了如何構建更有效的多語言模型,以減輕跨語言的負面干擾,并研究多語言訓練對它們所編碼的社會偏見和文化價值觀的影響。 近年來,自然語言處理(NLP)領域在多種任務中取得了快速的性能提升。這一成功在很大程度上歸因于大規模自監督預訓練方法的發展,這些方法繞過了對大量人工標注數據集的需求。然而,大規模預訓練仍然需要海量文本數據,使得這些技術的有效性在很大程度上依賴于特定語言所能提供的資源量。這嚴重限制了NLP的進展,僅限于能夠滿足這些文本需求的少數幾種語言(Hedderich等人,2021)。因此,這導致了不同語言社區之間在語言技術的質量和可用性上的差異(O’Horan等人,2016;Joshi等人,2020)。為了彌合這一差距,并將大規模預訓練的優勢擴展到低資源語言,研究人員集中開發了更廣泛適用于多種語言的模型。這激發了對多語言NLP領域的重新關注,并促成了基于多語言文本聯合訓練的單一模型的發展,即多語言語言模型(MLMs)。多語言聯合訓練的直覺是,它促進了語言之間的信息共享。通過這樣做,語言能夠通過利用它們的共同點來相互支持,并創造一個共享的多語言語義空間。這樣做的好處是多方面的:它限制了低資源語言的文本需求,更好地支持少樣本或零樣本的跨語言模型遷移,并允許模型對新(未見過的)語言進行泛化。 然而,盡管語言模型(LMs)已經變得越來越多語言化,在預訓練過程中涵蓋了100多種語言,但當前的多語言建模設計仍然帶來了新的技術和社會挑戰。特別是,先前的研究表明,多語言聯合學習會受到負面干擾的影響——即有利于某一語言的參數更新,卻會損害其處理另一種語言的能力——這削弱了多語言建模的優勢,尤其是在低資源語言上(Arivazhagan等人,2019;Wang等人,2020;Ansell等人,2021)。此外,多語言的“詛咒”意味著,在某些時刻,有限的模型容量阻止了MLMs進一步學習更多語言(Conneau等人,2020a)。這提出了一些有趣的問題:(1)當前的MLMs如何學習跨語言編碼和共享信息;(2)我們如何更好地引導MLMs中的信息共享,以實現跨語言共享中的正向知識遷移與負面干擾之間的最佳平衡。 此外,除了技術挑戰,MLMs在實踐中的應用還面臨著社會層面的挑戰。尤其是,MLMs的一個限制因素是,為了將它們部署到文化多樣的社區中,它們不僅需要在生成多語言文本方面表現出色,而且它們的輸出還需要對這些社區的社會文化規范和偏見保持敏感。這就要求多語言模型在功能上也必須具備內在的多文化特性。然而,由于MLMs是基于來自全球多種語言文本的拼接進行訓練的,我們可以預期它們會同時編碼不同甚至相反的社會偏見。目前,尚不清楚跨文化價值觀的互動如何在MLMs中體現出來。此外,已有研究表明,語言模型在實際應用中與人類價值觀對齊并不完全,進而開啟了關于如何改進語言模型對齊的一條全新研究路線(Shen等人,2023)。 盡管多語言NLP近年來取得了巨大進展,但多文化NLP領域仍處于起步階段。因此,本論文研究了MLMs在技術和社會挑戰方面的問題。具體而言,我們探討了如何構建更有效的MLMs,以減輕負面干擾,并研究聯合多語言訓練對MLMs中編碼的社會偏見和文化價值觀的影響。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

大型語言模型(LLM)展現出了卓越的能力,且越來越多的研究者開始關注將其作為智能體——能夠將復雜的用自然語言表達的人類目標轉換為在數字環境中(如網頁瀏覽器)執行的一系列動作的系統。實現這一目標需要兩個核心能力:首先是理解任意且組合性的語言輸入的能力;其次是學習未知環境的能力,使得語言目標能夠在有效的多步驟決策中得到實現。本論文解決了這兩個挑戰。

在第一部分,我介紹了樹投影(Tree Projections)這一框架,用于理解變換器(transformer)如何構建組合結構。接著,我展示了一系列基于樹投影的結果,闡明了組合泛化、深刻理解(grokking)和樣本高效學習在變換器中的機制。雖然樹投影有助于解釋成功的泛化,但先前的研究表明,標準的變換器在處理深度遞歸時存在困難,因為它們缺乏應對無界層次深度的機制。為了解決這個問題,我提出了推送層(Pushdown Layers),這是一種通過向變換器中添加基于棧的記憶來進行架構增強的方法。推送層在需要嵌套或遞歸推理的任務上提升了樣本效率和泛化能力。

在第二部分,我介紹了NNetNav和BAGEL,這兩種方法支持在網頁環境中的無監督、開放式探索,使模型能夠在沒有人工監督的情況下自動為新網站收集訓練數據。我們最好的結果來自于使用NNetNav收集的示范對大型語言模型進行微調,NNetNav利用語言的層次結構來引導探索策略。使用NNetNav,我們從20個真實網站收集了10,000個示范,并對一個8B模型進行了微調,創下了無監督方法的新最佳成績,并在多個瀏覽器基準測試中超越了零-shot的GPT-4。

綜合來看,這些貢獻使我們更接近于開發能夠處理語言指令復雜性并能通過與環境互動自主學習的數字語言智能體。

//searchworks.stanford.edu/view/in00000451497

付費5元查看完整內容

語言模型(Language Models, LMs)在自然語言處理(NLP)任務中展現出了卓越的能力,然而要將其潛力充分釋放到具體應用中,仍面臨諸多挑戰。隨著模型規模與復雜度的不斷增長,如何高效且穩健地對其進行適配變得愈發困難。目前主流的方法通常是在帶標簽數據上進行微調(fine-tuning),但該范式往往難以有效利用大量可獲取的無標簽數據,容易在任務特定的小規模數據集上產生過擬合,并且伴隨著高昂的計算開銷。這些限制在現實世界中尤為突出——語言任務與領域的邊界常常是開放且動態變化的。 本論文圍繞如何將語言模型更有效地適配于下游任務,提出了一系列創新方法,旨在從后訓練(post-training)的視角解決模型適配過程中的關鍵難題。首先,我們研究了在標簽資源有限的情況下最大化無標簽數據利用的策略,目標是從無標簽數據中提取與任務相關的知識,以提升模型在特定任務上的表現,并實現更魯棒的任務對齊。相關研究促成了新型的持續預訓練(continued pre-training)技術,其性能優于現有的半監督學習方法。 接著,我們提出了一種新的參數高效微調方法,該方法顯著降低了微調語言模型所需的內存與時間成本,從而在保持競爭性性能的同時,使得微調過程更加高效與可行。此外,我們還改進了有監督微調策略,以增強模型的指令跟隨能力,尤其適用于學習資源受限的情境。這一改進使語言模型在各類 NLP 任務中表現更為出色,特別是在開放式生成任務中,進一步提升了其實用性與靈活性。 為了更好地理解與評估模型在特定下游任務上的適應能力,我們還構建了新的評測基準與評估方法。其中包括用于測試復雜認知能力(如多跳空間推理)的測評工具,提供了更全面、細致的評估維度。 通過在多種 NLP 任務上的廣泛實證評估,我們的研究表明:所提出的方法顯著提升了語言模型在多任務環境中的魯棒性、效率與泛化能力。本文提出的方法代表了邁向更強大、更高效語言模型的重要一步,也為實現通用人工智能(Artificial General Intelligence, AGI)帶來了切實進展。

付費5元查看完整內容

近年來,大型語言模型(Large Language Models, LMs)的研究主要集中于擴大模型參數規模和訓練數據量,這雖然能顯著提升性能,卻也帶來了高昂的計算成本。此外,傳統的參數化語言模型本質上難以適應未知領域、編輯已學知識、保留長尾知識,并且容易泄露訓練語料中的隱私數據。本論文旨在探索在解決上述問題的同時擴展語言模型的新路徑。

首先,我們研究了具備檢索增強能力的語言模型,即語言模型通過外部數據存儲進行預測。我們提出了一種新穎的端到端訓練方法 Trime,該方法能夠聯合優化語言模型與檢索模型。實驗結果表明,Trime 能在不增加模型規模或計算預算的前提下,顯著提升語言模型的性能。此外,使用 Trime 訓練的檢索增強語言模型能有效適應此前未見的領域。

其次,我們聚焦于語言模型中的一個核心挑戰:編輯模型參數中存儲的知識。這是一個至關重要但尚未充分解決的問題,因為現實世界的信息是不斷變化的。我們調研了當前最先進的知識編輯方法,并發現現有的評估范式非常有限。為此,我們提出了一個新的基準測試集 MQuAKE,其中包含多跳問題,用于評估模型在知識更新后是否能正確推理出由新事實所引出的變化。實驗顯示,現有的知識編輯方法在這些多跳問題上表現不佳。我們進一步提出了一種簡單的檢索增強方案,將所有編輯后的事實外部存儲,性能遠超現有方法。

第三,我們探索了通過條件計算機制擴展語言模型以降低計算成本。我們重點研究了“專家混合”(Mixture-of-Experts, MoE)機制,這是一種廣泛應用的條件計算方法,適用于高效擴展語言模型。然而,訓練 MoE 的路由網絡面臨非可微、離散目標優化的難題。為此,我們提出了一種全可微的 MoE 架構 —— Lory,用于自回歸語言模型的預訓練。該架構基于兩個關鍵技術:(1)因果段路由策略,用于高效整合專家計算結果;(2)基于相似度的數據批處理方法,以提升專家的專精化能力。盡管采用了基于段的路由方式,Lory 模型在性能上仍能與采用基于 token 路由的最先進 MoE 模型競爭,同時還能體現出領域級的專精能力。

總體而言,我們的研究揭示了一種新的語言模型擴展范式,在根本上解決了現有模型的關鍵限制,并推動了更高效、更強大、更具適應性與可更新性的語言模型的發展。

付費5元查看完整內容

近年來,語言模型(Language Models, LMs)在多種自然語言處理(NLP)任務中取得了顯著進展。然而,這些模型的學習能力與人類之間仍存在明顯差距。其中一個主要區別在于學習的效率與靈活性。人類可以通過少量帶標簽的樣本迅速掌握新概念,并能在一生中持續學習新任務而不會遺忘先前獲得的知識。相比之下,語言模型通常需要大量數據才能實現有效泛化,并在適應新任務或不同數據分布時容易出現災難性遺忘(catastrophic forgetting)的問題,即忘記之前已學到的知識。

本論文聚焦于解決這些挑戰,圍繞人類類學習(human-like learning)的兩個核心方面展開研究:(1) 小樣本學習(few-shot learning),即語言模型需能從有限的標簽數據中有效泛化;(2) 持續(終身)學習(continual/lifelong learning),即模型在連續任務中學習時能夠保留并積累知識。圍繞這兩個目標,我們提出了一系列新穎的框架與學習算法,旨在使語言模型成為更高效、類人化的學習者,能夠從少量樣本中學習并適應不斷變化的數據分布,同時避免災難性遺忘。

首先,我們提出了**元提示調優(Meta Prompt Tuning, MPT)**方法,該方法通過從相關任務中學習提示向量的初始化,系統探索了元學習(meta-learning)在提升跨任務小樣本泛化中的潛力。通過大量實驗與分析,我們驗證了MPT在多種源任務/目標任務配置下的有效性與局限性。

接下來,我們研究了**終身序列生成(Lifelong Sequence Generation, LSG)問題,即在一系列生成任務中持續訓練模型,使其能夠不斷學習新模式的同時保留先前任務中的知識。受人類學習過程啟發,我們提出了動態模塊擴展與自適應(Dynamic Module Expansion and Adaptation, DMEA)**框架,使模型能夠根據任務間相關性動態調整結構,并選擇最相關的先前任務以輔助新任務的適應。

在此基礎上,我們進一步挑戰更復雜且更現實的學習場景:持續小樣本學習(Continual Few-Shot Learning)。在該場景下,模型不僅需從少量樣本中學習新任務,還需適應任務序列的不斷演化,貼近人類增量式學習過程。鑒于關系抽取(relation extraction)是眾多NLP下游任務的基礎,我們提出了**持續小樣本關系學習(Continual Few-shot Relation Learning, CFRL)問題,并通過嵌入空間正則化與數據增強(Embedding space Regularization and Data Augmentation, ERDA)**方法進行解決。

最后,考慮到當前語言模型在處理多種任務方面已具備強大能力,我們提出了一種新的學習范式:終身小樣本語言學習(Lifelong Few-shot Language Learning, LFLL),并構建了統一框架LFPT5,該框架基于提示調優(prompt tuning),能夠靈活適應新類型任務或新領域,同時保留已學知識。

本論文在提升語言模型學習效率、靈活性與適應性方面做出重要貢獻,使其更適用于數據稀缺、不斷演化的現實應用環境。通過融合小樣本學習與持續學習的研究進展,我們朝著構建不僅性能優異且認知能力更接近人類的語言模型邁出了堅實一步。最終,本研究表明,語言模型可以成為更穩健、多能、適應性更強的學習體,不再依賴大規模標注數據,而是邁向一種更類人、更智能的學習范式。

付費5元查看完整內容

本論文提出了一些方法,用于從科學模擬器中學習數據的統計模型。由于其復雜性,科學模擬器的設計和運行成本較高。此外,求解反問題(即確定需要向模擬器提供哪些輸入,以輸出“匹配”實驗室中觀測到的模擬結果)通常是難以求解的。我們開發了生成模型,使我們能夠創建更多的合成數據或利用這些模擬器解決反問題。 第一個研究領域是基于模擬的推理 (Simulation-based Inference),該方法利用生成模型從輸出觀測中推斷輸入參數。主要貢獻如下:

  • **提出了截斷邊緣神經比率估計 (Truncated Marginal Neural Ratio Estimation) [第二章]:**一種基于模擬的推理方法,通過使用現有的對比學習技術,提高了估計似然與證據比率的模擬效率。我們提出了在多個回合中近似后驗分布的方法,其中下一回合通過截斷先驗(基于前一回合的結果)來選擇性生成后驗高密度區域的新訓練數據。通過截斷先驗來提出新訓練數據尤其有用,因為它使我們能夠在截斷區域中進行經驗預期覆蓋測試,從而對后驗分布估計的可信度提供一定的指示。而其他模擬高效的序列方法通常無法執行相同的測試。論文重點在于近似后驗的幾個邊緣化版本,這有助于消除干擾參數。
  • **開發了 swyft:在 Python 中實現的截斷邊緣神經比率估計 [第三章]:**swyft 是一個在 Python 的 PyTorch 框架中實現了截斷邊緣神經比率估計(以及其他一些算法)的軟件包。除了主算法外,它還引入了一種樣本緩存技術,使用戶能夠在多個推理中利用截斷先驗進行推理并重用每種情況下的模擬,從而進一步節省計算成本。它還依賴現有的軟件 dask 和 zarr 分別自動化模擬的并行化和集群存儲。
  • **提出了對比神經比率估計 (Contrasive Neural Ratio Estimation) [第四章]:**一種新穎的對比學習方法,通過訓練分類器來區分一個參數與模擬觀測聯合抽取的樣本與從邊緣分布中抽取的 k 個替代樣本。我們的公式推廣了現有的二元和多類對比基于模擬的推理方法,用于估計似然-證據比率,同時消除了之前多類版本中的固有偏差。我們對超參數提出了建議,表明由于我們消除了這種固有偏差,因此基于重要性采樣的測試適用于我們的算法,還探索了使用互信息作為不同估計器之間的平均后驗質量的排序標準。
  • **研究了平衡基于模擬的推理以獲得保守后驗分布 [第五章]:**基于模擬的推理在確定后驗估計的準確性方面方法有限。一種方法是測試后驗是否平均表現出過于自信或保守(即比真實值更窄或更寬)。這通常通過進行經驗預期覆蓋測試來完成。本文通過使用拉格朗日乘數在損失函數中引入一個平衡項,該項已被證明可以在似然-證據比率估計中增加保守性。本文將平衡項推廣到其他基于模擬的推理方法,通過將其與卡方分布(χ2)散度聯系來解釋其行為,并為使用正則流 (Normalizing Flows) 的后驗估計器提供一種初始化方案,使其在設計上更加保守。
  • **開發了使用廣義 Kullback-Leibler 散度的基于模擬的推理 [第六章]:**在基于模擬的推理中,設計用于近似后驗分布的替代模型的方法通常是根據它們估計的量命名的,如神經后驗估計 (Neural Posterior Estimation)、神經比率估計 (Neural Ratio Estimation) 等。我們打破了這一傳統,提出了一個目標函數,可以在一個混合設置中同時學習后驗的密度估計、分布與后驗之間的比率估計,或兩者的組合。我們通過優化一種廣義 Kullback-Leibler 散度來實現這一點,該散度考慮了非歸一化分布中的歸一化常數。除了理論開發外,我們還通過基準問題的實驗表明,混合建模在某些情況下具有優勢。

第二個研究領域是將生成模型應用于提出穩定的晶體結構,以增強材料的性能,如用于電池和半導體技術。

  • **引入 FlowMM:使用黎曼流匹配生成材料 [第七章]:**一對執行晶體結構預測和從頭生成的生成模型。這意味著從元素列表中估計穩定的晶體結構,并分別提出元素和晶體結構。我們使用分數坐標、晶胞以及原子類型來對材料建模。成功地應用此模型需要將黎曼流匹配推廣到適合晶體固有的對稱性。此外,我們通過經驗擬合晶格基分布,為生成合理的晶胞提供了強烈的歸納偏差。綜合起來,我們創造了一個極為高效的生成模型,在晶體結構預測和從頭生成兩方面均優于競爭模型。

付費5元查看完整內容

近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。

付費5元查看完整內容

生成式人工智能(GAI)和大語言模型(LLM)是以無監督或半監督方式運行的機器學習算法。這些算法利用現有內容,如文本、照片、音頻、視頻和代碼,生成新內容。其主要目標是生成真實且新穎的材料。此外,它們在生成新材料的數量上沒有限制。新材料可以通過應用程序接口(APIs)或自然語言接口生成,例如OpenAI開發的ChatGPT和Google開發的Bard。 生成式人工智能(AI)領域的獨特之處在于其發展和成熟過程極為透明,公眾可以廣泛觀察其進展。目前的人工智能時代受到有效利用其能力以提升企業運營的要求影響。具體而言,屬于生成式AI范疇的大語言模型(LLM)能力,具有重新定義創新和生產力極限的潛力。然而,企業在努力引入新技術的同時,可能會危及數據隱私、長期競爭力和環境可持續性。 本書深入探討生成式人工智能(GAI)和LLM。它考察了生成AI模型的歷史與演變發展,以及由這些模型和LLM產生的挑戰和問題。本書還討論了基于生成AI的系統的必要性,并探討了為生成AI模型開發的各種訓練方法,包括LLM預訓練、LLM微調和基于人類反饋的強化學習。此外,它探討了與這些模型相關的潛在用例、應用和倫理考慮。本書最后討論了生成AI的未來方向,并呈現了多項案例研究,突顯生成AI和LLM的應用。

付費5元查看完整內容

構建能與世界互動的自主代理是人工智能(AI)的核心。本論文引入了“語言代理”,這是一類新的代理,它們利用大型語言模型(LLMs)進行推理以采取行動,標志著與傳統通過廣泛規則設計或學習的代理的一種轉變。它分為三個部分開發:

第一部分通過介紹基于與大規模、真實世界計算環境(如互聯網或代碼接口)的互動的一組新的AI問題和基準,激發了對語言代理的需求。這些“數字自動化”任務為減輕繁瑣的勞動和改善我們的生活提供了巨大的價值,但對于以前的代理或LLM方法在開放式自然語言和長期決策方面提出了重大挑戰,這需要新的方法論。 第二部分為語言代理奠定了方法論基礎,其核心思想是應用LLM推理來實現多功能和可泛化的代理行動和計劃,這也通過外部反饋和內部控制增強了LLM的推理,使其更加扎根和深思熟慮。我們展示了語言代理能解決多種語言和代理任務(特別是在第一部分提出的數字自動化任務),并在先前基于LLM的方法和傳統代理上取得了顯著的改進。 第三部分綜合了第一部分和第二部分的洞察,并概述了一個有原則的語言代理框架。該框架提供了模塊化抽象,以組織各種基于LLM的方法作為代理,理解它們與人類認知的差距,并激發并開發新方法,朝向通用目的的自主代理。從基礎的經驗任務和方法到統一的概念框架,本論文建立了語言代理作為AI研究前沿的一個獨特且嚴謹定義的領域的研究。

構建能與各種環境互動的自主代理是人工智能(AI)的核心問題[266]。從高層次上來說,這篇論文提出了一種全新的代理類型和一種全新的環境類型(圖1.1): ? 現有的代理要么主要遵循特定領域的規則來行動(基于規則的代理,如DeepBlue [38]、Eliza [272]或Shaky the robot [229]),要么主要在特定領域數據上進行訓練以行動(基于學習的代理,如AlphaGo [281]、Atari DQN [206]或用于手部操控的ADR [8])。本論文介紹了語言代理,這些代理利用語言模型進行推理以行動,這減輕了構建傳統代理所需的密集型特定領域努力,并且在各種領域中實現了少量樣本的泛化。這代表了構建通用自主代理目標的一個重大步驟。 ? 現有代理要么與人類或物理世界互動(實用但不可擴展),要么與游戲或模擬互動(可擴展但不實用)。這篇論文引入了數字自動化,一種新型任務,其中代理與大規模真實世界數字環境(如互聯網)互動。這為代理在開放式行動和長期視野上做出決策提供了新的挑戰,同時也提供了巨大的機會來減輕我們的數字勞動并發現新知識。 傳統代理和環境有什么問題?在傳統基于規則或基于學習的代理可能也能感知和用語言行動的情況下,“語言代理”的定義是什么?為什么我們必須轉向大規模真實世界數字環境來進一步發展,而不是使用傳統的代理測試床如游戲?我將簡要使用文本冒險游戲領域來闡述這些點并激發論文的其余部分。

付費5元查看完整內容

自從神經網絡在人工智能領域成為主導技術以來,一個研究子領域已經出現,試圖理解它們的內部工作機制。在這個子領域中的一種標準方法是主要理解神經網絡如何表征人類可理解的特征。另一種較少探索的可能性是將它們理解為多步驟的計算機程序。這似乎需要一種模塊化的前提:網絡的不同部分需要足夠獨立地運作,以便能夠單獨理解,并實現不同的可解釋子程序。

為了在神經網絡內部找到模塊化結構,我們最初使用圖形聚類工具。如果一個網絡可以被劃分為具有強內部連接但外部連接弱的神經元群組,那么這個網絡在這個意義上是可聚類的。我們發現,訓練過的神經網絡通常比隨機初始化的網絡更具聚類性,而且常常相對于具有與訓練網絡相同權重分布的隨機網絡具有聚類性。我們研究促進聚類性的因素,并且還開發了針對這一目的的新方法。

為了使模塊化對理解神經網絡有價值,它需要具有某種功能相關性。我們關注的功能相關性類型是功能的局部專業化。一個神經網絡在其計算圖的部分可以被抽象地表示為執行某些與整體任務相關的可理解子任務的程度上局部專業化。我們提出了兩個局部專業化的代理:重要性,反映了神經元集合對網絡性能的價值;以及一致性,反映了它們的神經元與輸入特征的關聯一致性。然后,我們使用通常用來解釋單個神經元的技術來操作這些代理,將它們應用于由圖聚類算法產生的神經元組。我們的結果顯示,聚類成功地找到了重要且一致的神經元組,盡管并非所有發現的神經元組都是這樣。我們最后通過一個案例研究來總結,使用更標準的可解釋性工具,這些工具旨在理解激活空間中方向所代表的特征,將它們應用于對CoinRun游戲的獎勵函數訓練的神經網絡的分析。

盡管我們的網絡實現了低測試損失,但應用可解釋性工具顯示,網絡沒有充分代表相關特征,并且在分布外嚴重誤預測獎勵。即便如此,這些工具并沒有清晰地揭示網絡實際上正在執行的計算。這不僅說明了需要更好的可解釋性工具來理解泛化行為的必要性,而且也激發了這種需求:如果我們將這些網絡視為通過強化學習訓練的政策的“動機系統”的模型,那么結論是這樣的網絡可能在更豐富的環境中追求錯誤的目標,表明需要可解釋性技術來闡明泛化行為。

付費5元查看完整內容

大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。

我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。

過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。

在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。

從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。

付費5元查看完整內容
北京阿比特科技有限公司