亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在短短幾年內,大型語言模型(LLMs)從不存在到在機器學習領域無處不在。由于該領域的發展速度很快,很難確定剩下的挑戰和已經產生成果的應用領域。在本文中,我們旨在建立一個系統的開放問題和應用成功的集合,這樣機器學習研究者可以更快地理解該領域的當前狀態并變得更加高效。

鑒于LLM研究論文的迅速增長,我們旨在回答兩個問題:(1) 挑戰:什么問題尚未解決? (2) 應用:LLMs目前應用在哪些領域,以及這些挑戰是如何限制它們的? 對于(1),我們將圖1中的挑戰分為三個更廣泛的類別:“設計”、“行為”和“科學”。為了回答(2),我們探討了聊天機器人、計算生物學、計算機編程、創意工作、知識工作、法律、醫學、推理、機器人技術和社會科學等領域。本文是一個帶有觀點的評論,并假設讀者已熟悉LLMs及其工作方式(我們在第4節中提供了更多的入門作品)。此外,我們主要關注基于文本數據訓練的模型。我們的目標讀者是技術研究者,不討論LLMs的政治、哲學或道德觀點。

在本節中,我們旨在為實踐者提供一個關于LLMs當前應用領域的寬泛概覽,并突出跨領域的一些常見應用架構。與“挑戰”部分類似,我們按如下方式突出每個應用領域的關鍵限制。

在這項工作中,我們確定了大型語言模型的幾個尚未解決的挑戰,提供了它們當前應用的概覽,并討論了前者如何限制后者。通過強調現有方法的局限性,我們希望促進未來針對這些問題的研究。我們還希望,通過提供在不同應用領域中使用的方法概覽,我們可以促進域間的思想轉移,并針對進一步的研究。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

圖形和關系學習方法的一個關鍵組成部分是對輸入圖或關系的向量表示的計算。本教程的出發點是,我們將此計算建模為查詢,將關系對象映射到實數向量空間的領域。然后,我們從這一統一的查詢語言視角重新審視了機器學習社區中關于圖學習方法表達能力的近期工作。在這里,我們考慮與輸入的區分以及函數的近似能力相關的表達能力。最后,我們認為,圖學習和查詢語言之間的橋梁為進一步的研究打開了許多有趣的途徑。

付費5元查看完整內容

這篇博士論文解決了大型語言模型(LLMs)的兩個重要挑戰:魯棒性和可擴展性。首先,我們通過學習代碼表示的視角來提高大型語言模型的魯棒性。我在這里強調我們在ContraCode上的工作,該模型學習了對保留標簽編輯具有魯棒性的代碼表示。其次,我們從系統角度解決可擴展性挑戰。我們提出了Checkmate,這是一個通過最優再物化超越GPU內存容量限制來支持模型訓練的系統。此外,Skyplane,一種優化云對象存儲之間大批量數據傳輸的系統,使得在云端訓練更大的預訓練數據集成為可能。總的來說,這些貢獻為提高大型語言模型的魯棒性和可擴展性提供了一條路徑。

在1945年,Vannevar Bush設想出了一種名為memex的假想設備,該設備能夠存儲和索引人類的所有知識,使用戶能夠通過"全新形式的百科全書"查詢和導航知識。盡管Bush設想的memex是一種基于機械微膠片的設備,但他的遠見遠超出了該設備的物理形態。他預見了深度語言理解、知識存儲和推理系統的發展。大型語言模型(LLMs)通過學習可以查詢和推理的語言表示,已經朝這個方向取得了重大進展。不同于以往的語言模型,這些神經網絡在大量數據上進行訓練,以預測單詞并理解語言。他們在某些基準測試上達到了人類水平的表現,但也面臨著限制其廣泛部署的重大挑戰。具體來說,大型語言模型在兩個維度上面臨重要難關:魯棒性和可擴展性。大型語言模型的魯棒性是一個多面的挑戰。雖然大型語言模型在理解和生成文本方面取得了顯著進步,但他們仍然在處理幻覺、對輸入擾動的敏感性和組合泛化上存在困難。另一方面,可擴展性是一個關于規模和計算資源的挑戰。對于大型語言模型,交叉熵損失隨著模型規模、數據集規模和用于訓練的計算量的增加而呈冪律增長。在這篇博士論文中,我為持續改進大型語言模型的魯棒性和可擴展性做出了貢獻。

第二章:增強大型語言模型的魯棒性

在第二章中,我們研究了提高大型語言模型魯棒性的策略。這個討論的一個核心問題是語言建模目標是否會導致學習魯棒的語義表示,或者僅僅是基于局部上下文預測標記。為了回答這個問題,我們轉向源代碼的情境,其中程序的語義是由其執行定義的。我們探索了對比預訓練任務ContraCode,它學習代碼的功能而不是形式。ContraCode預訓練一個神經網絡,區分功能上類似的程序變體與眾多非等效的干擾項。這種策略在JavaScript總結和TypeScript類型推斷精度上顯示出改善。我們還介紹了一個新的零射擊JavaScript代碼克隆檢測數據集,結果表明與其他方法相比,ContraCode更具魯棒性和語義意義。

第三章:解決大型語言模型的可擴展性挑戰

在第三章中,我們開始解決大型語言模型的可擴展性挑戰,首先考察了在訓練大型模型過程中出現的"內存壁"問題。在這里,我們介紹了Checkmate,一個在DNN訓練中優化計算時間和內存需求之間權衡的系統。Checkmate解決了張量重制化優化問題,這是先前檢查點策略的一種推廣。它使用現成的MILP求解器確定最優的重制化計劃,并加速了數百萬次的訓練迭代。該系統可以擴展到復雜、現實的架構,并且是硬件感知的,使用基于特定加速器的配置文件成本模型。Checkmate使得能夠訓練實際網絡,其輸入最大可達5.1倍。

第四章:大型預訓練數據集的管理

在第四章中,我們探討了大型預訓練數據集的管理,這也是可擴展性挑戰的另一個方面。具體而言,我們研究了如何在云端目標之間收集和移動這些數據集。我們介紹了Skyplane,一個使用云感知網絡覆蓋來進行云對象存儲間批量數據傳輸的系統。它使用混合整數線性規劃來確定數據傳輸的最優覆蓋路徑和資源分配,從而優化價格和性能的平衡。Skyplane在單一云中的傳輸性能比公共云傳輸服務高出4.6倍,跨云傳輸性能高出5.0

付費5元查看完整內容

拓撲深度學習最新概述文章,值得關注!

拓撲深度學習是一個迅速發展的領域,涉及為支持拓撲域(如單純復合物、胞復合物和超圖)的數據開發深度學習模型,這些拓撲域推廣了在科學計算中遇到的許多領域。在本文中,我們提出了一個統一的深度學習框架,該框架基于一種更豐富的數據結構,包括廣泛采用的拓撲域。具體來說,我們首先引入組合復合物,一種新型的拓撲域。組合復合物可以看作是保持某些期望性質的圖的泛化。與超圖類似,組合復合物對關系集合沒有約束。此外,組合復合物允許構建類似于單純復合物和胞復合物中的分層高階關系。因此,組合復合物泛化并結合了超圖和胞復合物的有用特性,這兩者已經成為促使圖神經網絡向拓撲空間推廣的有前景的抽象。其次,基于組合復合物及其豐富的組合和代數結構,我們開發了一般類的消息傳遞組合復合物神經網絡(CCNNs),主要關注基于注意力的CCNNs。我們描述了CCNNs的排列和方向等變性,并詳細討論了CCNNs中的匯集和反匯集操作。第三,我們評估了CCNNs在與網格形狀分析和圖學習相關的任務上的性能。我們的實驗表明,與專門針對相同任務的最先進的深度學習模型相比,CCNNs具有競爭性的性能。我們的研究結果證明了將高階關系納入不同應用的深度學習模型的優勢。

引言

近年來,用于計算分析的數據量呈指數級增長,包括科學數據以及文本、圖像和音頻等常見數據類型。這大量的數據使得包括物理學、化學、計算社會科學和生物學在內的各個領域得以利用機器學習技術(主要是深度神經網絡)取得重大進展。由于深度神經網絡可以有效地總結和提取大型數據集中的模式,因此它們適用于許多復雜任務。最初,深度神經網絡是為了學習基于規律(歐幾里得)領域的數據而發展起來的,例如圖像中的網格、文本序列和時間序列。這些模型,包括卷積神經網絡(CNNs)[156, 162, 243]、循環神經網絡(RNNs)[249, 13]和變換器(Transformers)[256],在處理這類歐幾里得數據方面已被證明具有很高的效果[117],在各種應用中取得了空前的性能,最近的例子包括聊天機器人(例如 ChatGPT [2])和文本控制的圖像合成[223]。

然而,各個領域的科學數據往往具有不同的結構,并不都是基于規律的歐幾里得域。因此,調整深度神經網絡來處理這類數據一直是個挑戰。在這一背景下,幾何深度學習(GDL)[50, 284, 268]作為深度學習模型在非歐幾里得領域的擴展應運而生。為了實現這一目標,GDL通過幾何規律原理(如對稱性、不變性和等變性)對執行的計算進行限制。GDL的視角使得在處理任意數據域時可以施加適當的歸納偏見,包括集合[215, 217, 81, 283, 138]、網格[45, 187, 46, 154, 242, 267, 196]、流形[45, 187, 46, 154, 242, 267, 196]和圖[232, 101, 284, 268, 46, 196, 49, 150]。特別是圖,由于其在眾多科學研究中的適用性以及它們能夠泛化傳統網格的能力,因而受到了人們的關注。因此,圖神經網絡(GNNs)[49, 150]的發展顯著提高了我們在自然出現圖的多種數據類型中進行建模和分析的能力。

盡管幾何深度學習(GDL)和圖神經網絡(GNNs)取得了成功,但僅從純幾何的角度看待圖形會產生純粹的局部抽象,并無法捕捉數據中的非局部特性和依賴關系。拓撲數據,包括邊(在圖中)、三角形(在網格中)或團的相互作用,在復雜物理系統[30, 161]、交通預測[144]、社會影響[285]、蛋白質相互作用[200]、分子設計[237]、視覺增強[95]、推薦系統[160]和流行病學[82]等眾多新穎應用中自然產生。為了本質上和有效地對這些數據建模,我們必須超越圖形,考慮在某些幾何變換下保持不變的定性空間屬性。換句話說,我們需要考慮數據的拓撲結構[58],以構建能夠從復雜數據中提取語義含義的神經網絡架構。從數據中提取更多全局信息的一種方法是超越基于圖的抽象,考慮圖的擴展,如單純復形、胞復形和超圖,這些概念可以推廣到科學計算中遇到的大多數數據領域[41, 29, 32, 253]。學習從這些拓撲領域支持的數據中學習的機器學習模型的發展[97, 53, 222, 234, 42, 121, 123, 91, 235, 221, 112, 272]是一個迅速增長的新領域,我們將其稱為拓撲深度學習(TDL)。TDL融合了幾個研究領域,包括拓撲數據分析(TDA)[93, 58, 86, 178, 108]、拓撲信號處理[233, 273, 236, 222, 21, 219, 229]、網絡科學[245, 161, 20, 29, 41, 39, 33, 80, 19, 203]和幾何深度學習[278, 56, 99, 177, 27, 197, 26]。

盡管對拓撲深度學習(TDL)的興趣日益增長,但迄今為止尚未建立這些思想的基本原則的更廣泛綜合。我們認為,這種不足阻礙了TDL的進展,因為這使得在不同概念之間建立聯系變得具有挑戰性,阻礙了比較,并使其他領域的研究者難以找到進入TDL的切入點。因此,在本文中,我們旨在提供一個關于TDL原則的基本概述,不僅作為近年來文獻中涌現出的許多令人興奮的想法的統一框架,還作為一個概念性的起點,以促進新想法的探索。最終,我們希望這項工作將有助于TDL的加速發展,我們相信這將成為將深度學習成功轉移到更廣泛應用場景的關鍵推動力。受到代數拓撲[108, 133]中傳統拓撲概念以及高階網絡方面的最新進展[29, 253, 41, 30]的啟發,我們首先引入組合復形(CCs)作為我們TDL框架的主要構建模塊。組合復形構成了一個新穎的拓撲領域,將圖形、單純復形、胞復形和超圖作為特殊情況加以統一,如圖11所示。與超圖類似,CCs(連接復合體)可以在抽象實體集合之間編碼任意集合式關系。此外,CCs允許構建類似于在單純形和胞腔復合體中發現的分層高階關系。因此,CCs將超圖和胞腔復合體的最期待的 特性進行了概括和整合。

此外,我們引入了構建深度神經網絡所需的運算符,以便基于組合復合體學習輸入特征和抽象概括。這些運算符提供了卷積、注意力機制、信息傳遞方案以及實現不變性、等變性或其他幾何規律的方法。具體而言,我們的新穎的前推操作允許在不同維度之間傳遞數據,從而構成了在CCs(連接復合體)上定義高階信息傳遞協議和(非)池化操作的基本構建模塊。由此產生的學習機器,我們稱之為組合復合體神經網絡(CCNNs),如我們的實驗評估中所清楚地展示的那樣,它們能夠學習抽象的高階數據結構。 我們設想我們的貢獻將成為一個平臺,鼓勵研究人員和實踐者擴展我們的CCNNs,并邀請社區在我們的工作基礎上擴展高階領域的TDL(拓撲數據學習)。我們的貢獻如圖1所示,包括以下幾點:

首先,我們將CCs(連接復合體)引入作為TDL(拓撲數據學習)領域。我們描述了CCs及其屬性,并解釋了它們如何概括主要現有領域,例如圖、超圖、單純形和胞腔復合體。因此,CCs可以作為一個統一的起點,實現拓撲數據的表達式表示的學習。

其次,使用CCs作為領域,我們構建了CCNNs,這是一種基于超圖和胞腔復合體的TDL模型的抽象高階信息傳遞神經網絡類,為這些模型提供了統一的藍圖

*基于在CCs上定義的前推操作符,我們為CCNNs引入了卷積、注意力、池化和反池化操作符。

  • 我們對CCNNs的排列和方向等變性進行了形式化和研究,為未來關于CCNNs幾何化的工作鋪平了道路。
  • 我們展示了如何通過圖形符號直觀地構建CCNNs(組合復合體神經網絡)。

第三,我們在實際場景中評估我們的想法

  • 我們發布了我們框架的源代碼,作為三個支持的Python庫:TopoNetX、TopoEmbedX和TopoModelX。
  • 我們展示了CCNNs(組合復合體神經網絡)在各種應用中與最先進的特定任務神經網絡具有競爭性的預測能,包括形狀分析和圖學習。
  • 我們建立了我們的工作與TDA(拓撲數據分析)中經典構造之間的聯系,如映射器[244]。特別地,我們以我們的TDL(拓撲數據學習)框架的方式實現映射器構造,并展示了如何在CCs(連接復合體)上的高階(非)池化中利用它。
  • 我們展示了任何CC可以簡化為一個特殊的圖,稱為Hasse圖。這使得我們可以用基于圖的模型來表征CCNNs的某些方面,從而將高階表示學習簡化為圖表示學習(使用擴大的計算圖)。

付費5元查看完整內容

本書為表示提供了簡明而全面的指南,這是機器學習(ML)的核心。最先進的實際應用涉及許多高維數據分析的挑戰。不幸的是,許多流行的機器學習算法在面對龐大的基礎數據時,在理論和實踐中都無法執行。本書恰當地介紹了這個問題的解決方案。 此外,這本書涵蓋了廣泛的表示技術,對學者和ML從業者都很重要,如局部敏感哈希(LSH),距離度量和分數范數,主成分(PCs),隨機投影和自動編碼器。書中提供了幾個實驗結果來證明所討論技術的有效性。 本書討論了機器學習(ML)中最重要的表示問題。在使用機器從數據中學習類/聚類抽象時,以適合有效和高效機器學習的形式表示數據是很重要的。在本書中,我們建議涵蓋各種在理論和實踐中都很重要的表示技術。在當前興趣的實際應用中,數據通常是高維的。這些應用包括圖像分類、信息檢索、人工智能中的問題解決、生物和化學結構分析以及社會網絡分析。這種高維數據分析的一個主要問題是,大多數流行的工具,如k近鄰分類器、決策樹分類器,以及一些依賴于模式間距離計算的聚類算法都不能很好地工作。因此,在低維空間中表示數據是不可避免的。 常用的降維技術有以下幾種:

  1. 特征選擇方案:在這里,給定的特征集的一個適當子集被識別并用于學習。
  2. 特征提取方案:在學習中使用給定特征的線性或非線性組合。 一些流行的線性特征提取器基于主成分、隨機投影和非負矩陣分解。我們在本書中涵蓋了所有這些技術。關于用主成分子集表示數據,文獻中存在一些誤解。一般認為,前幾個主成分是對數據進行分類的正確選擇。我們在書中論證并實際地表明,這種做法可能是不正確的。

付費5元查看完整內容

強大的統計模型可以從大量數據中有效地學習,目前正在徹底改變計算機視覺。這些模型具有豐富的內部結構,反映了特定于任務的關系和約束。本教程向讀者介紹計算機視覺中最流行的結構化模型類。我們的重點是離散無向圖模型,我們詳細介紹了概率推理和最大后驗推理的算法。我們分別討論了最近在一般結構化模型中成功的預測技術。在本教程的第二部分中,我們將描述參數學習的方法,其中我們將經典的基于最大似然的方法與最新的基于預測的參數學習方法區分開來。我們著重介紹了增強當前模型的發展,并討論了核化模型和潛變量模型。為了使教程具有實用性并提供進一步研究的鏈接,我們提供了計算機視覺文獻中許多方法的成功應用實例。 //www.nowozin.net/sebastian/papers/nowozin2011structured-tutorial.pdf

付費5元查看完整內容

在本文中,我們研究了生成模型的幾個重要標準,并引入評價指標來解決每個問題,同時討論了生成模型評價中的上述問題。特別是,我們研究了測量生成輸出的感知現實主義的挑戰,并引入了一個人在循環中的評估系統,利用心理物理學理論,以人類知覺文獻和眾包技術為基礎,構建一個高效、可靠、并采用一致的方法比較不同的模型。除此之外,我們還分析了解纏性(Disentanglement),這是評估已學習表示的一個日益重要的特性,通過使用持久同調測量生成模型數據流形的內在特性。

//searchworks.stanford.edu/view/13883847

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

本講座的大部分內容將致力于兩篇論文,它們試圖做到這一點:通過使用概率和基于信息理論的度量,公平地比較生成模型的表現。第一篇論文詳細介紹了如何通過總比特來評價(單語)開放詞匯語言模型,第二篇論文思考了“信息”的意義以及如何使用它來比較機器翻譯模型。

付費5元查看完整內容

當前自然語言處理的發展為低資源語言和領域提供了挑戰和機遇。眾所周知,深度神經網絡需要大量的訓練數據,而這些數據在資源貧乏的情況下可能無法得到。然而,也有越來越多的工作來提高低資源環境下的性能。基于對神經模型的基本改變和目前流行的預訓練和微調范式,我們概述了低資源自然語言處理的有前途的方法。在討論了低資源場景的定義和數據可用性的不同維度之后,我們接著研究了在訓練數據稀少時支持學習的方法。這包括創建附加標簽數據的機制,如數據增強和遠程監督,以及轉移學習設置,以減少對目標監督的需要。調查結束時,簡要地看了一下在非NLP機器學習社區中建議的方法,這些方法在資源少的情況下可能對NLP有益。

//arxiv.org/abs/2010.12309

付費5元查看完整內容
北京阿比特科技有限公司