亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最近在無監督表示學習方面的進展導致了許多廣泛使用的人工智能工具,如ChatGPT和穩定擴散。這些工具是將相對簡單的訓練算法應用于大規模GPU集群上的大規模模型,甚至是大量未標記的訓練數據,以及在大量標記的評估任務上調整算法的結果。在這篇論文中,我們提出了一些方法來解決在訓練模型進行表示學習時去除這些組件的問題,即有限的計算量、有限的訓練數據和有限的評估數據。本文主要分為四章,重點研究數據和標簽高效的表示學習。

數據高效表示學習的重點是用較少的數據(有標記或無標記)學習有用的表示,這在本文中討論過,對于數據可用性有限的應用特別重要。標記高效表示學習專注于在訓練數據很少或沒有人工標注的情況下學習有用的表示。正如將要討論的,這對于通常很難或不可能獲得準確標記數據的應用程序很重要,例如在隱私敏感領域或具有高度模糊的標簽定義的應用程序。

(1)自增強:用于自監督學習的自動增強策略,探索了如何在很少/沒有標記訓練數據和少量無標記數據的情況下為無監督學習管道開發增強策略。(2)數據高效的自監督表示學習,探索了如何利用一種形式的分層預訓練進行數據高效80倍的預訓練。(3)區域相似性表示學習,通過在區域(基于塊的)水平上進行對比學習,探索了學習區域級表示的首批方法之一,并在標記數據很少的情況下,對目標檢測/分割等下游任務進行了實質性的改進。(4) scale - mae:一種面向多尺度地理空間表示學習的尺度感知掩碼自編碼器,探索了利用已知尺度信息進行地理空間表示學習的方法。

付費5元查看完整內容

相關內容

 (University of California, Berkeley),是美國最負盛名且是最頂尖的一所公立研究型大學,位于舊金山東灣伯克利市的山丘上。創建于1868年,是加州大學十個分校中歷史最悠久的一所。加州大學伯克利分校在世界范圍內擁有崇高的學術聲譽,擁有豐富的教學資源,研究水平非常堅厚,與斯坦福大學、麻省理工學院等一同被譽為美國工程科技界的學術領袖。

人類具有持續學習而不忘記的非凡能力,并使自己的行為適應不斷變化的環境要求。雖然以前的工作集中在闡明靈活的依賴于上下文的信息處理的基礎機制,但對信息在人腦中表示的格式以及這如何促進持續的任務表現知之甚少。本論文的目的是為依賴上下文的處理開發計算信息的表示學習理論,并在健康人類參與者的行為和神經成像記錄中測試這些理論。

通過一系列神經網絡模擬、行為和神經成像研究,以及對從macaque FEF錄制的免費可用數據集的重新分析,我收集了支持早期認知控制理論的證據,該理論假設,前額葉皮質實施了有利于任務相關而非任務無關信息的門控策略,以服務于特定上下文的任務目標。在第3章中,我提出了一個計算框架,用于研究人工神經網絡的上下文相關決策的表示學習,并演示了相同的架構如何學習高維和任務無關的表示,或低維和任務特定的表示。在第4章中,我在學習執行類似的上下文依賴決策任務的人類參與者的fMRI記錄中測試了這些模擬的預測,發現額頂葉區域的表示是高度特定于任務的,不同任務的相關信息映射到正交編碼軸上。在第5章中,我將介紹一個人類持續學習的模型,其中門控信號是通過一個簡單的Hebbian機制學習的。最后,在第6章中,我測試了之前報告的blocked相比于泛化到抽象規則的交叉訓練的好處,以及它們是否促進了跨域遷移。本文介紹了持續表示學習的計算理論,并提供了人類大腦使用門控策略在特定上下文的子空間中表示相關信息的經驗證據。

付費5元查看完整內容

**最近機器學習方法的大部分成功都是通過利用過去幾年產生的大量標記數據而實現的。**然而,對于一些重要的實際應用來說,如此大規模的數據收集仍然是不可行的。這包括機器人、醫療健康、地球科學和化學等領域,在這些領域獲取數據可能既昂貴又耗時。在本文中,我們考慮三個不同的學習問題,其中可以收集的數據量是有限的。這包括在在線學習期間限制對標簽、整個數據集和生成經驗的訪問的設置。本文通過采用序列決策策略來解決這些數據限制,這些策略在收集新數據和根據新獲得的證據做出明智的決策之間迭代。**首先,解決標簽獲取成本較高時如何高效地收集批量標簽的問題。**概率主動學習方法可用于貪婪地選擇信息量最大的待標記數據點。然而,對于許多大規模問題,標準的貪心算法在計算上變得不可行。為緩解這個問題,本文提出一種可擴展的貝葉斯批量主動學習方法,其動機是近似模型參數的完整數據后驗。

**其次,我們解決了自動化分子設計的挑戰,以加速對新藥物和材料的搜索。**由于迄今為止只探索了化學空間的一個小區域,可用于某些化學系統的數據量是有限的。本文通過將3D分子設計問題制定為強化學習任務,克服了生成模型對數據集的依賴,并提出了一種對稱感知策略,可以生成用以前方法無法實現的分子結構。

**最后,我們考慮了如何在不同任務中有效地學習機器人行為的問題。**實現這一目標的一個有希望的方向是在不同的任務上下文中泛化局部學習的策略。上下文策略搜索通過顯式地將策略約束在參數化上下文空間上,從而提供數據高效的學習和泛化。進一步構建上下文策略表示,在各種機器人領域實現更快的學習和更好的泛化。

付費5元查看完整內容

本書為表示提供了簡明而全面的指南,這是機器學習(ML)的核心。最先進的實際應用涉及許多高維數據分析的挑戰。不幸的是,許多流行的機器學習算法在面對龐大的基礎數據時,在理論和實踐中都無法執行。本書恰當地介紹了這個問題的解決方案。 此外,這本書涵蓋了廣泛的表示技術,對學者和ML從業者都很重要,如局部敏感哈希(LSH),距離度量和分數范數,主成分(PCs),隨機投影和自動編碼器。書中提供了幾個實驗結果來證明所討論技術的有效性。 本書討論了機器學習(ML)中最重要的表示問題。在使用機器從數據中學習類/聚類抽象時,以適合有效和高效機器學習的形式表示數據是很重要的。在本書中,我們建議涵蓋各種在理論和實踐中都很重要的表示技術。在當前興趣的實際應用中,數據通常是高維的。這些應用包括圖像分類、信息檢索、人工智能中的問題解決、生物和化學結構分析以及社會網絡分析。這種高維數據分析的一個主要問題是,大多數流行的工具,如k近鄰分類器、決策樹分類器,以及一些依賴于模式間距離計算的聚類算法都不能很好地工作。因此,在低維空間中表示數據是不可避免的。 常用的降維技術有以下幾種:

  1. 特征選擇方案:在這里,給定的特征集的一個適當子集被識別并用于學習。
  2. 特征提取方案:在學習中使用給定特征的線性或非線性組合。 一些流行的線性特征提取器基于主成分、隨機投影和非負矩陣分解。我們在本書中涵蓋了所有這些技術。關于用主成分子集表示數據,文獻中存在一些誤解。一般認為,前幾個主成分是對數據進行分類的正確選擇。我們在書中論證并實際地表明,這種做法可能是不正確的。

付費5元查看完整內容

模型必須能夠自我調整,以適應新環境。深度網絡在過去十年取得了巨大成功,特別是當訓練和測試數據來自相同的分布時。不幸的是,當訓練(源)與測試(目標)數據不同時,性能會受到影響,這種情況稱為域移位。模型需要自我更新以應對這些意外的自然干擾和對抗性擾動,如天氣變化、傳感器退化、對抗性攻擊等。如果我們有一些標記的目標數據,可以使用一些遷移學習方法,如微調和少樣本學習,以有監督的方式優化模型。然而,對目標標簽的要求對于大多數現實場景是不實際的。**本文專注于無監督學習方法,以將模型泛化到目標域。

本文研究了完全測試時自適應的設置,在不獲取目標標簽和源數據的情況下,將模型更新到不可控的目標數據分布。換句話說,模型在這個設置中只有它的參數和未標記的目標數據。其核心思想是利用測試時間優化目標,熵最小化,作為可學習模型的反饋機制,在測試時間內關閉循環。我們通過在線或離線的方式優化模型,以測量輸出熵的置信度。這種簡單有效的方法可以降低自然破壞和對抗性擾動圖像分類的泛化誤差。此外,語義分割模型的自適應特性可用于處理場景理解的動態尺度推理。通過對比學習和擴散模型,我們可以學習目標域特征并生成源風格的圖像,進一步提高動態環境下的識別性能。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-229.html

付費5元查看完整內容

在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。

//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。

付費5元查看完整內容

深度學習推動了應用的爆炸式增長,然而訓練深度神經網絡通常需要昂貴的人工注釋。在這篇論文中,我們探索了在訓練深度神經網絡時避免大量依賴人工注釋示例的替代方案。具體來說,要么采用自監督方法來自動糾正自由獲得的數據標簽,要么完全放棄使用人工標簽,而是利用音頻和視覺信息的自然共生來學習視頻中的對象表示。越來越多的數字數據通常會提供噪聲標簽,這些標簽可以用來監督學習過程。傳統的數據預處理包括在訓練識別模型之前糾正/清理數據,但這可能需要大量的人工工作。我們考慮自動更正注釋噪聲,從而避免了昂貴的手動注釋的需要。我們構建和擴展了最近的突破,使用一致性損失(consistency loss)和空間記憶映射(space memory map)來提供靈活的實例級注冊,從而實現更大的泛化。進一步探索了多模態感覺流,利用模態冗余,即模態之間的重疊信息,為模型提供自監督。表示是通過利用不同的模式來學習的,而不使用任何人類注釋的標簽。我們將使用三個不同的應用程序演示此技術

首先,我們自動管理一個大型音頻數據集VGG-Sound,使用視覺引導收集了超過200k的視頻,并在此基礎上進行訓練,生成最先進的音頻識別模型。其次,我們提出了一種改進和擴展最近聲源定位技術的方法,通過引入一種機制來挖掘硬樣本并自動將其添加到對比學習公式中。最后,與在一個特定領域執行的現有視聽同步任務不同,我們建議通過探索使用幾種基于transformer的體系結構來解決開放世界設置中的同步問題。通過這些模型,我們在具有挑戰性的語音數據集中獲得了最先進的結果,并在一般聲音數據集中顯示了出色的泛化效果。

付費5元查看完整內容

構建高性能的端到端機器學習系統主要包括開發機器學習模型和為感興趣的應用程序收集高質量的訓練數據(假設一個人可以訪問正確的硬件)。盡管在過去幾年里,隨著開源平臺的興起,機器學習模型變得越來越商品化,但管理高質量的標記訓練數據集對許多現實世界的應用來說仍然是昂貴的或不可行的。因此,我們在本文中主要關注數據,特別是如何** (1)通過注入領域特定的先驗知識或利用已為不同任務創建的現有軟件系統和數據集,使用數據高效的機器學習方法減少對標記數據的依賴,(2)有效管理訓練數據并構建相關工具,以最大化數據的效用,(3)通過將數據的結構與嵌入空間的幾何形狀進行匹配,提高嵌入所實現的數據表示的質量**。

我們首先描述了我們在構建數據高效的機器學習方法方面的工作,通過物理驅動的一致性訓練增強、尺度等變展開神經網絡和使用未經訓練的神經網絡弱監督來加速磁共振成像(MRI)重建。然后,我們描述了我們在構建用于自然語言理解的數據高效機器學習方法方面的工作。特別地,我們討論了一種監督對比學習方法用于預訓練的語言模型微調和一種大規模數據增強方法來檢索領域數據。與有效管理訓練數據相關,我們討論了我們提出的用于類表單文檔gather的信息提取系統,并重點討論了訓練數據管理和相關工具中經常被忽略的方面。我們強調了有效管理訓練數據的重要性,表明它至少與機器學習模型在真實數據集的下游提取性能方面的進展一樣關鍵。最后,為了改進各種類型數據的嵌入表示,我們研究了具有異質曲率的空間。我們展示了混合曲率表示為圖和詞嵌入提供了更高質量的表示。此外,我們還研究了如何將Wikidata知識圖譜中的實體嵌入到一個抽象的文本摘要模型中,以增強其真實性。

付費5元查看完整內容

深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。

在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html

付費5元查看完整內容

計算上下文理解指的是agent融合不同信息源進行決策的能力,因此,通常被認為是人工智能(AI)等復雜機器推理能力的先決條件。數據驅動和知識驅動方法是追求這種機器意義生成能力的兩種經典技術。然而,雖然數據驅動的方法試圖通過在現實世界中的觀察來模擬事件的統計規律,但它們仍然難以解釋,而且缺乏自然地結合外部知識的機制。相反,知識驅動的方法結合了結構化的知識庫,使基于公理原則的符號推理成為可能,并產生更多可解釋的預測; 然而,它們往往缺乏估計推斷的統計顯著性或魯棒地適應輸入中的擾動的能力。為了解決這些問題,我們使用混合AI方法作為綜合兩種方法的優勢的一般框架。具體而言,我們繼承了神經符號的概念,將其作為一種使用領域知識來指導深度神經網絡學習進程的方法。領域知識以多種形式出現,包括:(i) 圖模型,它描述了實體之間的關系,如依賴、獨立、因果、相關和部分相關; (ii) 常識性知識,包括空間知識、物體的物理屬性、語義關系和功能知識; 專家智能體以演示或軟標簽的形式提供特權信息; (iv) 習得的行為原語和先驗,這些行為原語和先驗可能構成可推廣和可轉移的任務執行;以及(v)輔助任務、目標和約束條件——為約束優化精心選擇。

無論可用的領域知識類型是什么,相同的實際目標仍然是:學習有意義的神經表征,用于下游感興趣的任務。神經表征學習的潛在目標是在統計上識別agent輸入數據或觀察中變化的最佳解釋因素,通常需要對輸入中多種模式或觀點之間的互補性的直覺。雖然已經有很多關注于學習特定任務的有效神經表征,然后將學習到的表征轉移或適應其他任務,相對較少的重點放在有各種類型的領域知識的表征學習。這些知識可用于恢復潛在生成過程的信息,設計學習問題的有效建模策略,確保模型的可轉移性或泛化性,或理解視圖之間的互補性。本文研究了將上述類型的領域知識與神經表示相結合的方法,以提高以下問題領域的模型性能和通用性:神經常識推理、多模態機器人導航和自動駕駛。本文提供了一系列工具、方法、任務、國際AI挑戰和排行榜、數據集和知識圖;此外,這項工作還成功組織了兩場關于自動駕駛安全學習的國際研討會。

付費5元查看完整內容

近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。

//compstat-lmu.github.io/seminar_nlp_ss20/

在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。

這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。

為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。

遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。

為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。

在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。

本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。

付費5元查看完整內容
北京阿比特科技有限公司