亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在過去十年中,深度學習領域取得了令人矚目的成功。如今,神經網絡模型幾乎主導了所有主流基準測試排行榜,不僅被廣泛部署于現實世界場景中,甚至在某些任務上已達到超越人類的水平。然而,這些模型在多個方面仍然脆弱,常常會出現意料之外的失敗,其可靠性與可信度問題仍遠未得到徹底解決。 在本論文中,我們提出:若要推動神經模型的進一步發展,僅僅關注其準確率已不再足夠,更需要系統地理解模型的錯誤模式,以深入探究剩余錯誤存在的原因以及如何有效緩解這些問題。

論文的第一部分提出了一個自動化的錯誤分類框架,能夠對 IMAGENET 模型的所有預測錯誤進行分類,標注其錯誤類型與嚴重程度。借助該框架,我們對超過 900 個模型的錯誤分布進行了全面評估,發現 top-1 準確率與多標簽準確率是各類錯誤比例的強預測指標。特別地,我們觀察到,隨著模型準確率的提升,嚴重錯誤的比例顯著下降,這表明傳統準確率指標可能低估了模型實際性能與進步的程度。

接著,我們進一步展示該分析框架的實用性,具體應用于研究 IMAGENET 模型在不同擾動條件下的錯誤分布。我們發現,在常見自然擾動(如隨機噪聲、模糊、天氣變化與數字擾動)下,錯誤分布趨勢與原始干凈圖像非常相似,并呈現出一致的擴展特性。相對而言,標準的非定向 PGD(Projected Gradient Descent)攻擊所引發的嚴重錯誤比例反而更低,這一發現令人驚訝,也揭示了自然擾動與對抗擾動在錯誤分布上的根本差異。

基于上述發現,我們設計了若干種 PGD 攻擊變體,這些變體能夠誘發更嚴重的錯誤并顯著降低模型的對抗魯棒性。在將其中一種攻擊方法融入對抗訓練后,我們得到了更加準確且在某些設置下嚴重錯誤比例更低的模型。

最后,在論文的第三部分,我們從錯誤分類與分析轉向錯誤緩解,尤其聚焦于公平性問題——目標是構建在不同個體與群體之間不產生歧視的模型。為此,我們提出了一種基于生成建模、對抗訓練與隨機平滑技術的表示學習方法,以實現并驗證圖像數據在高維空間下的個體公平性(individual fairness)。 我們希望本論文的研究成果能夠激勵更多研究者將錯誤分析工具納入機器學習模型的開發周期,從而推動模型向著更安全、更可靠的方向發展。

付費5元查看完整內容

相關內容

 是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。 人工智能是計算機科學的一個分支。

近年來,深度學習(Deep Learning, DL)模型及其技術的迅猛發展,推動了其在多種任務與模態中的性能取得顯著進步。盡管模型整體能力持續增強,但我們對其內部推理過程的理解仍然有限,尤其是在面對系統性的不一致或錯誤——即邏輯或推理模式上的缺陷時。這類不一致性可能表現為輸出之間的自相矛盾、無法在相似任務間進行泛化,或在特定語境中得出錯誤結論。由于其可能源于模型內部過程的高度不透明、訓練數據中的偏差與不平衡,或任務本身的復雜性,檢測與衡量這類推理偏差本身就是一項挑戰。 在缺乏有效方法來檢測、量化與緩解這類錯誤的前提下,深度學習模型存在被部署時出現偏差、易被攻擊,或缺乏邏輯可靠性的重大風險。 本論文旨在針對上述問題,提出一系列適用于知識圖譜、自然語言與圖像任務中的推理型深度學習模型的創新方法。首先,本文提出了兩種技術,用于檢測和量化自然語言與圖像處理模型中因內部過程不透明所導致的預測不一致性。我們在設計的對抗性實驗設置中對多類模型進行系統評估,這些設置明確暴露模型的內部推理過程,從而使我們得以量化模型中的顯著推理偏差。 為緩解訓練數據中的偏見導致的不一致性,本文還提出了一種數據高效的采樣方法,以提升模型的公平性與性能;同時,提出一種合成數據集生成方法,用于在低資源場景下更嚴格地評估與提升模型的推理能力。 最后,論文還提出了兩種新穎技術,用于優化模型在自然語言與知識圖譜等復雜推理任務中的表現。這些方法不僅直接增強了模型的性能,還提升了推理過程的可解釋性與行為的忠實性。 總的來說,本論文通過系統地量化并緩解推理不一致性,構建了一個通用框架,以提升深度學習模型在各類任務與模態下的魯棒性、公平性與可解釋性

付費5元查看完整內容

經過十年的蓬勃發展,視頻理解領域的發展已到達一個關鍵節點,單純依賴海量數據和復雜架構已不再是應對所有場景的萬能解決方案。普遍存在的數據不平衡問題阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化(如長尾不平衡和擾動不平衡)時性能顯著下降。這一現實促使研究人員尋求替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則應運而生,旨在揭示觀察到的相關性背后的真實因果模式。本論文聚焦于語義視頻理解領域,探索因果建模在推動兩項基礎任務——視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)中的潛力。主要貢獻提出干預式視頻關系檢測方法(IVRD)針對VidVRD中關系長尾不平衡的問題,我們提出了一種名為IVRD的干預式視頻關系檢測方法。盡管尾部關系信息豐富,但由于其在數據集中稀缺,難以預測。具體而言,我們以分層方式構建了一組關系原型,迫使關系推理模塊專注于實體間動態交互的視覺內容,而非依賴對象與關系標簽之間的虛假相關性。通過引入因果推理,IVRD為在長尾不平衡情況下提升視頻理解提供了有前景的方向,使模型能夠更好地泛化到現實場景中,其中罕見或不頻繁的關系可能對場景的整體理解至關重要。提出視頻問答的不變基礎模型(IGV)我們提出了視頻問答的不變基礎模型(Invariant Grounding for VideoQA, IGV),這是一個模型無關的學習框架,旨在解決答案環境中虛假相關性帶來的負面影響。IGV通過定位問題關鍵(因果)場景來發現因果推理模式。具體而言,它利用因果場景與答案之間的關系在環境變化時保持不變的特性,并強調移除因果場景會導致回答問題失敗。通過定位這些關鍵場景,IGV迫使VideoQA模型專注于準確推理所需的視覺內容,同時屏蔽環境的負面影響,從而顯著提升骨干模型的推理能力。提出視頻問答的等變基礎模型(EIGV)為了進一步提升魯棒性和視覺可解釋性,我們在IGV的基礎上提出了等變基礎模型(Equivariant Grounding for VideoQA, EIGV)。EIGV額外引入了等變性,鼓勵回答過程對因果場景和問題的語義變化敏感。相比之下,不變基礎模型要求回答對環境場景的變化不敏感。這兩種正則化方法協同工作,區分因果場景與環境,同時通過呈現視覺-語言對齊提供更高的透明度。通過結合不變和等變基礎模型的優勢,EIGV為VideoQA創建了一個更魯棒且可解釋的框架。提出視頻問答的時空合理化方法(STR)我們發現了視頻問答的時空合理化方法(Spatio-Temporal Rationalization, STR),以解決長視頻和多對象樣本(即復雜VideoQA)的低準確率問題。由于當前的VideoQA實踐(包括預訓練模型,如SeVila [158])大多使用短視頻片段(約15秒)和少量實體(約2個)進行訓練,它們在復雜視頻(超過80秒和5個對象)上的遷移能力較差。其原因是長視頻不可避免地引入了大量冗余和虛假相關性,因為存在大量與問題無關的環境對象。針對這一挑戰,我們首先強調了建模問題關鍵時間點和空間對象的重要性,然后引入了時空合理化(STR)方法,利用可微分選擇模塊通過跨模態交互自適應地收集問題關鍵的時間點和對象。結合更合理的候選答案解碼策略,STR有效識別了與問題無關的幀和對象作為因果模式,從而提升了預測性能,尤其是在復雜場景中。局限性本論文的一個局限性在于對識別出的因果場景的評估。在整個研究中,我們依賴問答(QA)的整體性能作為發現因果場景質量的間接指標,其依據是更準確的因果場景定位可能提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,必須承認,基于因果場景的直接定量測量將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中尚未實現此類測量。因此,未來的研究將致力于建立一個專門針對因果場景的評估基準,涉及對支撐回答過程的視覺元素進行人工標注。這一舉措將有助于對因果場景發現進行更全面和嚴格的評估。總結我們的貢獻拓展了因果建模在語義視頻理解中的前沿,賦能AI系統掌握因果模式,并在具有挑戰性的視頻理解任務中提升性能。

付費5元查看完整內容

如何構建通用機器人系統? 觀察視覺和語言等領域,其共同主題是通過大規模、精心策劃的數據集進行端到端學習。然而,在機器人技術中,僅靠規模可能不足以應對機器人任務的多模態性、缺乏易于獲取的數據以及在物理硬件上部署的安全性和可靠性挑戰。與此同時,當今一些最成功的機器人系統本質上是模塊化的,能夠利用每個模塊的獨立泛化能力來表現優異。受這些特性的啟發,本論文旨在通過將這些組件整合為一個整體來解決構建通用機器人代理的任務:將模塊化與大規模學習相結合,以實現通用機器人控制。我們首先獨立探討這兩個方面。第一個問題是:如何在學習系統中構建模塊化和層次結構? 我們的關鍵見解是,與其讓代理端到端地學習層次結構和低級控制,不如通過規劃顯式地強制模塊化,從而實現更高效、能力更強的機器人學習。接下來,我們探討規模在構建通用機器人系統中的作用。為了有效擴展,神經網絡需要大量多樣化數據、適應數據的表達性架構以及生成數據的監督來源。為此,我們利用一種強大的監督來源:經典規劃算法,這些算法可以廣泛泛化,但運行成本高,并且需要訪問完美的特權信息才能在實踐中表現良好。我們使用這些規劃算法在模擬中監督大規模策略學習,以生成通用代理。最后,我們考慮如何將模塊化與大規模策略學習統一起來,以構建能夠執行零樣本長期操作的自主現實世界機器人系統。我們提出通過緊密集成模塊化高層和中層規劃、學習的局部控制、程序化場景生成以及用于模擬到現實遷移的大規模策略學習的關鍵要素來實現這一目標。我們證明,這種方法可以產生強大的結果:一個單一的通用代理可以僅通過文本指令解決現實世界中具有挑戰性的長期操作任務。//arxiv.org/abs/2503.06814

付費5元查看完整內容

機器學習和人工智能領域在過去十年中取得了顯著進展。得益于計算和算法的進步,以及大數據集的可獲取性,它已經從純粹的學術研究發展到以工業為主導的領域。隨著企業開始在其專有數據集上訓練模型,數據質量的重要性作為一個關鍵因素浮現出來,與傳統的模型架構改進并行。因此,數據驅動的人工智能(Data-Centric AI,簡稱DCAI)開發方法應運而生,側重于通過系統的數據管理(數據收集、標注和策劃)來提升模型性能,而非單純改善模型本身。

本論文旨在通過全面的文獻綜述,探討數據驅動的人工智能(DCAI)這一新興范式,涵蓋DCAI所涉及的廣泛主題。此外,論文展示了三個關鍵子主題的三篇發表論文:第一篇論文提出了一種新的主動學習方法,適用于高度不平衡的數據集,幫助解決工業應用中常見的類別不平衡問題。第二篇論文介紹了MC層歸一化(MC Layer Normalization),這是一種替代常規層歸一化的方法,通過在特征子采樣過程中引入隨機性,能夠在神經網絡中進行不確定性估計。最后,第三篇論文提出了一個名為Softmatcher的視覺提示框架,用于交互式圖像分割。該框架將基礎模型與高效的概率特征匹配過程結合,使得通過視覺提示實現快速、無訓練的圖像分割成為可能。 這三種方法成功集成到多個IBM產品中,為研究在工業環境中的適用性和影響力提供了有力的證據。本論文展示了數據驅動方法的潛力,表明通過持續關注數據質量,可以在較低成本和更短時間內開發出顯著改進的機器學習模型。

付費5元查看完整內容

多模態學習使神經網絡能夠處理和整合來自不同感知模態(如視覺、語言和聲音)的信息,在情感計算、醫療健康和高級多模態聊天機器人等應用中日益重要。盡管多模態學習具有廣闊的潛力,但仍面臨諸多挑戰,尤其是在數據效率方面。構建高質量的大規模多模態數據集的需求構成了巨大的障礙,限制了大規模多模態模型的可擴展性和可獲取性。 本論文研究了數據高效的深度多模態學習中的關鍵問題,重點關注不均衡的多模態數據選擇、多模態主動學習中的冷啟動問題,以及大型視覺-語言模型(VLMs)中的幻覺問題。 首先,我們分析了傳統主動學習策略的局限性,這些策略往往偏向于主導模態,導致模型在訓練過程中忽略較弱的模態,從而形成不平衡的多模態表示。為了解決這一問題,我們提出了一種梯度嵌入調制(gradient embedding modulation)方法,以確保數據選擇過程中對不同模態的公平性,從而提升模型對強模態和弱模態的均衡利用能力。 基于我們在熱啟動(warm-start)主動學習方面的研究,我們進一步研究了多模態主動學習中的冷啟動(cold-start)問題,即在沒有初始標注數據的情況下如何有效進行數據選擇。為此,我們提出了一種兩階段方法

  1. 多模態自監督學習:通過使用單模態原型(unimodal prototypes)來統一不同模態的表示,從而縮小模態間的表示差距。
  2. 數據選擇階段:引入正則化項以最大化模態對齊度,在不增加數據量的前提下提升模型性能,相較于現有方法取得了更優結果。

在從數據選擇擴展到訓練數據利用的研究中,我們進一步探討了大型視覺-語言模型(VLMs)中的幻覺(hallucination)問題,即模型在生成內容時產生與輸入圖像上下文不符的錯誤信息。我們研究了幻覺現象與視覺依賴性(visual dependence)之間的關系,揭示了某些特定 token 對幻覺的貢獻遠高于其他 token。基于這一發現,我們提出了一種訓練權重調整策略,根據 token 的視覺依賴性來調整訓練過程中的權重分配,從而在無需額外訓練數據或推理成本的情況下有效降低幻覺率。 本論文的貢獻在于推動數據高效的多模態學習,通過優化多模態數據選擇、解決冷啟動問題,以及減少大型視覺-語言模型中的幻覺,本研究為更實用、可擴展的多模態學習系統奠定了基礎,使其在降低數據和計算成本的同時提升模型性能

付費5元查看完整內容

強化學習是一種優化決策的框架,考慮到行動的長期后果。

強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。

在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。

首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。

付費5元查看完整內容

大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。

大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:

**1.1 論文大綱

  • 第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。

  • 第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。

  • 第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。

付費5元查看完整內容

在快速發展的機器學習領域,計算能力和數據的激增推動了深度學習成為學術研究的前沿。隨著模型和數據集規模的不斷擴大,越來越多的注意力集中在算法改進上,以應對日益增長的計算和內存需求。此外,由于其在廣泛應用中的成功,該領域見證了多種多樣的神經網絡架構的涌現,每種架構都有其獨特的訓練挑戰。本論文介紹了利用模型結構來提高資源和算法效率的流行神經網絡架構的高效訓練方法。 在第一部分中,我們首先提出了針對隱式深度學習模型和基于變壓器的語言模型的具有較低計算和內存需求的新訓練算法。具體來說,我們首先提出了一種高效的順序訓練方法,用于隱式平衡模型,消除了在現有訓練過程中求解計算昂貴的固定點方程和投影步驟的需求。然后,我們引入了方差減少的零階方法,以僅使用內存高效的推理過程來有效微調大型語言模型。

在第二部分中,我們轉向探索可微分優化在元優化和矢量量化中的訓練增強應用。具體來說,對于前者,我們提出了一種利用可微分凸優化結構來參數化新型一階優化器的方法。對于后者,我們引入了可微分凸優化作為一種改進通過矢量量化層反向傳播的技術。

我們希望這項工作能為研究社區提供新的視角,并作為進一步發展深度學習高效訓練策略的基礎。 在過去的十年中,人工智能(AI)領域取得了前所未有的進展,這些進展使其在自然語言處理和計算機視覺等多個專門任務領域達到了超越人類的表現。深度學習架構創新和計算改進的協同作用促進了AI的飛躍發展 [1], [2]。

直到最近,深度學習領域的研究通常是專門化的,聚焦于特定領域,如自然語言處理(NLP)或視覺。在每個應用領域,研究的目標是開發旨在解決特定應用挑戰的定制神經網絡架構。例如,循環神經網絡(RNN)及其變體用于處理NLP中常見的序列數據。而視覺應用則常使用卷積神經網絡(CNN),因為它們能夠高效處理視覺數據。這種專門化被認為是必要的,因為不同的數據模態需要定制的處理方法來學習其潛在模式。這促使了各個領域中架構類型的激增。

最近,變壓器和隱式深度學習的引入帶來了從開發領域特定架構的轉變。變壓器模型建立在注意力機制的基礎上,這種機制能夠處理序列數據中的長期依賴關系,支持并行處理,并且與反向傳播兼容。尤其是基于變壓器的架構現在在NLP和視覺任務中都成為了最先進模型的標準,設立了性能基準。隱式深度學習則摒棄了將神經網絡視為顯式、前饋層堆疊的概念,而是通過一組輸出應滿足的條件隱式地表示它們。這種范式提供了一種具有多種實例的表達模型類別,包括神經常微分方程、可微優化和深度平衡模型。具體而言,文獻[3]中展示了隱式模型在許多流行深度學習架構中的推廣,并在各種示例應用中表現出色。

新興的、更具表現力的深度學習架構突顯了開發高效優化策略以釋放其全部性能潛力的重要性。更具體地說,針對不同架構類型開發優化策略是高效模型訓練的基礎,它能有效地從數據中學習。這強調了需要不斷改進訓練技術和架構設計,以充分實現深度學習技術的潛力。

本論文為應對最先進深度學習架構的獨特需求,貢獻了開發定制訓練策略的更廣泛努力。第一部分中,我們首先審視了現有隱式深度學習和變壓器模型訓練方法的資源密集特性,并提出了新算法以克服計算和內存需求的障礙。第二部分我們重點探討如何利用特定的隱式深度學習實例——可微優化作為一種技術來增強元優化和矢量量化中的訓練過程。

第一部分:深度神經架構的高效訓練策略

在這一部分中,我們關注流行架構類型在訓練中面臨的挑戰,并提出旨在緩解這些特定挑戰的優化算法。具體來說,我們旨在克服現有隱式深度學習和基于變壓器的語言模型訓練方法中禁止性的計算和內存需求。

**第二章

我們強調了通過固定點方程描述的隱式模型的現有訓練方法的缺點:這種端到端優化方案利用了計算繁重的隱式微分和投影步驟。我們提出了一種新的順序、分塊訓練算法,適用于上三角隱式深度模型,從而減輕了隱式微分和投影步驟的需求。

**第三章

我們解決了在微調基于變壓器的語言模型(LM)時一階方法的大內存需求。基于零階(ZO)方法僅使用內存高效的推理過程來估計梯度的觀察,我們將ZO方法與方差減少技術結合,以增強基于推理的LM微調的穩定性和收斂性。我們的實驗表明,相比于現有的ZO微調基準,我們的方法在保持顯著較低內存占用的同時,性能也有了持續的改善。

第二部分:通過可微優化增強訓練

在第二部分中,我們集中探討了如何應用可微優化來改進元優化和矢量量化中的學習過程。

**第四章

我們展示了如何利用凸優化來推廣許多現有的一階更新規則。隨后我們提出了一種新的數據驅動優化算法設計方法,利用可微凸優化(DCO)。這種利用以往優化經驗的方法可以提出新的更新規則,能夠高效解決來自相同基礎問題類的新優化任務。通過示例實驗,我們展示了DCO優化器在實際應用中能夠超越流行的一階方法。

**第五章

我們利用DCO來緩解矢量量化(VQ)層帶來的訓練挑戰。嵌入VQ的模型在圖像和語音生成等多個應用中顯示出令人印象深刻的結果。VQ作為一種參數化的K均值算法,在前向傳遞中使用單個代碼本向量對輸入進行量化。盡管強大,該技術面臨實際挑戰,包括代碼本坍塌、不可微性和有損壓縮。為緩解上述問題,我們提出了軟凸量化(SCQ),作為VQ的直接替代。SCQ像一個可微凸優化(DCO)層一樣工作:在前向傳遞中,我們求解出量化輸入的最佳凸組合代碼本向量。在反向傳遞中,我們利用前向解決方案的最優性條件進行微分。隨后,我們介紹了SCQ優化的可擴展放松,并在CIFAR-10 [4]、GTSRB [5]和LSUN [6]數據集上驗證了其有效性。我們訓練了強大的SCQ自動編碼器模型,這些模型顯著超越了匹配的基于VQ的架構,在圖像重建和代碼本使用方面表現出數量級的提升,同時保持了可比的量化運行時間。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

深度學習模型最近徹底改變了在線環境,為改善用戶體驗打開了許多令人興奮的機會。然而,這些模型也可能通過故意或惡意用戶制造或推廣虛假信息來引入新的威脅。在這篇論文中,我們提出了新的方法來對抗網上虛假信息的擴散。我們專注于自動事實驗證的任務,即根據外部可靠來源檢查給定索賠的準確性。我們分析了事實驗證系統所需的規范,并描述了對大量全面的免費文本信息資源進行操作時對效率的需求,同時確保對具有挑戰性的輸入的魯棒性和對參考證據修改的敏感性。我們的方法是通用的,正如我們所證明的,提高了事實驗證之外的許多其他模型的穩健性、效率和可解釋性。

在本文的第一部分,我們重點研究了句子對分類器的魯棒性、敏感性和可解釋性。我們提出了在大型策劃數據集中識別和量化特性的方法,這些方法不希望導致模型依賴于不可普遍化的統計線索。我們演示了對比證據對如何通過強制模型執行句子對推理來緩解這一問題。為了自動獲得這些例子,我們開發了一種新的基于原理的去噪管道,用于修改反駁證據以同意給定的主張。此外,我們提出了一個半自動的解決方案,從維基百科修訂中創建對比對,并共享一個新的大型數據集。

在第二部分中,我們轉向提高證據檢索和聲明分類模塊的推理效率,同時可靠地控制它們的準確性。我們引入了新的置信度測度,并對共形預測框架進行了新的擴展。我們的方法可以為每個輸入動態分配所需的計算資源,以滿足任意用戶指定的容忍水平。我們在多個數據集上演示了我們經過良好校準的決策規則可靠地提供了顯著的效率提高。

//dspace.mit.edu/handle/1721.1/140022

付費5元查看完整內容
北京阿比特科技有限公司