亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,深度學習取得了顯著成功,但訓練神經網絡通常涉及一定的猜測和超參數調優。優化方法的一個關鍵方面是“隱性偏差”,即優化設置中的細微變化(在收斂時不影響小訓練損失)可能顯著改變模型收斂的解,從而影響測試性能。本論文提供了一系列數學結果,系統地刻畫了不同訓練方式中的這種隱性偏差。 本論文的第一部分探討了梯度下降,即使沒有顯式正則化,也可能收斂到最大化邊界的解。先前的研究已經為同類神經網絡的邊界一階最優性提供了理論依據,但由于其非凸性,邊界的全局最優性并無保障。本論文在數據具有簡單結構時提供了深入的理論分析:對于線性可分的數據,我們展示了關于是否可以達到邊界全局最優性的正反結論。此外,我們展示了如何利用基于邊界的視角來解釋神經網絡訓練中的一些有趣的泛化現象,無論是否存在顯式正則化,包括簡約偏差(simplicity bias)和頓悟現象(grokking phenomena)。

論文的第二部分提出了兩個結果,揭示了有限學習率引發的隱性偏差。許多現有分析,包括第一部分中的基于邊界的分析,描述了即使在學習率無限小的情況下也成立的隱性偏差。然而,實踐中通常使用有限學習率,并且觀察到它有助于泛化。我們分析了有限學習率下的全批次梯度下降(GD),結合歸一化層和權重衰減等關鍵訓練組件,如何產生向平坦極小值的偏差,而平坦極小值與更好的泛化正相關。此外,我們研究了隨機優化中的隱性偏差,并通過隨機微分方程(SDE)為自適應梯度方法(如 Adam 和 RMSprop)推導了嚴謹的動態近似,以捕捉有限學習率的影響。在此基礎上,我們還推導出平方根縮放規則,作為在更改批次大小時調整自適應梯度方法的優化超參數的實用指南。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

鑒于機器人在現實世界中采取的行動具有重要影響,必須確保它們的部署在設計上盡可能安全和可信。因此,本論文解決了一個稱為分布偏移的問題。當深度學習系統暴露于與其訓練數據分布不同的數據時,就會發生分布偏移,從而導致不可預測和意外的部署場景。本論文針對語義分割任務,研究了如何檢測由于分布偏移而導致的錯誤,以防止這些危險場景的發生。在討論了分布不確定性的本質,即由于分布偏移引起的錯誤原因,以及現有文獻之后,本論文提出了三種方法,這些方法在駕駛數據的語義分割過程中進行分布不確定性估計。第一種方法將問題視為大規模的分布外檢測問題,其中使用大規模圖像數據集訓練一個分割神經網絡,以區分分布內和分布外的訓練實例。該訓練方法涉及對比損失函數和數據增強程序,以減少分布內和分布外實例之間的外觀差異。第二種方法借鑒了第一種方法的經驗,即使用本質上與分布內圖像相比分布偏移較小的分布外訓練圖像,而不是依賴數據增強。這使得區分它們的任務更加具有挑戰性,因此學習到的不確定性估計更加穩健。出于這個原因,該方法設計使用一個未標注的分布偏移駕駛數據集,并提出了一種訓練程序以解決缺乏標簽的問題。最后,第三種方法結合了前兩種方法的思路,通過使用大規模圖像數據學習通用特征表示,并使用未標注的分布偏移駕駛數據集將這種表示調整為針對駕駛圖像的分布不確定性估計。

付費5元查看完整內容

人類智能的標志是能夠通過應用從先前任務中學習到的相關知識來處理新任務。因此,人類在適應過程中只需要少量的新任務示例。相比之下,深度學習模型在實現這種卓越的泛化能力方面仍然落后于人類,特別是在數據有限的新任務中。這種學習方式被稱為資源高效學習。在本論文中,我們探討了面向具有視覺能力的深度學習模型的資源高效問題的公式化。我們首先研究了應用于長尾圖像分類的純視覺神經模型。在長尾圖像分類中,尾類的訓練樣本數量稀少,而頭類樣本則豐富。訓練分布的不平衡使得學習良好的尾類表示變得困難。我們提出了插值中心對比學習(ICCL)方法,通過利用豐富的頭類樣本來促進尾類表示的學習。我們在頭類和尾類之間創建插值樣本,并使用新的插值中心對比損失來優化表示。我們在多個長尾評估數據集上展示了ICCL的有效性。

接下來,我們將研究擴展到涉及圖像和文本模態的視覺語言模型(VLMs)。我們調查了零樣本視覺問答(VQA),該方法限制VLMs訪問任何VQA訓練樣本。我們設計了一個模塊化框架PnP-VQA,該框架執行零樣本VQA并且不需要訓練。我們利用自然語言和網絡可解釋性技術作為接口,結合多個預訓練模型。具體來說,我們首先通過關注相關的圖像區域生成多個問題引導的描述,然后將這些描述作為上下文輸入到預訓練語言模型中以回答問題。我們的問題引導描述能夠捕捉詳細的視覺屬性并包含答案詞,從而幫助問答模型獲得正確答案。我們的PnP-VQA在多個VQA基準測試中實現了最先進的結果。

我們最后研究了視覺語言模型(VLMs)的零樣本評估。至關重要的是,VLMs在零樣本設置下的測試任務性能應反映其真實的泛化能力,這樣我們才能對VLMs進行公平比較并跟蹤其進展。當測試任務與VLM的訓練任務高度相似時,該VLM的性能可能會高于那些沒有這種相似性的其他VLMs。因此,我們進行了遷移學習實驗,以研究訓練任務和測試任務之間的相似性,這是在評估VLMs時通常未考慮的。此外,我們通過利用遷移性能上的因子分析,直接從數據中發現潛在的視覺語言技能。我們證明了因子分析是一種有效的數據驅動方法,可以識別出合理但令人驚訝的視覺語言技能。 此外,我們通過提出一個新的基準測試OLIVE,解決了缺乏關注野外VLM評估的視覺語言基準的問題。OLIVE模擬了用戶在實際、現實場景中對VLMs的多樣化查詢。

//dr.ntu.edu.sg/handle/10356/174637

付費5元查看完整內容

深度學習的進步在許多自然語言處理(NLP)任務中取得了巨大成就。考慮到語言的性質,即序列數據,大多數NLP任務可以框架化為序列學習框架,如文本生成。作為現代NLP技術最重要的基礎之一,自回歸生成模型在大量NLP任務中實現了卓越的表現。因此,本論文強調了針對不同NLP任務改進自回歸生成模型的重要性。盡管許多任務可以自然地適應序列學習框架,但其中一些任務,例如構建話語解析樹,需要復雜的設計才能適應神經模型。因此,本論文首先強調了一個新穎的統一框架用于話語解析,該框架以自頂向下的深度優先方式構建話語樹,并將任務框架為一個自回歸生成任務,其目標是預測給定文本片段的節點位置。所提出的方法通過廣泛的實證實驗證明是有效的。

此外,我通過提出一個層次解碼器擴展了上述框架,該解碼器利用了當前處理節點的父節點和兄弟節點的信息。所提出的解碼器利用了樹結構的性質,并進一步提高了話語解析和依存解析任務的實驗性能。 另一方面,用于訓練自回歸生成模型的事實策略,即交叉熵損失和教師強制,在某些方面被證明是有問題的。例如,交叉熵損失,作為一種廣泛使用的訓練目標函數,常常導致文本生成中的文本退化,而教師強制則遭受曝光偏差問題,即訓練和測試設置之間存在不匹配。針對文本退化,我引入了一類遞減注意力機制,該機制強制序列到序列模型中通過交叉注意力計算的覆蓋度的次模性。所提出的遞減注意力在幾個神經文本生成任務上取得了顯著改進,包括文本摘要、機器翻譯和圖像段落生成。

進一步,我提出了一個新的訓練目標ScaleGrad,以替代交叉熵,顯著減少了不同文本生成任務中的退化問題。實際上,ScaleGrad可以擴展到文本退化之外的問題。它為通過直接修改輸出層中的梯度信息將不同的歸納偏差注入文本生成模型提供了廣泛的靈活性。

接下來,對于曝光偏差問題,本論文引入了一種基于訓練準確性的新型計劃采樣,與現有的計劃采樣方法相比,只需要極少的超參數調整。此外,提出了一種新穎的模仿損失,以進一步強制模型的生成行為與教師強制行為相匹配。此外,本論文證明,減少曝光偏差可以提高語言模型對重復和有害錯誤的魯棒性。

付費5元查看完整內容

機器學習領域見證了對從未整理數據中學習的日益濃厚的興趣,這涉及從未經精心整理或標記的數據中訓練模型。然而,這種類型的數據通常嘈雜、不完整,并充斥著錯誤,使得機器學習算法難以有效學習。本論文關注于開發能夠有效利用未整理數據同時對數據中固有的噪聲和錯誤具有韌性的強健學習方法。具體來說,我們調查了對比學習的韌性,這是一種通過比較語義上相似和不同的樣本對的自監督表示學習的突出技術。 首先,我們深入探討了從未標記數據中學習所固有的基本挑戰。我們發現,消除假陰性和鼓勵困難的負面案例顯著提高了下游性能和訓練效率。隨后,我們將焦點轉移到數據集內無處不在的噪聲。我們特別關注于假陽性對的出現,這是多模態對比學習環境中特別普遍的現象。

在我們研究的最后部分,我們思考了從大規模模型中有效地消除偏見。觀察到,當模型在有偏見的未整理數據上進行預訓練時,它們通常會繼承許多不適當的偏見,從而導致傾斜的預測。為了糾正這一點,我們設計了一種獨立于任何數據或訓練要求的去偏算法。

貫穿整篇論文的共同線索是對未標記、嘈雜和有偏見數據分別所關聯的獨特錯誤類型的韌性和全面的緩解方法,為機器學習研究領域提供了實質性的貢獻。

近年來,機器學習取得了顯著進展,尤其是在使用標記數據訓練模型的監督學習領域。然而,獲取大量標記數據可能是一個成本高昂且耗時的過程,這促使越來越多的人對從未整理數據中學習產生了興趣。 未整理數據指的是那些未經仔細整理或標記的數據,這些數據通常包含噪音,不完整且包含錯誤。從這類數據中學習對機器學習算法來說是一個重大挑戰,因為它們必須能夠有效利用可用信息,同時對固有的噪聲和錯誤具有韌性。本論文關注于以下基本目標:能夠從未整理數據中學習的強健學習算法。 為了實現這一目標,我分析了對比學習,這是一種通過比較語義上相似和不同的樣本對來進行自監督表示學習的突出技術[24, 81, 147]。傳統上,監督學習一直是人工智能(AI)進步的基石,依賴大量的標記數據來訓練模型。然而,收集和標記如此大量的數據可能既昂貴又耗時。此外,在現實世界的應用中,標記數據往往稀缺甚至無法獲得。為了克服這些障礙,研究人員轉向使用無標記數據的無監督和自監督學習技術來訓練模型。然而,這些技術在性能上通常落后于監督方法,主要是因為定義引導模型走向有用表示的目標很困難。 對比學習就在這里發揮了作用。通過設定目標,將語義上相似(正面)和不同(負面)的數據點對在學習到的特征空間中拉近或推遠,對比學習提供了一種從無標記數據構建有用且富有信息的表示的方法。對比學習在包括計算機視覺、自然語言處理、圖表示學習和強化學習等多個領域的能力已被證明,實現了許多基準測試中的最先進性能。

本論文解決了上述瓶頸問題,分為三個部分:第一部分:從未標記數據中學習,第二部分:從嘈雜數據中學習,第三部分:從有偏見的數據中學習。

在第一部分,我解決了負樣本的兩個關鍵問題:假負樣本和困難負樣本。我們首先在第2章提供問題形式化和對比學習的背景。在第3章中,基于Chuang等人的研究[36],我用一種新的對比損失解決了假負樣本的問題。然后在第4章,基于Robinson等人的研究[163],我們通過重要性采樣估計擴展了提出的損失,包括困難負樣本采樣。

在第二部分,我將揭示假陽性樣本的問題,特別是在多模態環境中,并開發針對它的強健損失函數。在第5章中,基于Chuang等人的研究[39],我將對比學習與二元分類聯系起來,并為對比損失開發強健的損失函數。第6章提供了所提出損失的理論基礎,即Wasserstein互信息的變分下界。

在第三部分,我將討論如何消除大規模基礎模型中的偏見,基于Chuang等人的研究[40]。第7章概述了基礎模型的興起,并提出了一種去偏算法,以高效地消除視覺-語言基礎模型的偏見。 第8章建立了表示學習與泛化理論之間的聯系,使用邊界界限,從而為對比學習提供了理論驗證。作為結語,第9章總結了本論文,并進行了一些討論。

付費5元查看完整內容

本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。

論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。

這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。

近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。

付費5元查看完整內容

潛在變量模型假設某些潛在變量在觀測數據中缺失,這種模型已經被長期研究,并在實踐中找到了眾多應用。使用潛在變量的機器學習不僅可以提高預測的準確性,而且在增強數據的可解釋性以及發現數據背后的原理上起到了關鍵作用。本論文致力于為各種潛在變量模型的學習開發高效和可證明的算法。第一和第二個主題涉及使用無標簽樣本學習混合模型,這是一種對異質和復雜數據進行建模的強大技術。考慮了兩種具體設置:(1) 低秩模型的混合,將低復雜性的結構先驗整合到高維的混合線性回歸中;(2) 線性動態系統的混合,由于時間序列數據之間的時間依賴性,模型估計尤為具有挑戰性。對于這兩個問題,我們設計了有原則的和模塊化的算法,并正式導出了可靠模型估計所需的樣本復雜度。此外,實證證據證實,我們的方法有潛力推廣到更廣泛的設置,超出我們的理論研究所涵蓋的范圍。第三個主題涉及根據邊緣上的成對比較對一組項目進行排名,這些項目構成了一個連接圖。我們關注經典的Bradley-Terry-Luce模型,該模型假設成對比較的噪聲測量是基于項目的某些未知潛在分數生成的。在關注潛在得分估計的前提下,我們首先導出了在一般圖形拓撲下最大似然估計的接近最優的逐項錯誤,這是通過觀察統計估計和迭代優化算法之間的關聯來證明的。此外,我們開始研究具有局部性的圖形中的排名,這在實踐中由于物理約束而出現;我們的貢獻包括(1)確定局部性不受影響的條件,以及(2)設計新穎的分而治之算法,即使在最小的樣本復雜度下也能保證達到接近最優的錯誤,同時享有某些計算優勢。

付費5元查看完整內容

連續數據和離散數據之間的差異是計算機科學、數學以及認知科學等相關領域的一個基本問題。歷史上,大部分計算都是在離散領域進行的,但連接主義提供了一種使用連續向量表示數據的替代技術,這種替代技術在過去十年深度學習的崛起中愈發突出。本論文探索了將連續的高維數據(像深度學習那樣成功地處理)轉換為離散的緊湊表示(如傳統計算所用)的技術。五個主要章節每一個都介紹了一個新的技術,這些技術都有助于實現這個目標,但也可以作為一個獨立的研究項目來閱讀。這些技術主要涉及深度學習和聚類,并且,與一般的表示學習一致,主要(但不完全)處于無監督的環境中。有些章節分別關注深度學習或聚類,以形成連續數據的離散表示。其他章節則探討如何在一個單一的端到端學習系統中結合深度學習和聚類。這樣的組合本身就涉及到連續和離散之間的交界,因為深度學習操作的是前者,而聚類操作的是后者。能夠在連續和離散的世界之間搭建橋梁,也符合人工智能模擬人類智能的原始目標,因為人類認知的重要部分就是在連續和離散的世界之間的運動。我們的感官輸入主要是連續的,但我們使用的自然語言和推理裝置大都是離散的。有朝一日能夠像人類一樣思考和行動的機器也必須學會做同樣的事。

付費5元查看完整內容

過去十年,深度學習在幾個重要應用中取得了巨大成功,但數學理解卻落后于它驚人的經驗成功。經典的機器學習理論不足以解釋深度學習中的各種新現象,并為算法選擇提供指導,很大程度上是由于過于簡化的黑盒觀點忽略了模型與優化算法之間的相互作用。本文提出了一組理論結果,考慮了模型和優化算法之間的相互作用,旨在彌合深度學習的理論和實踐之間的差距,以實現泛化和優化。在優化方面,我們首先通過呈現一個在經驗上工作良好的指數級增長的學習率計劃來說明傳統優化理論和具有標準化層的深度網絡之間的不匹配。本文通過建立其與具有權重衰減的SGD的等價性來解釋這種驚喜,并證明其收斂速度快且對初始化規模不敏感。在此基礎上,我們設計了一種名為SIBERT的BERT變體,它可以被SGD訓練,因此比ADAM等自適應算法更節省內存。最后,提出了第一個可證明的通用場景,根據經驗觀察,梯度下降以非單調的方式減少損失。在泛化方面,本文研究了優化算法的隱式偏差,即盡管存在因模型過參數化而泛化能力差的解,但算法仍返回泛化能力好的解。本文首先給出了一個嚴格的理由,為什么卷積網絡比全連接網絡的樣本效率更高。為經驗觀察提供了理論證明,包括矩陣分解在內的深度線性網絡,是由從小初始化隱偏置到低秩解的梯度下降訓練的。我們還確定了一個條件,即梯度下降與鏡像下降等價,可以用來理解非線性模型的隱式偏差,并恢復幾個先前的結果。進一步表明,當有一定的梯度噪聲或其學習率大于2的損失銳度時,梯度下降對"更平坦"的解決方案有隱性偏差。

付費5元查看完整內容

自從深度學習和深度強化學習出現以來,已經有大量的經驗成功地利用某種人工神經網絡來解決給定的優化問題。然而,許多公司的內部運作方式只被人們模糊地了解,并隱藏在成功的故事中。通過揭示各種含義,這篇論文試圖建立一個理解為什么某些神經網絡架構設計工作,以及關鍵的是為什么其他的不能工作。本文不關注實證結果,而是從研究反向傳播在架構設計和訓練中的簡單數學含義開始。然后,提出一種稀疏的全連接層替代方案,以避免信號傳播中的瓶頸。它進一步展示了如何設計單調神經網絡,以及如何使用這些網絡在連續動作空間控制設置中為智能體提供更靈活的策略表示。這本書進一步討論了將神經網絡分成多個模塊的權衡和設計。特別是,模塊化的需求在目標相互沖突的多任務設置中得到了體現。最后,討論了最近提出的注意力架構及其隱含含義。貫穿整篇論文的結果強調了超參數之間的關聯效應和定制架構設計的必要性。本文適合有技術背景的讀者。它被寫得讓剛開始接觸神經網絡的人也能理解。然而,即使是該領域的資深研究人員也可能對所呈現的獨特觀點感興趣。

//www.research-collection.ethz.ch/handle/20.500.11850/541752

作為一個由經驗結果驅動的領域,深度學習是眾多神經結構設計方案的發源地。幾乎每天都有新的論文發表,建議對某些架構組件進行輕微修改,以提高性能。然而,由于大量的混雜因素,通常不清楚性能的提高實際上是由于架構的變化,還是由于超參數的差異,數據預處理的變化,表示能力的增加,或者只是初始化參數的幸運抽獎。本文著眼于深度強化學習的應用前景,旨在更好地理解神經網絡的基本內部工作原理及其設計。

特別地,本文首先強調了反向傳播的隱式內存需求、常用激活函數的工作范圍以及體系結構組件對梯度傳播的影響。展示了架構瓶頸和門控機制如何導致梯度消失,并討論了殘差連接對梯度動態的影響。它還強調了通過體系結構提供算法結構的必要性,以及結構和有利的訓練動態之間的內在權衡。在第一個實際示例中,本文提出了一種全連接層的稀疏替代方案,可以減少參數計數,而不會引入不必要的瓶頸。在強化學習方面,本文提出了一種在連續動作空間環境中控制的新方法。該方法基于分位數回歸和神經網絡的單調性約束。這種組合允許在網絡參數中隱式地表示策略,從而提供了表示復雜動作分布的靈活性。這種策略的必要性在競爭游戲和約束內存設置中得到了證明。此外,該方法還提高了經典控制問題的學習性能。本文進一步探討了多任務學習的局限性,并針對干擾任務目標的問題提出了兩種解決方案——一種是基于注意力架構先驗的解決方案,另一種是基于與無監督任務聚類配對的神經網絡解決方案。這兩種方法都有效地緩解了這個問題,從而提高了性能,并在不同的環境中具有更廣泛的適用性。 本文最后深入研究了注意力架構和transformer對超參數的敏感性。它強調了將注意力權重約束到概率單形的含義,以及這些如何反映訓練表現。它進一步展示了內部softmax激活如何像sigmoid一樣容易飽和,以及transformer在初始化時如何不是序列長度獨立的。在對抽象任務的大規模實證研究中,將Transformer與可選架構設計進行比較。結果突出了超參數選擇的相關效應,不同架構對數據偏差的魯棒性,以及算法對齊對底層任務的重要性。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容
北京阿比特科技有限公司