亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**計算機視覺系統正日益被部署到現實世界的應用中,例如自動駕駛汽車上的識別模型、演示軟件中的字幕模型以及視覺搜索引擎背后的檢索模型。**在構建這些真實的計算機視覺系統時存在許多實際挑戰,其中許多與數據的不完美有關。具體來說,現實世界的數據可能會因分散注意力的虛假相關性而產生偏差,不同類別存在不平衡的長尾數據,具有大量缺陷的噪聲數據,等等。本文研究了如何在不同的視覺任務中解決三種常見的數據缺陷。首先,研究了圖像分類中的偏置問題。本文提出一個新的基準,通過數據增強具有可控偏差。對現有的偏差消除方法進行了徹底的比較,并提出了一種簡單的方法,優于其他更復雜的對比方法。其次,研究了圖像描述中的長尾問題。展示了現有的字幕模型如何更喜歡常見的概念,并由于長尾而生成過度通用的字幕。為解決該問題,在評估方面,提出了一種新的指標來同時捕捉唯一性和準確性。在建模方面,引入了一種推理時間重排序技術,以生成多樣化和信息量大的標題。最后,對視頻檢索中的噪聲問題進行了研究。展示了噪聲注釋如何在模型訓練和評估中引入挑戰。然后,我們提出一種簡單而有效的多查詢方法來解決這個問題。通過大量的實驗表明,多查詢訓練可以帶來優越的性能,而多查詢評估可以更好地反映檢索模型的真實能力。

付費5元查看完整內容

相關內容

,又譯 普林斯敦大學,常被直接稱為 普林斯頓,是美國一所私立研究型大學,現為八所常青藤學校之一,綽號為老虎。

我們在實踐中部署高性能神經網絡時面臨許多挑戰。這些挑戰主要是由于神經網絡的規模,既適用于訓練也適用于推理。因此,壓縮神經網絡以使其訓練和運行更高效至關重要,并自神經網絡發展初期以來一直是研究的平行方向。深度學習中的兩種主要壓縮技術是剪枝和量化,它們是本論文的重點。本論文探討了如何利用高階梯度(元梯度)的信息來改進深度學習壓縮。我們首先發現剪枝公式中的一個根本性限制:盡管許多方法(如基于顯著性的剪枝)在剪枝后進行訓練或微調階段,但參數顯著性只關注參數的一個快照,而沒有考慮到參數的可訓練性。我們展示了如何使用元梯度作為更具信息量的信號,在初始化時找到更好的可訓練子網絡。接下來,我們研究量化神經網絡,并展示了如何在正則化方案中使用元梯度來學習具有對訓練后量化固有魯棒性的模型。最后,我們研究雙重壓縮問題,即使用神經網絡壓縮數據源。我們從圖像開始,提出了一種簡單的無自編碼器架構,其中我們存儲神經網絡的權重而非圖像像素的RGB值。然后,我們使用元梯度來元學習一個基礎網絡,以攤銷每個輸入訓練一個網絡的成本。我們學習壓縮的一個顯著優勢是它變得對數據類型不可知,并且我們展示了在2D圖像之外的各種數據類型上的結果。重要的是,我們評估了標準DNN壓縮技術(如量化)在這種新型神經網絡中的實用性。

1. 引言

近年來,深度學習的成功是由于幾個幾乎同時發生的突破和范式轉變而成為可能:訓練中采用反向傳播,卷積神經網絡的進步,大規模數據集的可用性,至關重要的是,由于GPU演變為通用、高度并行、多線程的計算平臺,計算能力的大幅提高。隨著算法和計算能力的不斷進步,訓練可以利用大量數據并在廣泛應用中做出非常有價值的預測的大型神經網絡現在已經是我們力所能及的事情。

然而,隨著我們進入一個希望在生活中越來越多的方面使用高性能神經網絡的時代,在實踐中部署它們面臨許多挑戰。這些挑戰主要是由于神經網絡的規模。現在,神經網絡很容易擁有數百萬或數十億個參數,并且沒有跡象表明我們的速度正在放緩,特別是在一些應用程序,如自然語言處理,我們還沒有看到縮放定律的結束。這可以在圖1.1中看到,它顯示了在兩個特定的視覺和自然語言處理任務中模型大小和性能的趨勢。 神經網絡的規模帶來的挑戰適用于訓練和推理。在推理方面,人們越來越希望在設備上私下運行模型。一些示例應用程序是語音到文本識別和自動字幕,其中模型必須在設備上實時運行。需要運行此類應用程序的設備通常是手機、嵌入式系統和物聯網設備,這些正是在內存、計算、延遲和能耗方面具有最嚴格要求的平臺類型。 除了推理之外,訓練也會受到神經網絡和數據集規模較大的阻礙。首先,與推理相比,訓練需要更多的內存。這是因為在訓練過程中,我們需要保留網絡生成的中間值,以便完成反向傳播。這也使得并行化變得困難,因為我們無法進行新的前向傳遞,直到梯度找到它們自己的路回到第一層。其次,訓練大型神經網絡比較小的模型更脆弱和不穩定。Zhang et al.(2022)最近發布了一個1750億參數的語言模型,除了模型參數,他們還包括訓練日志,這表明訓練如此大的模型涉及大量的工程。我們將在后續章節中看到,這對需要重新培訓或針對特定平臺的高效方法具有深遠影響。

因此,壓縮神經網絡以使其更有效地訓練和運行是至關重要的,自神經網絡發展早期以來一直是一個平行的研究方向(LeCun等人,1990a;Hassibi等人,1993b)。在介紹各種用于提高神經網絡效率的方法之前,有必要快速回顧一下在這個過程中我們關心的主要指標(Reagen等人,2017;Sze等人,2020):

準確性或模型性能。這個指標決定了我們在不影響模型性能的情況下提高模型效率的成功程度。準確率對于類平衡分類任務來說是一個合適的度量指標,本文中的大多數實驗都是這樣的,在其他任務中,準確率可以用其他指標來代替,以提高模型的性能。

能耗和動力。能耗指的是每單位能量可以處理的數據量,在使用電池供電的設備上運行時,能耗變得至關重要。它是決定裝置形狀因素的一個主要因素。另一方面,功率消耗是單位時間內消耗的能量,它決定了設備的冷卻要求。它與移動設備和服務器安裝都相關。

存儲和內存。需要更多的存儲和內存是神經網絡規模帶來的第一個挑戰。它是決定模型所需硅芯片面積的一個主要因素。

吞吐量和延遲;除了存儲權重和中間值之外,我們還需要足夠快地移動數據。延遲衡量的是這個要求,定義為從輸入數據到達模型到輸出結果的時間。它決定了模型是否可以實時運行,這在許多應用中至關重要,如機器人,自動駕駛和游戲。

要使神經網絡對這些指標有效,需要在每個堆棧級別進行優化。棧的一端是用于訓練和運行模型的硬件平臺。半導體制造工藝的不斷進步導致了更密集的晶體管,從而產生了更強大和更節能的芯片,但深度學習工作負載尤其影響了CPU和GPU的硬件設計,并產生了專門針對神經網絡的定制加速器。

本文的主要貢獻是研究了元梯度在各種壓縮任務中的應用。本文主要關注視覺應用中的神經網絡,并解決以下中心問題: 高階梯度的信息可以通過量化和修剪來改進深度神經網絡的壓縮嗎? 除了研究神經網絡的壓縮外,我們還研究了對偶壓縮問題,即用神經網絡壓縮數據,并解決以下問題:神經網絡的參數可以用于存儲和壓縮數據嗎?如果是,量化和剪枝技術是否仍然適用于此設置?

除了提供必要背景材料的第2章和總結工作的第6章外,本文的主要材料分為三章(如圖1.2所示),每一章都專注于一個壓縮任務。

付費5元查看完整內容

近年來,從一般物體抓取到手部操作,深度學習實現了許多令人興奮的機器人操作能力。盡管如此,能夠進入以前從未見過的家庭環境,并像人類一樣完成各種任務的典型家用機器人還遠遠不現實。雖然在實現這一目標方面有許多問題要解決,但中心瓶頸之一在于從機器人傳感器輸入中學習控制策略,這些策略可以泛化到新的任務、對象和環境。例如,一個在家做飯的機器人無法負擔從頭開始學習每一道菜,也無法為機器人可能遇到的每個新廚房硬編碼狀態特征。實現這種泛化的一個潛在途徑是在包含許多任務、對象和環境的廣泛數據分布上訓練機器人。事實上,這種將大型、多樣化的數據集與可擴展的離線學習算法(例如,自監督或廉價監督學習)相結合的方法,是自然語言處理(NLP)和視覺最近取得成功的關鍵。然而,直接將此方法擴展到機器人領域并非易事,因為我們既沒有足夠大和多樣化的機器人交互數據集,也不清楚哪種類型的學習算法或監督來源可以使我們從這些數據集中可擴展地學習技能。

本文的目標在于解決這些挑戰,并在機器人操縱的背景下重現大規模數據和學習的方法。

本文的第一部分將討論如何可擴展地收集在物理世界中交互的機器人的大型和多樣化數據集,以及如何在這種離線機器人數據集上有效地預訓練自監督世界模型。然后,我們將探討如何使用這些預訓練的世界模型,通過將它們與規劃相結合來解決任務,首先用于解決長視距操縱任務,其次用于完成自然語言指定的任務。最后,我們將討論如何超越機器人數據,并解鎖存在于網絡上的廣泛數據源,如人類的視頻,以使機器人更有效地學習,特別是通過獎勵學習和視覺預訓練。本文將通過討論公開的挑戰來結束,特別是如何統一模擬、真實世界的數據收集和人類視頻的范式,以實現通用家用機器人的愿景。

付費5元查看完整內容

本文為強化學習和計算機視覺應用構建深度學習模型,重點是設計新穎有效的表示學習框架。所提出的方法有兩個主要方面:神經網絡模型架構設計和目標工程。為演示如何操縱每個方面,深入研究了人工智能中兩個重要研究領域的代表性應用,即強化和計算機視覺。在這兩個領域,都強調了如何操縱抽象表示,以從目標任務和可用數據類型中建立強大的歸納偏差。我們希望我們的例子可以為今后處理相關領域和其他領域的問題提供啟發。 論文的第一部分研究了強化學習中的代表性任務。我們的貢獻如下:

作為起點,旨在改善通用和探索性行為,并反映一類流行的無模型、基于策略的強化學習算法、actor - critic方法的環境不確定性。本文提出隨機actor-critic方法(Shang et al., 2019b; Chapter 2;第2章)它采用了一種有效而靈活的方式將隨機性注入到actor-critic模型中。隨機性被注入到高級抽象表示中。測試了幾個用隨機激活增強的actor-critic模型,并在廣泛的Atari 2600游戲、連續控制問題和賽車任務中證明了它們的有效性。

接下來,我們將注意力轉向如何在一個更具體但更常見的RL問題設置中進行結構化探索:一個承載著不同任務套件的持久環境或世界。本文提出對環境進行世界圖分解,以加速強化學習(Shang et al., 2019a; Chapter 3;第3章)世界圖的節點是重要的航路點狀態,邊表示它們之間的可行遍歷。在識別世界圖之后,該框架將其應用于分層強化學習算法,以將探索偏向于與任務相關的航路點和區域。在一套具有挑戰性的迷宮任務上徹底評估了所提出方法,并表明使用環境的世界圖抽象可以顯著加速強化學習,實現更高的回報和更快的學習。

最后,考慮多智能體必須合作以實現共同目標的場景,這是多智能體強化學習的一個子集。建議將以智能體為中心的表示納入多智能體強化學習(Shang等人,2020a;第四章)以兩種方式。引入了一個以智能體為中心的注意力模塊,具有跨智能體的顯式連接。注意力模塊建立在智能體的抽象表示之上。利用了一個以智能體為中心的無監督預測目標,作為輔助損失或預訓練步驟的基礎。在谷歌Research Football環境和DeepMind Lab 2D上評估了這些方法,表明它們導致了智能體之間更復雜的合作策略的出現,并提高了樣本效率和泛化能力。

論文的第二部分將重點轉移到各種計算機視覺任務和領域的無監督學習。我們的貢獻如下:

為了更好地利用無標簽數據并增強無監督圖像建模,本文提出通道遞歸變分自編碼器(crVAE) (Shang等人,2018;第5章)。它將抽象卷積特征的跨通道循環連接集成到推理和生成步驟,允許以全局到局部、粗到細的方式捕獲由此產生的高級特征。結合對抗性損失,產生的通道循環VAE-GAN (crVAE-GAN)在生成不同光譜的高分辨率圖像方面優于基線VAE-GAN,同時保持相同的計算效率水平。

下一步,進一步擴展通道循環框架,并提出了注意力的條件通道循環自編碼;)屬性條件人臉合成。評估通過定性的視覺檢查和定量的指標進行,即inception分數、人類偏好和屬性分類精度。

考慮對無標記視頻序列進行無監督學習,并建議學習視頻級靜態和動態表示(Shang等人,2020b;第7章從時間一致性和動力學角度對視頻進行分解。本文展示了在幾個應用中學習到的表示的重要性,包括一個新的動力學檢索任務,在人臉、人類活動和機器人抓取數據集上。

付費5元查看完整內容

**隨著大型模型的發展以及數據的爆炸性增長和可用性,深度學習在眾多現實應用中取得了巨大而廣泛的突破。**然而,深度學習模型通常具有過高的計算和內存成本,不適合在移動設備或邊緣設備上進行實際部署。此外,深度學習模型面臨著學習和快速適應的挑戰,從只有幾個例子來解決新的任務。因此,本文提出了學習計算效率高的模型架構的技術和提高少樣本學習能力的方法。**我們從子空間分析方法及其在特征選擇問題中的應用開始。然后將這些方法擴展到深度神經網絡結構學習(deep neural network structural learning, SL)中,目的是減少冗余參數,以獲得能夠保持甚至提高精度的最優降維模型。**還介紹了基于混合剪枝-再生長技術的更高效的SL方法和可以跨更多維度降低模型的更通用的SL方法。除了靜態模型設計之外,本文還提出了動態神經網絡方法,可以在推理過程中根據不同的輸入動態調整模型權重和結構,以控制計算效率并提高表示能力。除了模型效率外,還提出了訓練模型的技術,可以從幾個例子中快速泛化。本文提出一種少樣本架構自適應方法,通過元學習一個任務感知架構控制器,為不同的少樣本任務定制特定于任務的模型結構。與傳統的NAS方法需要對每個新任務進行單獨的搜索成本不同,所提出方法在一次性元訓練成本后,在幾分鐘內從GPU數據集中直接生成特定于任務的模型結構。最后,提出了一種基于語言輔助表示的掩碼圖像預訓練的跨模態自監督學習框架。由此產生的模型產生了高質量的可遷移表示,提高了許多計算機視覺任務的準確性,并對對抗性/分布外樣本表現出強大的魯棒性。所產生的模型適用于結構學習以獲得更大的計算效率,也適用于低資源任務適應以獲得更好的數據效率。

//dataspace.princeton.edu/handle/88435/dsp01p8418r442

付費5元查看完整內容

深度學習推動了應用的爆炸式增長,然而訓練深度神經網絡通常需要昂貴的人工注釋。在這篇論文中,我們探索了在訓練深度神經網絡時避免大量依賴人工注釋示例的替代方案。具體來說,要么采用自監督方法來自動糾正自由獲得的數據標簽,要么完全放棄使用人工標簽,而是利用音頻和視覺信息的自然共生來學習視頻中的對象表示。越來越多的數字數據通常會提供噪聲標簽,這些標簽可以用來監督學習過程。傳統的數據預處理包括在訓練識別模型之前糾正/清理數據,但這可能需要大量的人工工作。我們考慮自動更正注釋噪聲,從而避免了昂貴的手動注釋的需要。我們構建和擴展了最近的突破,使用一致性損失(consistency loss)和空間記憶映射(space memory map)來提供靈活的實例級注冊,從而實現更大的泛化。進一步探索了多模態感覺流,利用模態冗余,即模態之間的重疊信息,為模型提供自監督。表示是通過利用不同的模式來學習的,而不使用任何人類注釋的標簽。我們將使用三個不同的應用程序演示此技術

首先,我們自動管理一個大型音頻數據集VGG-Sound,使用視覺引導收集了超過200k的視頻,并在此基礎上進行訓練,生成最先進的音頻識別模型。其次,我們提出了一種改進和擴展最近聲源定位技術的方法,通過引入一種機制來挖掘硬樣本并自動將其添加到對比學習公式中。最后,與在一個特定領域執行的現有視聽同步任務不同,我們建議通過探索使用幾種基于transformer的體系結構來解決開放世界設置中的同步問題。通過這些模型,我們在具有挑戰性的語音數據集中獲得了最先進的結果,并在一般聲音數據集中顯示了出色的泛化效果。

付費5元查看完整內容

機器學習(ML)正在經歷一場范式的轉變——機器學習模型越來越多地被作為一種服務來提供,以自動化各種下游決策,而不是由機器學習專家對特定任務進行端到端的訓練和部署。例如,大型科技公司提供的圖片或文本分類API,被廣泛的第三方應用開發者使用,以及通過網站向數百萬用戶提供各種預測(如天氣、COVID、流量等),以幫助他們進行規劃。盡管這種新的范式通過使ML更廣泛地可訪問而使其民主化,但它引起了對可信性(用戶無法看到他們是如何被訓練的以及他們的失敗模式)和性能(預測模型不再為特定的下游任務量身定做)的擔憂。本文通過以下方法來解決這些問題:

貢獻1。提出了一種新的方法,通過精確的不確定性量化,向下游決策者傳遞信心,后者將對(高風險)決策進行預測。精確的不確定性量化可以通過預測相關結果的真實概率(例如給定癥狀的病人患病的真實概率)來實現。雖然在大多數情況下,準確地輸出這些概率是不可能的,但對于大型決策任務,學習與真實概率難以區分的概率卻是驚人的可能。不可區分性保證了決策者的可靠性,因為在他們的決策任務中,他們不應該能夠區分預測概率和真實概率之間的區別。作為一個應用程序,我開發了一些預測模型,如醫療診斷、航班延誤預測和貧困預測等領域。我展示了通過使用我的方法,決策者可以自信地做出導致良好結果的決策。

貢獻2。發展一種新的信息理論,以嚴格推理和優化ML預測在廣泛的決策任務中的“有用性”。香農信息理論在機器學習中有著廣泛的應用,但在處理復雜的學習和決策任務時存在一些局限性。例如,考慮從對手攔截的安全加密消息數據集。根據信息論,這些加密信息與對手的計劃具有高度的互信息,而任何計算有界的決策者都不能利用這些信息。為了解決這些局限性,我提出了一個新的框架,稱為“效用信息理論”,它概括了香農熵、信息和散度,以解釋知識或建模能力有限的決策者將如何使用信息。作為一個應用,我將新的信息應用于貝葉斯優化問題,并顯示了比使用香農信息的當前方法在樣本效率方面的數量級改進。

付費5元查看完整內容

今天的計算機視覺擅長于識別現實世界的限定部分:我們的模型似乎能在基準數據集中準確地檢測出像貓、汽車或椅子這樣的物體。然而,部署模型要求它們在開放世界中工作,開放世界包括各種設置中的任意對象。目前的方法在兩個方面都有困難:他們只認識到少數的類別,并且在不同的訓練分布的環境中切換。解決這些挑戰的模型可以作為下游應用的基本構建模塊,包括識別操作、操作對象和繞過障礙進行導航。本論文提出了我們在建立魯棒檢測和跟蹤目標模型的工作,特別是有很少或甚至沒有訓練的樣例。首先,我們將探索傳統模型如何泛化到現實世界,傳統模型只識別一小部分對象類。我們表明,目前的方法是極其敏感的:即使是輸入圖像或測試分布的細微變化,都可能導致精度下降。我們的系統評估顯示,模型——即使是那些訓練很好的對對抗或合成損壞具有魯棒性的模型——經常正確地分類視頻的一幀,但在相鄰的感知相似的幀上卻失敗了。類似的現象甚至適用于由數據集之間的自然變化引起的微小分布變化。最后,我們提出了一種解決對象外觀泛化的極端形式的方法:檢測完全遮擋的對象。接下來,我們探索歸納到大的或無限的詞匯,其中包含罕見的和從未見過的類。由于當前的數據集很大程度上局限于一個小的、封閉的對象集合,我們首先提出了一個大型詞匯基準來衡量檢測和跟蹤的進展。我們展示了當前的評估不足以滿足大型詞匯量基準測試,并提供了適當評估此設置中的進度的替代指標。最后,我們提出了利用封閉世界識別的進展來為任何對象建立精確、通用的檢測器和跟蹤器的方法。

//www.ri.cmu.edu/publications/open-world-object-detection-and-tracking/

付費5元查看完整內容

我們為什么在這里?我們大多數人來到這里的原因很簡單:我們想解決人工智能問題。那么,人工智能和這本書的書名有什么關系呢?人工智能的現代定義之一是對理性代理的研究和設計[RN09]。從這個意義上說,我們將一個系統描述為智能的,當它最大化某些預期的性能概念時。機器學習的子領域處理的是問題和算法的子集,其中代理可以獲得經驗(通常以某種形式的數據),可以利用這些經驗來改進性能的概念[MRT12]。大多數情況下,性能是由代理人在新的和看不見的情況下如何行動來衡量的,這些情況不構成其訓練經驗的一部分。例如,可以訓練一名代理人將英文翻譯成法文,其訓練經驗包括大量翻譯的聯合國文件。然而,在評估時,它可能會在與它所見過的文件不同的聯合國新文件上進行測試。很自然地,代理在它所看到的訓練經驗和它所評估的新情況下的表現之間存在著差距。代理泛化的能力是通過性能上的差距有多小來衡量的。

希望前面的段落已經解釋了在機器學習的背景下,以及在更大的AI背景下,什么是泛化。那么,標題中還保留著哪些“分布外”詞呢?如前所述,泛化是指減少一個agent在已知訓練情境下的表現與同一agent在未知測試情境下的表現之間的差距。然而,有許多不同類型的未知。統計學習通常處理的一類泛化是分布的:當從訓練示例生成的數據與測試示例生成的數據無法區分時。根據定義,非分布內的泛化問題稱為分布外泛化問題,這是本書的主題。

這項工作的目標很簡單。我們想要回顧,分布外泛化的知識。因此,這項工作的很大一部分將致力于理解(有時是微妙的)不同方法和假設之間的差異和相似性,通常以一種孤立的方式呈現。重點將放在與人工智能或現代大規模機器學習應用等想法上。此外,我們將特別注意研究不同方法的缺點,以及下一步可能是重要的。

  • 在第二章中,我們首先討論如何量化分布外泛化。通過幾個例子,我們研究了分布外泛化與處理不同分布外任務的幾種常用方法之間的關系。本文將特別強調這些方法背后的假設,并說明這些方法何時有效,何時無效。

  • 在第三章中,我們將關注一個特定的分布外任務類。在這些預測任務中,就像在許多實際問題中一樣,在分布之外泛化的困難在于找出數據中的哪些相關性是假的和不可靠的,以及哪些相關性代表感興趣的現象。

  • 在第四章中,我們討論了不同應用領域在實踐中出現的分布外任務的類型,以及這些領域在過去是如何處理這些問題的。

  • 在第五章中,我們為分布外泛化和人工智能背景下的新研究領域奠定了基礎。在本章中,我們將關注在探索或強化學習環境中與世界交互的agent,以及它們如何從分布外泛化中獲益。

付費5元查看完整內容
北京阿比特科技有限公司