亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本論文提出了四種新方法,以提高機器學習模型在小樣本且高維度表格數據集上的泛化能力。表格數據(其中每一行代表一條記錄,每一列代表一個特征)在醫學、科學研究和金融等關鍵領域中廣泛存在。然而,由于數據采集的困難,這些領域往往面臨數據稀缺的問題,難以獲得大樣本量。同時,新型數據采集技術使得高維數據的獲取變得可能,從而導致特征數量遠遠超過樣本數量的數據集。數據稀缺和高維性對機器學習模型帶來了顯著挑戰,主要原因在于由于維數災難和樣本不足,模型更容易發生過擬合,無法充分刻畫數據的潛在分布。現有方法在這類場景下通常難以實現有效泛化,導致性能不盡如人意。因此,在小樣本且高維數據集上訓練模型需要專門設計的技術,以克服這些限制,并從有限數據中更高效地提取有用信息。 我們提出了兩種全新的以模型為中心的方法,以應對小樣本和高維數據下神經網絡的過擬合問題。我們的關鍵創新在于通過共享輔助網絡來約束模型參數,這些輔助網絡捕捉表格數據中潛在的關系,從而在一定程度上決定預測模型的參數,減少其自由度。首先,我們提出了 WPFS,這是一種參數高效的架構,通過權重預測網絡對模型參數實施硬參數共享。其次,我們提出了 GCondNet,該方法利用圖神經網絡(GNNs)實現對底層預測模型的軟參數共享。在應用于生物醫學表格數據集時,這兩種方法主要通過降低過擬合風險,實現了預測性能的提升。 盡管單獨依賴模型中心的方法較為常見,但結合數據中心方法往往能帶來額外的性能提升,尤其是在數據稀缺的任務中。為此,我們還提出了兩種新穎的數據增強方法,用于生成合成數據,以增加訓練集的規模和多樣性,從而捕捉到數據分布中更多的變異性。我們的關鍵創新在于將預訓練的表格分類器轉化為數據生成器,并以兩種新方式利用其預訓練信息。第一種方法 TabEBM 構建了專門的類別特定能量基模型(EBM),以近似類別條件分布,從而生成額外的訓練數據。第二種方法 TabMDA 則引入了上下文內子集劃分(ICS)技術,這種技術使得在預訓練的上下文分類器所學習的流形空間內進行標簽不變轉換,進而有效擴充了訓練數據集。兩種方法均具有通用性、快速性、無需額外訓練,并且可以應用于任何下游預測模型。它們均能顯著提升分類性能,尤其在小數據集上效果尤為明顯。 總體而言,本論文在機器學習領域開辟了新的方向,旨在減輕過擬合問題,并在表格數據的生成與增強方面取得突破。我們的技術在醫學、金融和科學研究等普遍面臨數據稀缺和高維性難題的領域具有直接應用價值。通過證明即便在有限數據條件下也能實現更高效的學習,這項工作為未來克服數據限制、推廣機器學習應用鋪平了道路。

付費5元查看完整內容

相關內容

近年來,機器學習領域廣泛采用大型基礎模型(foundation models)。盡管這些模型具有很強的表達能力,但在針對有限的領域特定數據集進行訓練時,仍容易出現過擬合。因此,在數據稀缺的場景下,借助更大但間接相關的數據集進行訓練以提取有用的表征,以及更一般意義上的“元學習”(meta-learning),已成為高效使用此類模型的關鍵。本論文從理論角度研究了元學習背后的基本假設,聚焦于兩個設置:

元監督學習(Meta-Supervised Learning)。已有研究分析了在多個回歸任務上學習固定表征的統計復雜度。然而,在實際應用中,包括 MAML 等主流梯度方法在內的大多數方法都會為每個任務微調(fine-tune)表征。因此,我們開展了首個關于基于微調的表征學習的理論研究。首先,我們對一類通用表征上的代表性訓練過程推導了樣本復雜度上界。其次,我們建立了“可微調表征”與“固定表征”之間的樣本復雜度差異,從而揭示了在哪些情形下微調更為優越。

元強化學習(Meta-Reinforcement Learning, Meta-RL)。在元強化學習中,任務之間存在多種共享結構的可能性,例如分層強化學習(HRL)中的“選項”(options)結構。但已有的 HRL 后悔值(regret)界分析往往假設分層結構已知。為彌補這一空白,我們構造了一種在滿足適當“覆蓋條件”下可被理論保證恢復的分層結構。進一步地,我們證明,在較弱假設下,該恢復的結構可以顯著提升下游任務的學習表現,使其后悔值優于最小最大策略(minimax)指數級別。這些覆蓋條件涵蓋了時間、狀態/動作的抽象等概念,表明我們的分析能夠捕捉 HRL 在實踐中的關鍵要素。

付費5元查看完整內容

傳統的機器學習方法通常依賴于最大似然估計(MLE),因為它易于實現并且與KL散度最小化等價。然而,僅通過最大化似然訓練的模型通常缺乏在實際部署中所期望的某些特性,例如不確定性的量化、對分布外輸入的魯棒性或遵守隱私約束。隨著機器學習模型的廣泛部署,這些重要特性比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法往往難以在當今的大型模型和數據集上實現。 在本文中,我們提出了幾項貢獻,以提高超越最大似然方法的可行性。首先,我們在多個領域改進了貝葉斯機器學習。這使我們能夠恢復感興趣參數的完整后驗分布,而不僅僅是最大似然方法提供的點估計。其次,我們在序列任務中實現了新的訓練方案:強化學習和序列建模。在強化學習的情況下,這使我們能夠開發不泄露私人信息的獎勵最大化策略。在序列建模的情況下,我們實現了新的散度方法,從而改進了文本生成。 我們的貢獻使我們能夠將分布感知的方法擴展到多個領域,并實現最先進的結果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私感知算法,以及使用具有數十億參數的語言模型生成類人文本。

付費5元查看完整內容

傳統的機器學習方法通常依賴于最大似然估計(MLE),因為其實現簡單且等價于最小化KL散度。然而,僅通過最大化似然進行訓練的模型往往缺乏在實際應用中所期望的某些特性,如不確定性的量化、對分布外輸入的魯棒性,或遵守隱私約束。隨著機器學習模型被越來越廣泛地部署,這些重要特性變得比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法在當今的大模型和大數據集下通常難以實現。

在本論文中,我們提出了若干貢獻,以提高超越最大似然方法的可操作性。首先,我們在多個領域改進了貝葉斯機器學習。這使得我們能夠恢復感興趣參數的完整后驗分布,而不是最大似然方法所給出的點估計。其次,我們在順序任務中實現了新穎的訓練方案,包括強化學習和序列建模。在強化學習的案例中,這使我們能夠開發不會泄露私人信息的獎勵最大化策略。在序列建模的案例中,我們實現了新的散度函數,從而改進了文本生成。

我們的貢獻使得分布感知方法能夠擴展到多個領域,取得了最新的研究成果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私保護算法,以及使用數十億參數的語言模型生成類似人類的文本。

在我的博士學習期間,機器學習領域取得了巨大的進展。然而,隨著這些模型在越來越廣泛和重要的應用中部署,越來越多的關注點集中在它們的局限性上。盡管許多當前的模型在某些領域可以實現超越人類的表現 [SHM+16],它們仍然存在一些人類不會表現出的缺陷。這些問題包括缺乏對分布外數據的魯棒性 [SZS+14]、缺乏對不確定性的考慮 [GPSW17],以及私人信息的泄露 [KR19]。

在本論文中,我們的目標是開發解決這些缺陷的方法,涵蓋多種機器學習問題和應用領域。特別是,我們首先專注于改進貝葉斯機器學習,這是一種在參數估計中超越最大似然估計的傳統方法。在后續部分中,我們在強化學習和序列建模中引入了替代的訓練方法。正如下文所討論的,這些方法也可以看作是超越最大似然的訓練方法。

1.1 最大似然目標

最大似然目標無疑是今天機器學習中最常用的目標函數,是分類、參數估計和生成建模中占主導地位的方法。簡單來說,給定一個數據集 DDD 和一個由參數 θ\thetaθ 參數化的概率模型 PθP_\thetaPθ,為數據集中的元素分配概率,最大似然目標尋找: θ?=arg?max?θEx~D[log?Pθ(x)]. 然而,最大似然目標并不總是機器學習從業者的顯而易見的選擇。在早期的分類研究中 [LeBB+98],非基于似然的目標函數常常被使用。在早期關于神經網絡機器學習的教材中 [Bis95],提出了幾種損失函數,包括平方和目標。實際上,在2010年代中期,生成對抗網絡 [GPM+14] 開始采用非似然損失。然而,最大似然目標逐漸成為今天機器學習中的主要目標函數。其原因有很多。首先,MLE方法在概率論上非常有依據,因為它與最小化KL散度是等價的。

DKL(PD∥Pθ) = Ex~D [log PD(x) ? log Pθ(x)] = ?Ex~D [log Pθ(x)] + C, 其中PD是數據集D的經驗分布函數(或基礎的群體分布),C是一個不依賴于θ的常數。因此,最大化似然等價于最小化數據分布與由θ參數化的分布之間的KL散度。其次,MLE方法通常非常容易優化。最大化似然只需要從數據集中采樣并計算對數似然的梯度,而這通常可以通過現代自動微分工具包輕松實現 [BFH+20, PGM+19]。相比之下,最小化數據分布與參數化分布之間的其他散度(例如χ2散度)通常要求對數據分布的密度有詳細了解。這種情況通常是未知的,而通過學習分類器近似這種密度的方法(如生成對抗網絡)則需要與θ一起對分類器參數進行對抗性訓練,導致訓練不穩定。

最后,最大似然通常與下游任務目標高度一致。例如,在ImageNet發布后變得流行的分類任務中 [DDS+09],最大化正確標簽的概率正是訓練分類模型的目標。 然而,最大似然目標并不總是最合適的選擇。不幸的是,采用非基于似然的目標通常是具有挑戰性的。在現代機器學習中,方法的可擴展性和優化的便捷性是所有方法的重要考慮因素。我們面臨的挑戰是:找到超越最大似然方法的技術,同時保持數據效率、易于通過梯度下降優化,并具備計算擴展性。為了解決這個問題,我們利用了一些在本論文中提出的關鍵技術:變分推理用于神經函數逼近下的貝葉斯推斷,連續松弛和路徑梯度估計器用于減少優化中的方差,以及將問題重新參數化為更易處理的等價形式。 本論文分為兩部分,但有一個共同的目標:開發超越典型MLE方法的技術。在第一部分中,我們研究了貝葉斯機器學習的改進,尤其在數據較少的情況下,由于數據集的有限性,關于θ的值可能存在相當大的不確定性。首先,我們開發了一種使用正則化流計算高維積分的新方法,并將其應用于計算貝葉斯定理中的歸一化函數。然后,我們將變分推理應用于因果發現問題,解決了在復雜有向無環因果圖集中構建后驗分布的挑戰。 在第二部分中,我們研究了在序列任務中超越最大似然的替代訓練方法。首先,我們研究了在強化學習中執行隱私約束的問題。這需要控制策略生成的軌跡分布,以確保它們不會泄露有關私有狀態變量的信息。最后,我們解決了基于序列數據的自回歸模型訓練問題。我們將任務重新表述為模仿學習任務,從而可以有效地最小化與數據分布的不同散度。超越MLE方法還為生成過程提供了額外的靈活性,我們通過允許回溯來增強生成過程。

1.1.1 改進貝葉斯機器學習

在參數估計的設定中,我們有一個數據集D,并希望推斷感興趣的參數θ。例如,我們可能有一組(x, y)對,并希望推斷可能的線性關系的斜率,在假設數據生成y = θx + ?(其中? ~ N(0, σ))的情況下。最大似然估計給出了使Ex~D [Pθ(x)]最大的θ值,也可以寫作P(D|θ)。實際上,我們通常想要得到的是P(θ|D),即在給定數據集的情況下θ的后驗概率。根據貝葉斯定理,我們知道P(θ|D) = P(D|θ)P(θ)/P(D),其中P(θ)是θ的先驗分布,P(D)是歸一化常數。只要θ可以從數據中識別,并且先驗分布對θ的真實值有密度,那么在足夠的數據情況下,最大似然解將收斂于后驗分布的眾數。然而,在數據有限的情況下,得到完整的后驗分布通常非常重要,而不僅僅是最大似然值。后驗分布可以指示對θ估計的不確定性,這在做出最優決策時非常有用。 然而,精確計算后驗分布通常是不可行的,因為它需要計算歸一化常數P(D) = ∫ΘP(D|θ)P(θ)dθ。當θ的維度超出適度范圍時,由于維度詛咒,進行這種積分變得極其困難。在論文的第一個貢獻中,我們通過隨機采樣域的子集并估計每個子集的積分值來解決這個問題。雖然這是無偏的,但這種方法在典型目標函數下具有極高的方差,因為它們集中在域的一個小體積內。我們通過使用正則化流解決這個問題,正則化流是一種靈活的變換家族,可以在保持體積的同時在空間之間映射。這使我們能夠學習一個可逆映射,將[0, 1]d映射到積分域上,構造該映射,使得在[0, 1]d上的均勻分區通過正則化流映射后在積分域上生成具有大致相等積分量的(非均勻)分區。這大大降低了估計器的方差。通過改變分區的數量,我們可以在重要性采樣估計器(在無限多的小分區的極限下)和變分下界(在單個分區的極限下)之間平滑插值。

在這一部分的第二個重點中,我們將變分推理應用于從數據中推斷線性高斯結構方程模型(SEM)的問題。結構方程模型是一種特定類型的因果圖,配備了因果解釋的有向邊。在線性高斯SEM中,條件概率分布是高斯分布,均值由圖中變量的父節點的線性函數給出。盡管這個設定受到了限制,但在這種設定中進行變分推理仍然具有挑戰性。主要問題是網絡必須是一個有向無環圖(DAG),這是在鄰接矩陣空間中的一個復雜約束。我們通過將DAG權重矩陣重新參數化為P LP?來解決這個問題,其中L是下三角矩陣,P是置換矩陣。這使我們能夠應用關于置換的松弛的最新研究 [MBLS18]。我們發現我們的方法能夠恢復與真實數據生成圖非常相似的圖,并且表現優于基線方法。

1.1.2 在序列任務中超越KL散度

在論文的第二部分中,我們從序列建模和強化學習(RL)設定的角度,探索了超越最大似然的訓練方法。如上所述,最大似然等價于KL散度最小化。實際上,正如 [Lev18] 中所描述的,我們可以將傳統的強化學習目標視為在熵獎勵的條件下最大化回報的過程,這等價于最小化由策略引發的分布與按軌跡獎勵加權的分布之間的KL散度。

在這一部分的第一個章節中,我們研究了在滿足信息披露約束的情況下最大化回報的任務。例如,參與管理CEO日程的算法可能擁有私人信息,在安排會議時不應泄露這些信息,或者游戲策略可能包含一些應該保密的有用信息。這表現為對對手從策略行動中推斷私有信息的能力的約束——為了隱藏私有信息,可能有必要采取次優行動(從減少回報的角度)。我們將其表述為對私有狀態變量與策略行動之間互信息的約束,并使用對抗訓練的批評者來試圖發現這些私有信息。我們進一步通過引入可微分模擬器擴展了這一方法,使我們首次能夠將私有強化學習擴展到高維模擬機器人任務。

在這一部分的最后一章中,我們解決了自回歸序列建模的傳統問題。通常這被表述為最大似然問題:對于由一系列標記構建的序列x1,目標是最大化似然PL1 log Pθ(xi|x<i)。這等價于最小化數據的經驗分布與由自回歸模型Pθ引發的分布之間的KL散度。然而,越來越多的模型用于生成任務,即自回歸地采樣一系列標記,如x1 ~ Pθ(·),x2 ~ Pθ(·|x1),依此類推。如果模型Pθ與基礎數據分布完全匹配,這將導致從真實的序列分布中采樣。然而,對于不能完全匹配數據分布的有限容量模型,最大化似然不一定會導致最理想的自回歸序列分布。我們將任務重新表述為模仿學習任務,從而能夠有效地最小化與數據分布的不同散度。此外,超越MLE方法為生成過程提供了額外的靈活性,我們通過允許回溯來增強生成過程。我們將該方法擴展到具有超過70億參數的Llama-2-7B語言模型 [TMS+23],并且性能優于可比方法。

付費5元查看完整內容

機器視覺通過使機器能夠解讀和處理視覺數據,增強了工業應用中的自動化、質量控制和運營效率。盡管傳統的計算機視覺算法和方法仍被廣泛使用,但機器學習在當前的研究活動中已變得至關重要。特別是,生成式人工智能(AI)展示了通過數據增強、提高圖像分辨率以及識別質量控制中的異常,從而改善模式識別能力的潛力。然而,由于數據多樣性、計算需求以及對穩健驗證方法的必要性等挑戰,生成式AI在機器視覺中的應用仍處于早期階段。為全面了解生成式AI在工業機器視覺中的現狀,特別是最近的進展、應用和研究趨勢,進行了一次基于PRISMA指南的文獻綜述,分析了超過1200篇關于工業機器視覺中生成式AI的論文。我們的研究發現揭示了當前研究中的各種模式,生成式AI的主要用途是數據增強,用于分類和目標檢測等機器視覺任務。此外,我們收集了一系列應用挑戰及數據需求,以促進生成式AI在工業機器視覺中的成功應用。本綜述旨在為研究人員提供對當前研究中不同領域和應用的深入見解,突出重要進展并識別未來工作的機會。

關鍵詞:機器視覺,生成式人工智能,深度學習,機器學習,制造業 1 引言

視覺檢查由受過培訓的檢查員執行,仍在工業中廣泛使用,但自20世紀70年代以來,自動化機器視覺已被系統地引入[1]。工業機器視覺是現代制造過程中的關鍵組成部分,涉及圖像的處理和分析,以自動化任務,包括質量檢查、物體或缺陷檢測以及過程控制[2]。傳統的計算機視覺系統依賴于需要手工設計特征的經典算法和技術,雖然這些方法在實踐中很有效,但在處理具有顯著變化性和不可預見情況的復雜場景時存在局限性[2, 3]。在20世紀80年代和90年代,隨著數字圖像處理、紋理和顏色分析等技術的進步,并有更好的硬件和軟件支持,機器視覺技術得到了發展[4]。當時,任務如質量檢測和物體識別主要依賴于預定義的算法[3, 5]。 20世紀90年代末和2000年代初,機器學習逐漸興起,支持向量機(SVM)[6]、隨機森林[7]和人工神經網絡(ANN)等模型使系統能夠以數據驅動的方式進行學習,提高了它們應對現實世界中變化和復雜性的能力[2]。機器視覺領域的真正革命出現在2010年代,隨著深度學習(DL)的發展。卷積神經網絡(CNN)在圖像處理任務中表現出極強的能力。CNN使機器能夠從原始圖像數據中自動學習層次特征,大大提高了在圖像分類、圖像分割、目標檢測、缺陷檢測和姿態估計等任務中的性能[4, 9-11]。像AlexNet、VGG和ResNet這樣的里程碑模型展示了深度學習的潛力,迅速在學術研究和工業界得到了廣泛應用[2]。 生成式人工智能(GenAI)代表了機器視覺演變中的最新前沿。與傳統的區分性模型用于分類或識別模式不同,GenAI模型能夠創建新的數據實例。雖然大多數流行的GenAI模型和創新設計是為了與人類互動,但探索GenAI如何改變工業制造領域具有重要的機會。類似于數據生成的替代方法如模擬需要專家領域知識和手動執行,因此在工業制造應用中,它們的使用僅限于預處理和后處理步驟。而GenAI方法一旦訓練完成,具有在制造過程中自動化當前手動處理步驟的潛力。由于其前景廣闊,GenAI已被應用于不同的機器視覺用例,其中每個提出的解決方案都是在特定用例約束下開發的。這些在機器視覺研究領域中積累的發現和經驗為其他從業者提供了寶貴的見解,幫助他們在自己的研究中使用GenAI。盡管已有關于將GenAI應用于各種機器視覺用例的知識,但據我們所知,目前尚無專門針對工業機器視覺中GenAI的綜述,匯總已有的應用經驗。現有的文獻綜述中提及GenAI在工業機器視覺中的應用時,主要關注的是AI在特定制造領域(如印刷電路板[12]、硅片[13]、一般缺陷識別[14]或表面缺陷識別[15])中的應用。 本綜述的貢獻包括:(i)概述了工業機器視覺應用中使用的GenAI方法,(ii)提供了應用GenAI時的工具、潛力和挑戰的概述,以及(iii)展示了GenAI在典型機器視覺應用中的益處,為從業者提供參考。 基于這些目標,我們提出了以下在本綜述中探討的研究問題

  1. 在工業機器視覺應用中使用了哪些GenAI模型架構?
  2. GenAI方法需要滿足哪些要求和特性才能適用于工業機器視覺領域?
  3. GenAI已成功應用于哪些工業機器視覺任務?

本文結構如下:第2節首先概述了GenAI領域及其方法。第3節介紹了文獻綜述的方法,包括對排除標準的推導和選擇信息提取的詳細理由。第4節展示了搜索結果及其特征,并對提取的數據進行了廣泛分析。第5節討論了文獻綜述的結果,并結合研究問題進行探討。討論還包括對所用文獻綜述方法中的偏見和局限性的反思。最后,本文總結了本綜述的主要結果,并提出了在工業機器視覺任務中應用GenAI的指導原則。

2 生成式人工智能

生成式人工智能(GenAI)領域代表了旨在學習給定數據集 x∈Xx \in Xx∈X 的概率分布 p(x)p(x)p(x) 的半監督和無監督深度學習技術。在深度學習的背景下,GenAI方法使用參數化的人工神經網絡(ANNs)來近似概率分布 p(x)p(x)p(x),這些網絡通過權重 Θ\ThetaΘ 進行參數化,從而得到一個參數化模型 pΘ(x)p_\Theta(x)pΘ(x)。與判別式深度學習技術相比,判別式技術近似的是在給定輸入 xxx 的情況下,屬性(或標簽) yyy 上的概率分布 p(y∣x)p(y|x)p(y∣x),而生成模型 GGG 可以用于從訓練數據分布中抽取類似樣本 x~~pΘ(x~)\tilde{x} \sim p_\Theta(\tilde{x})x~~pΘ(x~) [16]。 對 p(x)p(x)p(x) 的估計可以分為顯式和隱式兩種方法。顯式估計模型嘗試提供概率密度 pΘ(x)p_\Theta(x)pΘ(x) 的參數化,而隱式估計模型則構建一個合成數據的隨機過程[17]。生成式人工智能的分類概述(參見圖1)總結了現有估計 pΘ(x)p_\Theta(x)pΘ(x) 的方法。不論模型類型如何,它們生成逼真高分辨率圖像的能力使得它們在解決諸如圖像修復、圖像去噪、圖像到圖像翻譯以及其他圖像編輯問題等經典計算機視覺任務中得到了廣泛應用。它們在學術基準測試中的出色表現,使其在機器視覺領域中具有重要意義。每種模型架構的進一步描述及其優缺點將在以下小節中進行探討。 3 研究方法

如引言中所述,本篇文獻綜述旨在概述生成式人工智能(GenAI)在工業機器視覺領域中的方法和應用,特別是針對制造業應用。該綜述采用了系統評價和薈萃分析的首選報告項目(PRISMA)方法進行,PRISMA方法旨在以透明、完整和準確的方式呈現和生成系統性綜述[36]。基于該方法,以下各節將介紹系統性綜述的實施方法。首先,介紹了以排除標準形式出現的適用性衡量標準,以及搜索策略和所使用的文獻數據庫(參見第3.1節)。接下來是研究選擇過程(參見第3.2節)和數據提取(參見第3.3節)。

付費5元查看完整內容

大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。

我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。

過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。

在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。

從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。

付費5元查看完整內容

數據可視化以圖表形式在數據分析中發揮著關鍵作用,提供關鍵洞察并輔助做出知情決策。隨著近年來大型基礎模型的興起,自動圖表理解取得了顯著進展。基礎模型,如生成預訓練變換器(Generative Pre-trained Transformers, GPT),已經革新了多種自然語言處理(NLP)任務,并越來越多地應用于圖表理解任務中。這篇綜述文章提供了這些基礎模型背景下圖表理解最近發展、挑戰和未來方向的全面概覽。文章從背景部分開始,定義圖表理解,概述問題表述,并討論研究圖表理解任務至關重要的基本構建塊,包括視覺編碼器、圖表到表格的翻譯、OCR模塊、文本編碼器和文本解碼器。在任務和數據集部分,我們探討了圖表理解內的各種任務,包括圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正。我們討論了評價指標和圖表及文本輸入的來源。然后檢視了建模策略,包括分類基礎和生成基礎的方法,以及增強圖表理解性能的工具增強技術。此外,我們討論了每項任務的最新性能并探討如何提升性能。在一個專門的部分中,我們討論了挑戰和未來方向,強調了諸如特定領域圖表、以及關于真實性、覆蓋范圍、相關性、穩健性、公平性和數據偏見的評價標準等問題。我們還深入探討了這些多模態基礎模型的組成部分,包括調整LM主干的必要性、多階段訓練過程的有效性,以及合成數據的潛在充分性。探索了與用戶或其他系統交互的代理導向設置。最后,我們討論了如自然圖像理解、表格理解和文檔理解等相關任務,提供了對視覺和文本數據理解更廣闊景觀的洞察。這篇綜述文章為自然語言處理、計算機視覺和數據分析領域的研究人員和實踐者提供了一個全面的資源,為利用大型基礎模型進行圖表理解的未來研究提供了寶貴的見解和方向。本文提及的研究以及新興的研究將持續更新于: //github.com/khuangaf/Awesome-Chart-Understanding。

在信息交流中圖表理解的重要性:在我們當代的多媒體信息世界里,數據的體量和復雜性持續膨脹,圖表在促進事實信息的連貫且富有洞察力的交流、傳達見解和做出決策中的角色至關重要。跨越學術界、科學研究、數字媒體和商業領域,圖表作為將原始數據轉換成可理解的視覺敘事的不可或缺的工具。它們能夠以簡潔直觀的格式封裝復雜的數據集,使決策者能夠迅速把握關鍵見解,輔助知情推理和戰略規劃。認識到圖表在現代信息傳播中的關鍵作用,計算社區持續對自動圖表理解表現出興趣,如自動圖表理解的大量研究所證明。特別是,關于圖表問答、圖表字幕制作、圖表到表格轉換、圖表事實核查和圖表字幕事實錯誤校正的工作奠定了探索圖表理解技術中圖表語義復雜性的基礎框架。

在大型基礎模型時代的圖表理解挑戰與機遇:傳統的圖表理解工作聚焦于微調方法,通常在領域可移植性和推理魯棒性方面遇到限制。令人興奮的是,大視覺-語言基礎模型(例如,GPT-4V、LLaVA)的出現引發了在自動推理能力上的范式轉變,催化了包括通過基于文本的提示實現強零/少次推理能力在內的各種多媒體認知任務的前所未有的進步。但在這一變革性創新的景觀中,圖表理解領域仍舊深陷固有的復雜性和巨大挑戰。圖表因其多面向的視覺表現和細膩的語義呈現出一系列獨特的障礙。從條形圖、折線圖到餅圖和散點圖,每種圖表類型都采用獨特的視覺語法來傳達數據關系,需要超越簡單的像素級模式識別的復雜解釋機制。圖表作為揭示如新興趨勢、挑戰假設的異常值和變量間可能不會從僅僅是表格形式的原始數據立即顯現的關系的深刻見解的渠道。它們使得可以進行跨數據點的比較分析,為簡潔地并置不同實體或時間段提供一個視覺平臺。此外,從簡單的數字關系到復雜的多維實體,底層數據集的內在多樣性為圖表理解任務增加了另一層復雜性。盡管面臨這些挑戰,自動圖表理解位于機遇與影響的交匯處,提供了一扇解鎖埋藏在視覺敘事像素中的可行動見解的大門。通過利用大型基礎模型的能力,圖表理解展示了在彌合原始視覺數據與有意義見解之間的差距方面的提升潛力,從而使技術可擴展地用于易于訪問的應用和增強人類認知。

盡管已有數項研究綜述了圖表理解研究的領域,但這些綜述往往在全面性或特定性上表現出一定的缺口。一些綜述沒有涵蓋在圖表理解研究中使用的現代數據集,以及最新的建模方法,如涉及預訓練的視覺-語言模型和大型基礎模型。相反,其他綜述主要集中在可視化方面(即數據轉換為圖表的過程),因此忽視了圖表解釋的細膩任務。本綜述旨在彌合這些缺口。我們首先在第2節定義自動圖表理解和問題表述的基本構建塊。我們討論了圖表理解的多面性,包括從解釋圖表視覺到分析底層數據的任務,以及概述了圖表理解的結構性建模組件,如視覺編碼器、OCR模塊、文本解碼器及其在將原始圖表圖像和文本查詢轉換為有意義見解中的角色。然后,在第3節,我們檢查了推動圖表理解研究的數據集和模型評估指標。本節分析了這些數據集的來源、多樣性和局限性,提供了對當前圖表理解數據景觀的見解。它還回顧了各種評估指標,強調了魯棒且細膩的評估方法的必要性。有了這些特征的見解,我們進一步提供了自動圖表理解的流行建模策略。第4節深入探討了圖表理解中的多樣化建模策略,包括從自然圖像理解、視覺-語言預訓練和基礎模型,如大型語言模型(LLMs)和大型視覺-語言模型(LVLMs)的調整。特別是,我們強調了視覺編碼器和文本解碼器在模型有效性上的選擇影響,并討論了工具增強在圖表理解中的作用。我們通過展示不同圖表理解任務上的最新性能以及我們如何改進它們來結束這一部分。最后,第5節討論了圖表理解中的挑戰和未來方向。我們強調了特定領域圖表的重要性、對全面評估指標的需求,以及對增強模型魯棒性和多功能性的敵對設置的潛力。我們還在第6節討論了圖表理解如何位于與自然圖像理解、表格理解和文檔理解相關工作的交匯處。本綜述文章通過確定未來研究的關鍵領域結束,如為復雜圖表開發模型、完善評估指標和多樣化數據集。我們不僅提供了對圖表理解當前狀態的深入概覽,而且為這一激動人心的數據可視化與機器學習交叉領域的未來進展奠定了基礎。

付費5元查看完整內容

最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。

這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。

付費5元查看完整內容

高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。

付費5元查看完整內容

細粒度圖像分類旨在從某一類別的圖像中區分出其子類別,通常細粒度數據集具有類間相似和類內差異大的特點,這使得細粒度圖像分類任務更加具有挑戰性。隨著深度學習的不斷發展,基于深度學習的細粒度圖像分類方法表現出更強大的特征表征能力和泛化能力,能夠獲得更準確、穩定的分類結果,因此受到了越來越多研究人員的關注和研究。首先,從細粒度圖像分類的研究背景出發,介紹了細粒度圖像分類的難點和研究意義。其次,從基于強監督和弱監督兩個角度,綜述了基于深度學習的細粒度圖像分類算法的研究進展,并介紹了多種典型的分類性能優秀的算法。此外,進一步論述了目前關于YOLO、多尺度CNN和生成對抗網絡(GAN)等前沿深度學習模型在細粒度圖像識別方面的應用,并且對比了最新的相關細粒度圖像的數據增強方法的分類效果以及在復雜場景下不同類型的細粒度識別方法的性能特點分析。最后,通過對算法的分類性能進行對比和總結,探討了未來發展方向和面臨的挑戰。

付費5元查看完整內容
北京阿比特科技有限公司