亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

將歸納邏輯程序設計(符號主義)與深度學習(聯結主義)相結合,已引起研究者廣泛關注,成為提升推理能力的一項新興研究方向。然而,目前的融合仍不完善,尤其體現在模型泛化能力差、學習效率低等問題上。在本論文中,我們旨在提升現有方法的泛化能力,以及學習能力與整體性能表現。此外,我們還計劃就大語言模型在歸納邏輯程序設計任務中的推理能力進行全面評估。

首先,為了提升現有基于邏輯的深度強化學習(DRL)算法的泛化能力,我們提出了一個新穎的框架,稱為 GALOIS。該框架能夠綜合層次結構和明確的因果邏輯,自動合成白盒程序。它采用程序草圖(program sketch)機制,并引入了一種新的基于草圖的編程語言,用于引導程序合成過程。基于此,GALOIS 實現了一種草圖驅動的程序合成方法,可生成具備可解釋性和良好泛化能力的白盒因果推理程序。在多個復雜決策任務上的全面評估表明,GALOIS 在學習能力、泛化能力、可解釋性以及跨任務知識遷移方面均優于主流強化學習方法及此前的最先進程序引導方法。

接下來,我們觀察到當前最先進的神經歸納邏輯程序設計(ILP)模型在訓練時需要大量的訓練迭代和樣本。此外,在處理需要復雜邏輯推理的任務時,這些模型在性能與泛化能力方面仍存在明顯不足。為此,我們提出了一個新的框架:失敗反思引導正則器(Failure Reflection Guided Regularizer, FRGR)。FRGR 能夠在模型訓練過程中動態識別并總結反復出現的錯誤模式;隨后,對未來訓練過程中再次犯下類似錯誤的行為給予懲罰。此機制促使模型避免重復性錯誤,從而加速模型收斂,并獲得更優且性能更強的解決方案。在多個關系推理與決策任務上的實驗結果表明,FRGR 在提升神經 ILP 模型的性能、泛化能力與學習效率方面具有顯著成效。

最后,盡管神經 ILP 求解器的性能已有提升,但近年來,研究者對大語言模型(LLMs)推理能力的興趣迅速上升。然而,已有工作中使用的文本與數值推理基準多數較為淺顯和簡單,僅憑在這些基準上的正向結果,尚不足以斷言 LLM 擁有強大的推理能力。近期研究表明,在基于強化學習的基準中,LLM 在需要常識性規劃的序列決策問題上表現較差。為此,我們在本研究中,基于 ILP 基準對多種最先進的大語言模型進行了深入推理能力評估。ILP 被廣泛認為是評估邏輯程序歸納/合成系統的代表性且具有挑戰性的基準,因為它要求模型能夠學習嚴謹的因果邏輯以實現在 IID(獨立同分布)與 OOD(分布外)測試樣本上的穩健推理。評估結果表明,與規模遠小于 LLM 的神經程序歸納系統相比,當前最先進的 LLM 在推理能力上表現明顯較弱——無論是采用自然語言提示還是真值矩陣提示,其性能與泛化能力均遠遜色于神經 ILP 系統。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

本論文聚焦于序貫決策與自適應實驗設計中的基本挑戰,提出了具有堅實理論基礎的算法,并在樣本復雜度與實際性能上均取得了顯著提升。我們的研究貢獻主要分為兩個方面:用于學習的新型采樣機制,以及面向因果推斷的自適應方法。 第一個方面關注于提升學習效率的采樣策略,適用于不同問題場景。我們提出了多臂老虎機中的遷移學習算法,該算法能夠基于源任務與目標任務之間的觀測相似度,自適應地調整知識遷移程度,并提供理論保證,使得算法能夠在“完美遷移”與“從零學習”之間平滑過渡。我們還將偏好學習中的主動探索形式化為一個上下文對決老虎機問題,并基于再生核希爾伯特空間(RKHS)方法設計了具有多項式遺憾界的算法,其應用包括基于人類反饋的強化學習與直接偏好優化。

第二個方面著重于高效因果推斷的自適應實驗設計方法。我們提出了 截斷二階矩跟蹤(Clipped Second Moment Tracking) 算法,該算法在有限樣本遺憾上實現了指數級改進,將依賴從 O(√T) 降低至 O(log T),同時保持對問題參數的多項式依賴。我們還提出了 樂觀策略跟蹤(Optimistic Policy Tracking) 方法,該方法通過原則化的樂觀設計有效利用漸近最優的 增廣逆概率加權(AIPW)估計器,展示了如何將多臂老虎機理論中的方法成功遷移到因果推斷領域。 在整個研究中,我們強調了漸近性能與有限樣本性能之間的差距,并提出了既能提供理論保證又能帶來實際改進的算法方法。本論文的貢獻推動了序貫決策領域的最新進展,通過彌合理論與實踐的鴻溝,在包括臨床試驗、在線實驗以及人機交互等多個重要應用領域取得了突破。

付費5元查看完整內容

物理系統的計算建模是科學計算的核心任務。機器學習方法可以擴展傳統的偏微分方程建模方法,并有潛力簡化建模過程,提高仿真準確性和性能。在本論文中,我們探討了使用神經網絡從數據中學習系統行為的方法。我們評估了作為仿真器使用時的性能-準確性權衡,并利用從中獲得的洞察,探討了將其應用于氣候模型中的子網格參數化學習的具體應用。對于這一任務,我們提出了兩種新穎的技術,通過調整架構以結合有利的歸納偏置,并通過增加訓練數據來鼓勵穩定性,從而提高所學參數化的準確性和穩定性。

付費5元查看完整內容

持續學習依然是機器學習領域的一項長期挑戰。成功實現持續學習需要不斷吸收新的知識,同時保留仍然有用的舊知識。在本論文中,我們提出了一種連貫的持續學習目標:在每個時間步受到計算資源限制的前提下,最大化無限時域平均回報。這一框架使我們能夠系統性地分析持續學習智能體的設計與評估,超越僅僅依賴準確率保持或可塑性等零散指標的方法。 論文的第一部分聚焦于基礎工具與理論視角的構建,包括:對智能體狀態的信息論建模、智能體容量的量化方法,以及持續學習中穩定性–可塑性權衡的形式化定義。第二部分則提出了多種新算法:一種用于緩解神經網絡可塑性退化的再生式正則化方法;Conformal Sympow——一種基于Transformer的模型,借助學習型門控與數據依賴旋轉機制,實現了高效的長上下文推理;以及一種以多樣性驅動的強化學習方法,使智能體具備對環境擾動的少樣本魯棒性。

綜上,這些工作有助于將持續學習確立為一個有原則、可操作的機器學習子領域,推動理論與實踐的融合。

付費5元查看完整內容

機器學習有望在科學、工業和社會等眾多領域產生深遠影響。盡管當前的人工智能(AI)系統仍普遍依賴人類監督,未來的應用將越來越多地要求系統具備高度自治能力。要實現這一轉變,我們必須能夠信任這些日益龐大的模型的行為。為此,本論文圍繞三個關鍵研究方向展開:安全性、魯棒性與可解釋性。 我們首先聚焦于強化學習(Reinforcement Learning, RL)模仿學習(Imitation Learning, IL)中的安全問題。盡管學習得到的策略在性能上取得了顯著成果,但它們在訓練過程中的探索行為及測試階段環境的變化,常常會導致不安全的決策。為此,我們提出了一種基于模型預測控制(Model Predictive Control, MPC)的安全引導機制,可在用戶指定約束條件下,對基礎 RL 策略的動作進行修正。通過合理的優化建模與損失函數設計,我們從理論上證明了最終優化得到的基礎策略在最優點上具有可證明的安全性。 針對 IL 中獨有的因果混淆(causal confusion)問題,即觀測數據與專家行為之間存在虛假相關,進而可能在部署時引發不安全行為,我們引入結構因果模型(Structural Causal Models, SCMs)的工具來識別并屏蔽存在問題的觀測信息。與此前需依賴專家反饋或專家獎勵函數的做法不同,我們的方法僅需實驗者能對初始狀態進行干預這一更為現實的假設。 論文第二部分關注如何增強分類器對抗擾動下的魯棒性。分類器是眾多 AI 系統的核心組件,但實驗表明其對輸入中的微小擾動極為敏感。我們首先擴展了隨機平滑(randomized smoothing)方法的適用性,從傳統各向同性認證推廣至數據流形子空間的投影,從而在認證體積上獲得數量級的提升。隨后,我們從更基礎的層面重新審視魯棒性問題,提出了非對稱魯棒認證(asymmetric certification)框架。在該二分類場景下,我們僅要求模型在某一特定類別上具備認證魯棒性,符合現實中對抗者主要關注產生“假陰性”(false negatives)的實際需求。我們進一步引入一類特征凸(feature-convex)結構,從而實現高效、確定性、封閉形式的認證半徑計算。 論文的第三部分探討了模型可解釋性的兩個方面:一是大型語言模型(LLMs)如何決定向人類用戶推薦什么,二是如何構建結構上可解釋的學習模型。我們首先分析了對話式搜索引擎中 LLM 對消費產品排序的行為,結果表明,模型在優先考慮產品名稱、網站內容及輸入上下文位置方面存在顯著差異。最后,我們提出了一類新的可解釋模型——結構傳輸網絡(Structural Transport Nets),用于那些潛在表示具備數學結構的領域。通過學習一個到“鏡像代數結構”的雙射映射,我們能夠在潛在空間中執行滿足原始輸入空間代數規律的操作。實驗表明,遵守底層代數規律對于學習準確且自洽的表示操作至關重要。

付費5元查看完整內容

隨著自動化系統的發展,機器學習正日益融入決策過程,并在諸如簡歷篩選、投資組合配置、貸款風險評估和保險審批等應用中為人類決策者提供支持。在本論文中,我探討了將機器學習與決策過程結合時所面臨的各類挑戰,重點關注數據偏差、魯棒性、公平性、異構數據源以及面向決策的建模等問題。在每一章中,我從不同角度研究這些問題,并提出相應的定制算法加以解決。 論文的第一部分聚焦于面向決策的訓練,即在預測模型訓練過程中將最終決策結果納入優化目標。研究表明,端到端學習問題的最優解對應于能引導至貝葉斯最優行為的預測結果。 第二部分則轉向處理預測系統輸出對人類生活產生實際影響的情形,特別是與公平性相關的問題。關于公平性的第一章研究了集中式環境下的群體公平(Group Fairness),并提出了一種包含無偏梯度估計的公平性正則項。這一方法簡化了收斂速率和泛化誤差界的構建,為在群體公平至關重要的現實應用中提供了一種可擴展的保障手段。 另一個與人類相關的數據問題是,出于隱私考慮,這些數據通常無法集中傳輸至服務器。第二章在此基礎上,將公平學習方法擴展至聯邦學習環境,其中不同客戶端持有數據集的不同部分。基于函數追蹤機制,該章節提出了一種適用于全局層面的群體公平性正則項,可與現有多數聯邦學習算法結合使用,且在計算與通信開銷方面要求較低。 論文的最后一部分再次回到決策問題,提出了一種方法,用于在目標領域中整合來自不同(可能存在偏差的)參考分布的信息以做出決策。該方法通過在各個參考分布周圍構造最優傳輸球(Optimal Transport Balls),并對其交集進行優化,從而使決策者能夠在所有參考分布一致的最壞情況分布下做出魯棒決策。 關鍵詞:機器學習、優化、面向決策的學習、公平學習、分布式魯棒優化

付費5元查看完整內容

本論文旨在研究構建更高效且更強大模型的方法,重點聚焦于兩個方面:架構改進與優化方法。我們探討了一系列具有理論依據的架構修改,這些修改要么降低了計算成本,要么引入了有助于更高效模型利用的新特性。此外,我們還研究了現有的優化方法,以加深我們對神經網絡優化的理論理解,并使其更貼近實際應用,從而為未來構建更優的優化器提供更有依據的決策基礎。

在論文的第一部分,我們提出了三種對Transformer模型的增強,以應對處理長序列、提升數據效率和優化推理成本等關鍵挑戰。首先,我們提出了Landmark Attention機制,以提升處理長序列的效率,在我們的實驗中,該方法將推理成本顯著降低了一個大常數因子(達50倍)。通過在注意力機制中引入層級結構,Landmark Attention 能夠在推理階段處理任意長度的輸入,而不受訓練時序列長度的限制。接著,我們提出了DenseFormer架構,它允許后續層訪問前面所有層的輸出。得益于增強的信息流,DenseFormer 在保持與更深Transformer模型相同困惑度(perplexity)的同時,在內存效率和推理速度方面均優于基線模型。我們的實驗還揭示了信息流中意料之外的連貫模式,顯示出遠層激活被結構化重用的現象。最后,我們提出了CoTFormer以提升推理效率,其靈感來自大型語言模型中逐步推理的涌現能力。CoTFormer 通過對一個淺層模型的重復應用,實現了與更深模型相當的準確率。該方法雖然引入了額外計算開銷,但支持按token粒度靈活調整推理成本。我們的結果表明,在訓練自適應CoTFormer時,能在不損失精度的前提下,顯著減少計算成本,因其能自動將計算資源分配給最需要的token。

在論文的第二部分,我們聚焦于提升對神經網絡優化的理解,動因之一即源于在設計自適應CoTFormer優化方法時遇到的挑戰。我們構建了一個理論框架,用于研究參數擾動(parameter perturbation)以及屏蔽參數更新(masking parameter updates)對收斂性的影響。此外,我們通過理論分析與實證實驗,加深了對“大步長對于獲得更優模型至關重要”這一現象的理解。特別是,我們構造了一個受控實驗環境,使得小步長與大步長之間的差異可以被嚴格地觀測和驗證。

關鍵詞:語言模型、效率、優化、神經網絡、Transformers

付費5元查看完整內容

隨著神經網絡語言模型的廣泛應用,深入理解其內部運行機制的需求日益迫切。本論文旨在揭示大型語言模型(LLMs)內部潛在計算規律,為未來強大AI系統的監測、控制和對齊奠定理論基礎。基于開源語言模型,我們重點探索了四個關鍵領域:神經元層面的概念編碼、模型初始化間學習特征的普適性、時空表征的存在性,以及基礎動力系統建模。第二章改進了最優稀疏分類方法在神經網絡探測中的應用,通過這種稀疏探測技術,我們在全尺寸LLMs中同時發現了單語義神經元(專一編碼單一概念)和多語義神經元(疊加表征多個概念),驗證了簡化模型的預測。第三章通過計算大數據集上神經元激活的成對相關性,系統識別并分類了不同模型初始化間的普適性神經元。研究發現1-5%的神經元具有普適性特征,這些神經元往往具有明確的可解釋性,我們將其劃分為不同的神經元家族。為探究時空表征特性,第四章通過精心構建的現實世界實體數據集分析LLMs激活模式。研究發現模型能夠學習多尺度的線性時空表征,這些表征對提示變化具有魯棒性,且在不同實體類型間保持統一。我們識別出專門編碼空間坐標的"空間神經元"和時間坐標的"時間神經元"。第五章采用最優稀疏回歸技術改進了非線性動力系統稀疏識別(SINDy)框架,在典型微分系統中實現了樣本效率和支持恢復率的提升。基于此改進,我們進一步研究了LLMs在上下文學習中表征動力系統的能力,發現了跟蹤底層系統狀態的內部表征。

付費5元查看完整內容

深度統計模型的進展重新定義了現代數據驅動應用,在各個領域展現了顯著的經驗成功。然而,雖然一些領域受益于大量干凈且完全觀測的數據,使得實踐者能夠充分發揮深度模型的優勢,但其他領域通常面臨著不完整數據的問題,這阻礙了這些強大模型的有效應用。在本論文中,我們旨在研究并解決由缺失數據引起的重要挑戰,這些挑戰妨礙了深度模型的使用,重點關注兩個關鍵統計任務:從不完整訓練數據集中進行參數估計和缺失數據填補。首先,我們探討了使用預訓練模型進行缺失數據填補的問題,重點關注變分自編碼器(VAE)類的深度統計模型。我們的探索揭示了現有的 VAE 條件采樣方法的局限性,識別了與常見的 VAE 學習特性相關的陷阱,這些陷阱在某些場景中妨礙了方法的性能。為了解決這些問題,我們提出了基于馬爾科夫鏈蒙特卡洛和重要性采樣的兩種新方法。我們的評估表明,所提出的方法在不同數據集上改進了使用預訓練 VAE 進行的缺失數據填補。隨后,我們將注意力轉向了從不完整訓練數據集中估計 VAE 的問題。盡管這一領域在文獻中得到了相當大的關注,但我們報告了由缺失數據引起的一個之前未知的現象,該現象妨礙了 VAE 的有效擬合。為了克服這些不利影響并改進從不完整數據中估計 VAE,我們引入了基于變分混合分布的兩種策略,這些策略在計算效率、模型精度和學習到的潛在結構之間進行權衡。我們展示了與不使用變分混合的現有方法相比,所提出的方法在不完整數據下改善了 VAE 的估計效果。擴展到估計一般統計模型的更廣泛挑戰時,我們觀察到不同類別的深度模型在進展上存在不平衡。為了推動所有深度統計模型的采用,我們引入了變分吉布斯推斷(VGI),這是一種通用方法,用于最大似然估計具有可處理似然函數的一般統計模型。我們表明,該方法能夠從不完整數據中進行精確的模型估計,包括 VAE 和歸一化流。值得注意的是,VGI 是當前文獻中少數幾種具有概率原理的方法之一,能夠從不完整數據中進行歸一化流的估計,且達到了最先進的性能。通過提供一個統一的框架來處理模型估計中的缺失數據,VGI 為在面臨缺失數據的各個領域中充分發揮深度統計模型的潛力鋪平了道路。

付費5元查看完整內容

通過代碼數據學習來解決軟件任務的編程工具在提升開發人員生產力方面展現了早期的潛力。然而,這些工具在魯棒性方面以及它們對軟件安全性和可靠性的最終影響上仍然存在顯著差距——這些問題甚至對經驗豐富的開發人員來說仍是挑戰。本論文旨在從安全性和可靠性的角度推動代碼機器學習領域的發展。我們提出了訓練機器學習模型的新技術,以使其具備強大的推理能力,能夠處理與安全性和可靠性相關的問題。 我們首先介紹了利用監督學習信號來增強程序分析的方法。作為這一方法的實例,我們提出使用模仿學習框架,從符號執行中學習一個有效且快速的模糊測試器。首先,符號執行專家為大量程序生成高質量輸入數據集。然后,利用該數據集訓練一個神經網絡模糊測試器,使其模仿專家的行為。訓練好的模糊測試器隨后被部署以測試新程序。

此外,我們研究了分布漂移問題,這是阻礙深度學習模型在現實場景中有效檢測漏洞的關鍵問題。分布漂移發生在訓練和評估所用的數據集與實際遇到的漏洞分布不一致時。為了解決這個問題,我們提出了一種兩階段的訓練方法。首先,模型在大量的合成漏洞上進行訓練,然后進一步在一個更接近實際漏洞分布的數據集上進行訓練。 最后,我們從兩個互補的角度探討了代碼生成中的安全性問題。我們不僅尋求改進生成安全代碼的能力,還研究了從對抗角度降低安全級別的可能性。為實現這些目標,我們提出了一個統一的微調框架,采用專門的優化目標,既優化安全性又保持模型生成功能性正確代碼的能力。

付費5元查看完整內容

在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。

付費5元查看完整內容
北京阿比特科技有限公司