這篇論文重新審視了深度學習的基本組成部分,并評估了它們在醫學圖像分析中的應用。論文指出了深度學習在這一領域的三個主要挑戰:專家知識的整合、未標記數據的利用以及預測不確定性的估計。論文結構分為幾部分,分別解決這些挑戰。
在第一部分中,論文介紹了一種通過旋轉反射等變性(roto-reflective equivariance)來整合專家知識的新型深度學習模型,以提高醫學成像任務的準確性和魯棒性,特別是在組織病理學切片中檢測轉移組織的任務中。所提出的模型優于傳統的卷積神經網絡(CNN)架構,并表現出對輸入擾動的魯棒性。接下來,論文探討了如何通過提出PCam數據集(源于Camelyon16挑戰賽)來激勵深度學習社區關注現實的醫學問題。PCam結構類似于常見的深度學習基準,并證明在該數據集上的改進可以轉化為在更大Camelyon16基準上的改進。
第二部分探討了通過對比預測編碼(Contrastive Predictive Coding,CPC)進行自監督表示學習的好處,并提出了對比擾動預測編碼(Contrastive Perturbative Predictive Coding,C2PC),通過引入特定的醫學圖像增強來增強CPC的性能。
論文的第三部分解決了預測不確定性的估計挑戰,這對于高風險醫療決策至關重要。它引入了一種新的變分推理方法,該方法利用了多項分布在量化潛在變量上的特性。與現有方法相比,所提出的方法在不確定性估計和風險評估方面表現出競爭力。
論文總結了通過解決這些挑戰,深度學習可以更好地適用于醫學成像任務。它證明了專家知識可以有效地整合到深度學習模型中,利用未標記數據通過自監督學習可以提高模型性能,且通過更靈活的變分推理方法可以改進預測不確定性。 總之,論文展示了深度學習在醫學圖像分析中的潛力,并提供了應對關鍵挑戰的有效方法,為將來在醫療領域的應用奠定了堅實的基礎。
準確診斷疾病和確定最有效的治療方法是一個歷史性挑戰。在古代,困難的病例常常被歸因于超自然現象,惡魔和神的干預是古代社會對疾病的普遍解釋,并據此選擇治療方法。隨著科學方法的興起和醫學的進步,醫生現在能夠利用不斷增長的科學知識、高證據標準的干預措施和各種現代診斷工具,做出更加明智的治療決策。
診斷疾病和預測治療結果并不是火箭科學;它遠比火箭科學復雜。挑戰在于醫學決策中的每一個方面都充滿不確定性。雖然我們有關于重力和火箭發動機的確定性模型,但人體仍未完全被理解。直到今天,仍然有新的器官被發現,對治療產生影響。關于檢測和治療結果的科學證據稀少且偏向特定人群。干預研究存在生存偏差,隨機對照試驗傾向于有利于適合雙盲研究的治療方法。人類的異質性和許多診斷工具相關的人類痛苦和經濟成本進一步加劇了這種復雜性。此外,這一領域在不斷演變,以前被視為現代治療頂峰的干預措施現在受到質疑。在這種不確定性的迷霧中進行決策,可能需要超越人類手動能力的智能水平。
現代醫學影像的出現進一步加劇了這一問題。通過X射線、超聲、計算機斷層掃描(CT)和磁共振成像(MRI)等技術,以及病理圖像數字化的進步,臨床醫生可以獲得患者的海量信息。結果,醫生在診斷疾病和預測治療結果時,被大量需要考慮的數據所淹沒。處理這些方法生成的不熟悉圖像的復雜性導致了專門職業的出現,如放射科醫生和病理科醫生。這些專家必須專注于密集的數據流,以發現異常和評估風險。為了標準化見解,人類專家依賴于諸如Gleason評分等主觀量表,這對治療的侵入性有重大影響,但其評價者間的變異性驚人。此外,引入更多人類參與決策過程會帶來溝通和交接方面的挑戰。一旦診斷完成,專家的建議與實際治療結果之間幾乎沒有反饋循環。
計算機輔助診斷(CAD)的前景在于,計算機具有無限的精力、無限的注意力,而且不會在工作時喝醉。軟件可以復制并不斷改進,錯誤行為可以重演、研究和糾正。反饋循環可以跨越數月,將治療結果作為早期識別模型的指導信號。這是一條改進醫學決策的有前途的道路。 盡管醫學診斷過程包含許多方面,全面涵蓋整個過程是一個挑戰。在本論文中,我們專注于計算機輔助診斷在醫學圖像解釋中的挑戰。這是開發一個綜合系統的關鍵步驟,該系統能夠消化來自醫學診斷過程各個方面的信息,并沿途提供建議。
將醫學圖像分析領域的專業知識提煉為算法一直很困難。盡管許多博士學位持有人接受了這一挑戰,但根據直覺和經過數百年研究和實踐精心打磨的理論推導規則幾乎是不可能的。幸運的是,機器學習為基于規則的模型設計提供了一個替代方案。該領域提供了經過驗證的方法,這些方法采用專家注釋的示例,并得出旨在捕捉這些注釋背后的基本原則的模型。然而,醫學影像數據特別龐大且密集,傳統的機器學習方法依賴于手工制作的特征提取,將數據轉化為方法能夠處理的數字。這種手工制作特征的過程幾乎與設計規則同樣困難。
深度學習的出現給醫學圖像分析領域帶來了巨大的變化。通過結合大型隨機初始化的特征提取器和隨機梯度下降來遍歷搜索空間,機器學習模型現在可以直接在原始密集圖像上進行訓練。這一方法在2012年的ImageNet挑戰賽中被廣泛推廣,當時深度學習在分類準確性上優于傳統的機器學習方法。從那時起,大多數醫學圖像分析研究社區都看到了深度學習作為主導范式的轉變。
深度學習在醫學圖像分析中的有效性為未來帶來了令人鼓舞的愿景。深度學習模型可以訓練來自世界各地的數據,而不是由專家使用來自學術醫院的小數據集設計的手工模型,這些數據集僅捕捉到世界各地人口的一小部分。此外,深度學習模型可以在初步診斷數月后從錯誤中學習,這種反饋循環在人類專家中很少發生。雖然通常被認為是黑箱,但一組專家類似于飛機失事調查員,可以精確再現模型出錯時的狀態,并可以使用各種工具提供內省和指導,以便在未來減輕類似錯誤。此外,深度學習模型的免費復制意味著專業知識可以在全球范圍內應用。這為缺乏高質量醫學見解的社區帶來了獲取高質量醫學見解的機會。
深度學習模型可以通過消除對專門知識的需求來改變初級醫療的提供方式。這使得初級醫生能夠直接將醫學掃描轉化為可操作的見解,從而減少溝通負擔并減少因交接而導致的錯誤。最后,當一種新疾病威脅世界時,這些模型可以迅速更新以納入新的診斷,為全球健康危機提供靈活的應對措施。
盡管深度學習非常有效,但它是以經驗方式開發的——一些人將這一過程等同于煉金術——并且仍然缺乏基本的第一性原理的支持。雖然這確實帶來了巨大的成功和進步,但推動年復一年改進的主要基準與醫學圖像分析中的問題有顯著差異。這些基準通常是自然圖像中的單個對象檢測,側重于分類準確性,忽略了醫學圖像分析的細微差別。這并不是說深度學習在這一領域沒有表現出它的價值。它在有影響力的醫學圖像基準上取得了巨大的成功。例如,Gulshan等人在2016年展示了一種深度學習模型,能夠在視網膜眼底照片中檢測糖尿病性視網膜病變,其性能可與一組認證的眼科醫生相媲美。Esteva等人在2017年展示了(接近)人類專家水平的皮膚癌分類性能。Wang等人在2016年展示了在從前哨淋巴結活檢的全切片圖像中識別轉移性乳腺癌方面的強大性能。 然而,對于如此敏感的醫學決策任務,深度學習模型的失敗模式不可忽視。數據偏差、類別不平衡、決策的可解釋性和可解釋性缺乏、輸入模式的魯棒性和標簽分歧敏感性等問題在醫學領域需要特別關注。因此,有必要在醫學圖像分析的視角下重新評估深度學習的現狀,以發現進一步改進的空間并解決現有的不足。
生成建模已經成為人工智能的一個熱門應用。然而,當生成模型被錯誤指定,或當生成模型估計器被修改以遵守差分隱私等隱私概念時,模型性能可能會受到負面影響。在本論文中,我們通過展示四項不同的研究,探討了模型錯誤指定和差分隱私下的生成建模。
我們首先介紹了生成建模的相關工作。隨后,我們深入探討了在模型錯誤指定和差分隱私挑戰下研究生成建模的必要性。
作為初步貢獻,我們考慮了用于密度估計的生成建模。處理模型錯誤指定的一種方法是放寬模型假設。我們展示了這一方法在非參數模型中也具有幫助作用。具體而言,我們研究了一種最近提出的非參數準貝葉斯密度估計器,并發現其強模型假設是有限數據集下表現不佳的原因。我們提出了一種自回歸擴展,放寬模型假設,以允許先驗特征依賴關系。
接下來,我們考慮了用于缺失值填補的生成建模。在將當前深度生成填補方法分類為Rubin [1976]引入的不可忽略缺失模型類之后,我們擴展了變分自編碼器的公式,使其根據深度生成建模文獻中尚未研究過的不可忽略缺失模型類進行分解。這些模型顯式地對缺失機制進行建模,以防止在缺失值非隨機情況下的模型錯誤指定。
然后,本論文集中于提高差分隱私下的合成數據生成。為此,我們提出了對差分隱私合成數據樣本進行差分隱私重要性采樣的方法。我們觀察到,生成模型越好,重要性采樣的幫助越大。接著,我們通過考慮差分隱私擴散模型,進一步提高數據生成質量。我們識別了顯著提高DP圖像生成器性能的訓練策略。 我們在論文的最后進行了討論,包括對所展示工作的貢獻和局限性,并提出了未來工作的潛在方向。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
隨著機器學習算法在高風險應用中不斷開發和部署,確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展,重點強調兩個關鍵維度:魯棒性和可解釋性。 本論文的第一部分側重于魯棒性,即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性,包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明,對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題,我們開發了分布模糊集,能夠同時提供對所有來源的整體魯棒性。在每種情況下,我們證明了我們的新方法實現了“高效”的魯棒性,在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景,包括訓練魯棒神經網絡,在這些場景中顯著優于現有基準。 本論文的第二部分探討了可解釋性,這是高風險環境下決策支持工具的一個關鍵屬性,要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中,可解釋性至關重要:醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下,這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是,我們在理論上證明,僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后,我們開發了一種算法,MRL,能夠學習這種簡潔的表示,從而增強可解釋性和可操作性。
這篇論文探討了自動化推理和大型語言模型(LLMs),通過創新算法研究如何提高這兩個領域的效率和有效性。論文由三個主要部分組成,每一部分都關注人工智能的不同但相互關聯的方面。 在第一部分,論文深入探討了自動化推理領域,該領域通過計算方法模仿人類的邏輯推理。研究解決了該領域中的重大挑戰,特別是隨著問題復雜性的增加,計算需求呈指數級增長的情況。值得注意的是,這一部分強調了可滿足性模理論(SMT)方面的進展,重點是提高在復雜性增加時的解決效率。論文通過探索理論組合、代數數據類型和序列,貢獻了更高效的推理框架。
轉到第二部分,焦點轉向LLMs,它們在各種應用中變得至關重要,從內容生成到企業決策支持。盡管LLMs功能強大,但由于巨大的計算資源需求和用戶提示的多樣性,實現這些模型的高效部署仍是一個挑戰。這部分論文提出了新穎的算法和服務基礎設施,旨在優化LLMs的性能,特別是在減少延遲和提高實時應用吞吐量方面。創新如FlexGen和S-LoRA被引入,旨在使LLMs在個人計算設備上更加可用,并提供個性化的高吞吐量服務。這一部分還介紹了虛擬令牌計數器(VTC),一種新穎的公平調度算法,確保在高需求的LLM推理環境中公平分配資源,解決服務公平性的問題。
論文的第三部分將前兩部分橋接起來,展示了將形式驗證和代碼生成與LLMs集成的初步結果。該集成旨在利用兩個領域的優勢,創建更強大和多功能的AI系統。
引言
本論文展示了實現自動推理和大型語言模型(LLM)系統高效算法的幾種方法。本章將首先描述這兩個領域中的問題及其效率挑戰,然后概述論文中提出的研究貢獻。
1.1 問題與動機
1.1.1 符號推理與神經網絡
人工智能研究傳統上遵循兩種主要范式:符號推理和神經網絡。符號推理,也稱為符號AI,利用邏輯和知識表示來解決問題。這種方法在需要顯式規則和推理的任務中表現出色,但在處理復雜的非結構化數據時可能會遇到困難。相反,神經網絡則松散地受到大腦結構的啟發,擅長模式識別和從大量數據中學習。然而,神經網絡在推理過程中可能不透明,導致其可解釋性較差。隨著研究的進展,越來越多的研究集中在結合這兩種方法,利用符號推理和神經網絡的優勢,開發更強大和多功能的AI系統。為了充分利用每種方法的優勢,運行它們需要高效的算法和系統。在本論文中,我們首先分別關注加速自動推理的技術(第一部分)和加速大型語言模型推理的技術(第二部分)。然后,在第三部分中,我們展示了利用兩者力量的初步結果。 1.1.2 自動化推理與效率挑戰
自動化推理通過計算方法模擬人類邏輯推理的挑戰。該領域致力于開發能夠自動分析和操作邏輯表達式等形式化表示的算法。這種能力遠遠超出簡單計算,允許計算機處理具有復雜邏輯結構的問題。 自動化推理的應用領域與其解決的問題一樣多樣。在軟件和硬件設計中,自動化推理工具用于確保電路的正確性。通過分析組件之間的邏輯關系,這些工具可以識別設計中的潛在錯誤和邏輯不一致,防止在開發過程中出現昂貴的錯誤。同樣,自動化推理在形式驗證中也起著關鍵作用,這是一種通過數學證明關鍵系統中不存在錯誤的技術。在這里,自動化推理工具仔細分析系統的規范和行為,確保其遵循所需屬性,消除意外故障的可能性。 自動化推理的關鍵挑戰之一是解決時間問題。隨著所處理問題復雜性的增加,找到解決方案所需的計算資源可能呈指數級增長。這在可滿足性模理論(SMT)領域尤為突出,在該領域中,任務是確定給定的一階邏輯公式相對于背景理論(如線性算術或位向量)是否可滿足。SMT問題的解決時間可能高度可變,取決于具體理論、公式的復雜性以及底層SMT求解器的性能。自動化推理研究人員在開發更高效的算法和啟發式方法以應對這一挑戰方面取得了顯著進展,但該領域中許多問題的固有復雜性意味著解決時間仍然是一個關鍵考慮因素。
1.1.3 大型語言模型與服務挑戰
基礎模型,特別是大型語言模型(LLM),已成為各種應用的核心,徹底改變了各行業中任務的處理和執行方式。除了它們的功能外,LLMs已演變為廣泛使用的服務,受到從個人用戶到大型企業的多樣化客戶的采用。這種廣泛的應用在多個領域中尤為明顯,從個人助手和創意內容生成到高級企業數據分析和決策支持。盡管LLMs具有巨大的力量和能力,但關鍵在于利用它們的潛力來增強人類生活和生產力。 盡管大型語言模型(LLM)提供了引人注目的能力,但將其有效部署于實際應用中仍存在顯著挑戰。主要障礙在于硬件資源限制。LLMs由于其復雜的架構和龐大的參數空間,在推理過程中需要大量計算資源。此外,用戶提示的不確定性破壞了傳統的優化技術。與具有控制格式的訓練數據不同,用戶提示在長度和復雜性上可能有很大差異。此外,由于LLM生成的迭代性質,實現實時應用的低延遲和高吞吐量變得困難。與單步任務不同,LLM可能需要多次來回交流才能完成一個響應。這些因素需要開發專門的服務基礎設施和新穎的調度算法,以優化LLM性能并提供無縫的用戶體驗。
1.2 我們的方法
1.2.1 走向高效且具表現力的SMT求解
可滿足性模理論(SMT)求解在自動化推理中是一種強大的技術,專門解決結合命題邏輯和背景理論的問題。與只處理真假命題的經典命題邏輯不同,SMT結合了可判定的一階邏輯理論,如算術或等式約束。這允許對涉及整數、實數或特定數據結構的問題進行推理。SMT求解器通過系統地探索搜索空間,在指定的理論下評估公式的真值。由于將邏輯與這些理論相結合的內在復雜性,高效的求解算法和專門的決策過程對于解決現實世界的SMT問題至關重要。可滿足性模理論(SMT)求解的最新技術不斷發展,重點是提高效率和處理日益復雜的問題。盡管已經取得了令人矚目的進展,但對于高度復雜的SMT問題實現可處理的解決時間仍然是一個活躍的研究領域。 本論文的第一部分涵蓋了這一范圍內的三個研究課題,包括更好地理解和提高理論組合的效率以及利用代數數據類型和序列的兩種特定理論。在第二章中,我們對SMT中禮貌組合的研究做出了兩項貢獻。首先是一個困難結果,通過展示一個禮貌理論但不是強禮貌的例子,揭示了禮貌和強禮貌之間的區別。第二項貢獻是對禮貌組合方法的優化,借鑒了Nelson-Oppen方法。我們展示了在某些條件下,可以減少禮貌組合所需的枚舉安排的復雜性。在第三章中,我們研究了數據類型理論,并證明其是強禮貌的,展示了如何使用禮貌組合將其與其他任意不相交的理論相結合。在第四章中,我們介紹了一種用于推理向量的序列理論。與使用現有的數組理論相比,新的序列理論更具表現力,并且推理速度更快。
1.2.2 走向高效且公平的LLM服務
LLM的一個不可避免的方面是使其能夠被各個領域的更多用戶訪問。擴大訪問的目的是賦能各類個人和組織,使他們能夠利用這些強大的工具滿足其獨特的應用和需求。本論文的第二部分探討了如何提高LLM對所有用戶的可訪問性。自2022年底LLM在日常生活中被廣泛使用以來,對更易于訪問的LLM的需求不斷增長,這包括:(1)能夠在個人計算機上運行LLM,(2)訪問個性化服務,以及(3)需要公平的資源分配以防止重度用戶的壟斷。
第五章(FlexGen)旨在解決第一個需求:在個人計算機上運行LLM。由于高計算和內存需求,傳統上只能通過多個高級加速器實現,在內存有限的設備上運行LLM需要卸載,除了傳統的模型壓縮優化外。盡管激進的卸載會嚴重影響推理延遲,但FlexGen受到對批處理延遲不敏感任務的需求的驅動。它開始研究在有限資源下的高吞吐量LLM推理。它聚合了GPU、CPU和磁盤的內存和計算資源,并展示了如何在給定設置中獲得最佳的卸載策略。我們的方法也是第一個提出使用4位量化KV緩存的,這與卸載策略相結合,使吞吐量比以前的方法高出100倍。
第六章(S-LoRA)旨在解決第二個需求:個性化LLM服務。低秩適應(LoRA)技術可以提供高效的、任務特定的適應,從一個基礎模型中創建許多適配器,以實現成本效益高的個性化服務。LoRA適配器通過將適配器與模型參數合并來提供服務,這使得單個適配器的低延遲成為可能,但在同時服務多個適配器時會降低整體吞吐量。S-LoRA探索了LoRA適配器的可擴展服務,通過更好的內存管理、為異構批處理定制的CUDA內核和新穎的張量并行策略,實現了高吞吐量的多適配器服務。與之前的引擎相比,S-LoRA的吞吐量提高了4倍,服務的適配器數量增加了幾個數量級。
第七章(VTC)旨在解決第三個需求:公平地為用戶服務。LLM推理服務在高需求下處理各種請求。為了保持公平,大多數主要服務實施請求速率限制,防止任何單個客戶端壟斷隊列。然而,這種基本的公平方法在容量可用時可能導致服務未充分利用和客戶體驗不佳。我們展示了如何將傳統網絡和操作系統中的公平排隊概念應用于LLM服務領域,達到令牌粒度的公平性。我們定義了LLM服務中的公平性問題,并提出了虛擬令牌計數器(VTC)算法,這是一種具有理論保證的新型公平調度算法。廣泛的評估展示了VTC在保持公平性方面的有效性,與傳統方法相比,為更加公平高效的LLM服務系統鋪平了道路。
//hdl.handle.net/11245.1/595f9cb7-1e44-4775-989f-f08e9897afe6
這篇論文重新審視了深度學習的基本組成部分,并評估了其在醫學圖像分析中的應用。論文指出,深度學習在該領域存在三大主要挑戰:專家知識的整合、未標記數據的利用和預測不確定性的估計。論文的結構分為幾個部分,分別解決這些挑戰。
在第一部分,論文介紹了一種新的深度學習模型,該模型通過旋轉-反射等變性整合專家知識,以提高醫學影像任務的準確性和魯棒性,特別是在組織病理學切片中轉移性組織的檢測上。所提出的模型優于傳統的卷積神經網絡(CNN)架構,并且對輸入擾動表現出魯棒性。接下來,論文探討了如何激勵深度學習社區關注現實世界的醫學問題,提出了PCam數據集,該數據集來源于Camelyon16挑戰賽。PCam數據集的結構類似于常見的深度學習基準測試,證明了在該數據集上的改進可以轉化為在更大規模的Camelyon16基準測試上的改進。 第二部分探討了通過對比預測編碼(Contrastive Predictive Coding, CPC)進行自監督表示學習的好處,并提出了對比擾動預測編碼(Contrastive Perturbative Predictive Coding, C2PC),通過整合特定的醫學影像增強方法提升了CPC的性能。
第三部分解決了預測不確定性估計的挑戰,這對高風險醫學決策至關重要。論文介紹了一種新的變分推斷方法,該方法利用多項式分布在量化潛變量上的特性。所提出的方法在不確定性估計和風險評估方面表現出與現有方法競爭的性能。
論文總結認為,通過解決上述挑戰,深度學習可以更好地適用于醫學影像任務。論文展示了專家知識可以有效地整合到深度學習模型中,利用未標記數據進行自監督學習可以提高模型性能,預測不確定性可以通過更靈活的變分推斷方法得到改進。
構建能與世界互動的自主代理是人工智能(AI)的核心。本論文引入了“語言代理”,這是一類新的代理,它們利用大型語言模型(LLMs)進行推理以采取行動,標志著與傳統通過廣泛規則設計或學習的代理的一種轉變。它分為三個部分開發:
第一部分通過介紹基于與大規模、真實世界計算環境(如互聯網或代碼接口)的互動的一組新的AI問題和基準,激發了對語言代理的需求。這些“數字自動化”任務為減輕繁瑣的勞動和改善我們的生活提供了巨大的價值,但對于以前的代理或LLM方法在開放式自然語言和長期決策方面提出了重大挑戰,這需要新的方法論。 第二部分為語言代理奠定了方法論基礎,其核心思想是應用LLM推理來實現多功能和可泛化的代理行動和計劃,這也通過外部反饋和內部控制增強了LLM的推理,使其更加扎根和深思熟慮。我們展示了語言代理能解決多種語言和代理任務(特別是在第一部分提出的數字自動化任務),并在先前基于LLM的方法和傳統代理上取得了顯著的改進。 第三部分綜合了第一部分和第二部分的洞察,并概述了一個有原則的語言代理框架。該框架提供了模塊化抽象,以組織各種基于LLM的方法作為代理,理解它們與人類認知的差距,并激發并開發新方法,朝向通用目的的自主代理。從基礎的經驗任務和方法到統一的概念框架,本論文建立了語言代理作為AI研究前沿的一個獨特且嚴謹定義的領域的研究。
構建能與各種環境互動的自主代理是人工智能(AI)的核心問題[266]。從高層次上來說,這篇論文提出了一種全新的代理類型和一種全新的環境類型(圖1.1): ? 現有的代理要么主要遵循特定領域的規則來行動(基于規則的代理,如DeepBlue [38]、Eliza [272]或Shaky the robot [229]),要么主要在特定領域數據上進行訓練以行動(基于學習的代理,如AlphaGo [281]、Atari DQN [206]或用于手部操控的ADR [8])。本論文介紹了語言代理,這些代理利用語言模型進行推理以行動,這減輕了構建傳統代理所需的密集型特定領域努力,并且在各種領域中實現了少量樣本的泛化。這代表了構建通用自主代理目標的一個重大步驟。 ? 現有代理要么與人類或物理世界互動(實用但不可擴展),要么與游戲或模擬互動(可擴展但不實用)。這篇論文引入了數字自動化,一種新型任務,其中代理與大規模真實世界數字環境(如互聯網)互動。這為代理在開放式行動和長期視野上做出決策提供了新的挑戰,同時也提供了巨大的機會來減輕我們的數字勞動并發現新知識。 傳統代理和環境有什么問題?在傳統基于規則或基于學習的代理可能也能感知和用語言行動的情況下,“語言代理”的定義是什么?為什么我們必須轉向大規模真實世界數字環境來進一步發展,而不是使用傳統的代理測試床如游戲?我將簡要使用文本冒險游戲領域來闡述這些點并激發論文的其余部分。
隨著在安全關鍵領域應用強化學習(RL)的需求日益增加,迫切需要安全、魯棒且多功能的RL算法。本論文直接回應了這一需求,引入了一套先進的策略優化算法,旨在克服安全RL面臨的關鍵挑戰,從而為更可靠和實用的部署鋪平道路。
論文的第一部分集中于提高樣本效率和訓練穩定性——這是可部署安全RL的關鍵方面。我們提出了約束變分策略優化(CVPO)方法,該方法將安全RL問題重新定義為兩階段優化過程。這種方法不僅確保了高效且穩定的學習,還提供了強大的性能保證,使其成為實際安全RL應用中安全性和樣本效率方面的優越選擇。 論文的第二部分深入探討了可部署RL的關鍵組成部分——魯棒性,特別是針對觀測擾動的魯棒性。我們發現,學到的安全策略對隱秘但不安全的行為誘導很脆弱。我們的發現強調了在不利條件下提高安全性的魯棒對抗訓練的必要性。基于此,我們首先引入了一種在策略上的對抗訓練流程,然后提出了SAFER,一種從CVPO衍生的離策略方法,有效地在對抗環境中增強了策略的魯棒性和安全性。
最后,論文通過從靜態離線數據集學習,解決了可部署RL的適應性和可擴展性問題。它引入了約束決策變換器(CDT),一種新穎的方法,利用序列建模技術在部署過程中動態調整安全性和任務性能之間的權衡。與CDT同時,論文提出了TAIL,一個可擴展的連續學習訓練范式,有效地將預訓練模型適應新任務,同時減輕災難性遺忘和過擬合。
總之,本論文致力于推動安全、魯棒和可擴展策略優化的界限,朝著在安全關鍵領域可部署RL邁進。所提出的方法提供了魯棒、高效和可適應的解決方案,這對RL系統的現實世界部署至關重要。 隨著強化學習(RL)繼續成熟并擴展其視野,從模擬環境過渡到真實世界的應用,使RL在實際的安全關鍵領域可部署的重點日益加強。可部署的RL指的是RL系統在復雜、動態且往往是高風險環境中安全、可靠且高效地互動和學習的能力。這包括自動駕駛車輛在城市交通中導航、金融系統執行交易或醫療機器人協助手術。為了使RL可部署,它必須遵守嚴格的安全、魯棒性、適應性和可擴展性要求——確保RL代理在多變和不可預測的現實世界條件下表現得當。
可部署RL的基石是安全性。安全強化學習(safe RL)專門通過學習不僅尋求最大化獎勵但也遵循預定義安全約束的策略來解決這一問題。這些約束對于防止危險行為和確保RL代理在可接受的風險參數內運作至關重要。安全性不僅僅是一個特性——它是一種基本必需品,支持在不確定性盛行且風險高的現實世界設置中部署RL的整個前提。
然而,僅有安全性并不能保證可部署性。為了讓RL從理論過渡到實踐,它還必須具備魯棒性和可擴展性。RL中的魯棒性指的是策略對環境變化和不確定性的抵抗力,包括在訓練期間未遇到的新場景或敵對嘗試破壞代理的行為。另一方面,適應性涉及RL算法高效地從大數據集和多樣化場景中學習和適應的能力。適應范式還應該是可擴展的,以持續發展并隨時間改進其策略。這關乎RL系統在廣泛的任務和條件中保持其性能和安全性的能力,不斷提高其能力和可靠性。
在這篇論文中,我們專注于推動安全RL的前沿,強調使其可部署。我們通過深入探討三個相互關聯的方面——安全性、魯棒性、適應性和可擴展性來解決這一挑戰,以安全性為核心,將其他方面進行語境化。我們的目標是開發方法論和算法,使我們更接近將RL視為一套理論工具和技術的愿景,而是一套實用、可靠且高效的解決方案,準備好用于真實世界的實施。這種追求是由RL在關鍵應用中的日益增長的需求和巨大潛力所激發的,推動了對不僅表現出色而且可信和可適應的系統的需求。通過專注于安全RL作為通往可部署RL的途徑,我們旨在為將智能、基于學習的系統整合到我們日常生活中的更廣泛目標做出貢獻,增強能力,并確保安全和福祉。
這篇論文探討了為已部署的機器學習模型生成局部解釋的方法,旨在確定生成有意義解釋的最優條件,同時考慮數據和用戶需求。主要目標是開發出一種為任何模型生成解釋的方法,同時確保這些解釋對于底層模型保持忠實并且對用戶來說易于理解。論文分為兩個部分。第一部分增強了一個廣泛使用的基于規則的解釋方法,并引入了一個評估線性解釋適用于近似模型的適宜性的新方法。此外,它進行了一個比較實驗,分析了兩大類反事實解釋方法之間的優勢。第二部分專注于用戶實驗,評估三種解釋方法和兩種不同表示的影響。這些實驗測量了用戶在理解和信任方面如何感知他們與模型的互動,這取決于解釋和表示方法。這項研究為更好的解釋生成做出了貢獻,可能對提高部署的AI系統的透明度、可信度和可用性產生影響。 在近幾十年里,人工智能(AI)的迅速進步,特別是機器學習(ML)模型的發展,顯著影響了我們的日常生活。這一顯著的進步可以歸因于數據可用性的指數級增長和這些模型精確度的提高。結果,AI和ML模型已經能夠實現諸如提供醫療診斷、生成連貫文本、高效識別環境問題等顯著成就。這些進步已經轉變了眾多行業,并且有潛力進一步革命化我們的社會。 然而,這一進展也導致了復雜性的增加,這使得ML模型變成了“黑盒子”。它們不透明的本質使得檢查它們的推理、進行審計或從中獲得洞見變得具有挑戰性。那么問題來了:在我們不知道這些模型的局限性和潛在失敗的情況下,我們能依賴這些模型在關鍵情況下作出決策嗎?在預測個人娛樂偏好(如Spotify或Netflix)的場景中,模型不準確的后果可能是微小的。但在預測自然災害或在醫學、工作機會或正義等領域做出關鍵決策的情況下,理解模型的可靠性和推理變得至關重要。實際上,對模型的不信任或誤解可能會導致錯誤的決策。此外,這些模型在對少數群體的偏見和對人類眼睛不可見的對抗性攻擊方面展示了脆弱性。
近年來,我們已經看到了預訓練神經網絡來學習可遷移到視覺和NLP中看不見的下游任務的表征的巨大好處。然而,這種學習范式在諸如設計優化或控制等決策方面的研究還不多。在這篇論文中,我們概述了兩個問題設置,可以受益于在決策制定的背景下的預訓練。首先,我們描述了一個用于自動化設計優化的設置,特別是電路設計優化,在該設置中,特定領域的先驗數據可以有效地提高基于模型的優化方法的樣本效率。本文對如何提高基于模型的進化算法和貝葉斯優化方法的樣本效率提出了新的思路,并進行了實證和理論分析。在第二個問題設置中,我們將討論如何從大型任務無關數據集中利用無監督的預訓練來提取行為表征,并進行少量的模仿學習。我們發現,當新任務的例子演示稀缺時,預訓練agent提取技能是使他們準備進行少樣本模仿的一個實用方向。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-35.html
隨著互聯網的興起,每天都有不同形式的大量的文本數據產生:新聞、研究文獻、 博客、論壇文字以及社交媒體評論等。很多重要有用的信息隱藏在其中,如何從這些自 由文本中自動抽取所需要的信息是一個關鍵并且重要的一步。信息抽取任務就是為此目 標而誕生。本文主要研究信息抽取子任務之一的實體關系抽取任務。該任務旨在識別文 本中出現的實體,并判斷出實體之間存在的關系。
傳統的有監督實體關系抽取通常采用基于流水線的方法,即實體模型和關系模型 分開訓練。在測試階段,先用實體模型識別出實體,然后關系模型找出這些實體之間的 關系。這種流水線的方法存在著錯誤傳播的缺點,前一個任務的錯誤會累積到后一個任 務。為了緩解這一問題,研究人員提出了聯合模型。聯合模型將兩個子模型統一建模, 可以進一步利用兩個任務之間的潛在信息,以緩解錯誤傳播的缺點。聯合模型的難點是 如何加強實體模型和關系模型之間的交互,比如實體模型和關系模型的輸出之間存在著 一定的約束,在建模的時候考慮到此類約束將有助于聯合模型的性能。
另一方面,為了解決實體關系抽取數據集難以獲得的問題,遠程監督的方法也被提 出來。其主要思想是利用知識庫和大規模文本數據對齊,自動構建大規模的訓練集。然 而,遠程監督方法的缺點是自動構建的訓練集中存在著很多的噪音數據,這些噪音數據 的存在對遠程監督實體關系抽取有著很大的負面影響。此外,在有些應用場景中可能沒 有現成的知識庫可以用來進行遠程監督,如何解決類似的數據噪音和數據缺失問題也是 一大挑戰。
根據實體關系抽取方法的研究現狀,本文從數據和聯合模型兩個角度探索了幾種實 體關系抽取聯合模型,并且探究了所提出模型的優勢和不足。具體來說,本文的主要貢 獻有