亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著深度學習逐漸滲透到計算機視覺和自然語言處理等領域,并越來越多地與對人類有影響的大型關鍵系統相集成,解決人工智能的安全性問題已成為該領域的核心挑戰之一。在這些重要系統中,目標不僅僅是構建最準確的AI模型,而是要構建那些同時具備高準確性和可證明安全性的AI模型。本論文探討了人工智能安全性的兩個重要方面:魯棒性和公平性。魯棒性要求模型在輸入分布與訓練期間遇到的分布不同時也能良好表現。公平性是一種安全屬性,要求模型預測在不同個體和群體間保持公平。

在論文的第一部分,我們聚焦于魯棒性。我們首先提出了一種新穎的認證方法,可以保證模型對輸入變換具有魯棒性。在第二章中,我們將此方法擴展到訓練模型,使其能夠證明魯棒性。這些貢獻基于諸如通過優化和采樣進行認證的創新技術,以及通過在凸松弛中尋找對抗樣本來進行訓練的方法。 論文的第二部分則探討了公平性,我們開發了新的方法,用于學習滿足個體或群體公平性要求的公平表示。我們還將個體公平性與魯棒性聯系起來,使得我們能夠利用論文第一部分中的技術來同時解決公平性問題。 本論文中提出的方法具有廣泛的應用前景,例如魯棒性方法可以應用于更復雜的輸入變換,而群體公平性表示學習也可以用于將輸入編碼為更隱私的表示。我們相信,本論文提出的方法能夠豐富我們在AI安全性方面的工具庫,并在未來應用于更多的系統中。 深度學習在過去十年中取得了顯著成功。基于深度學習的模型現已廣泛應用于各個領域,如推薦系統【16】、計算機視覺【17, 18, 19】和涵蓋自然語言的一般任務【20】。然而,隨著深度學習模型能力的提升,人們也對其安全性產生了極大的關注。因為這些模型并非孤立使用,而是作為更大系統的一部分,而其預測結果可能會對人類產生下游影響。例如,計算機視覺模型可以用在自動駕駛車輛中,幫助其檢測街道標志,其預測結果直接影響乘客和其他交通參與者的安全。一個預測學生GPA的模型可以用于大學錄取過程中,這意味著其預測質量可能會影響一個人的教育路徑。這強調了研究人工智能安全性的重要性,特別是這些系統在最壞情況下的表現,以確保其在盡可能多的情況下能夠正確運作。

安全人工智能:魯棒性與公平性

在本論文中,我們專注于安全人工智能的兩個方面:魯棒性與公平性。當機器學習模型在輸入發生變化時仍能正確運行,則稱其具有魯棒性。輸入的變化可以是由對抗者造成的(例如,有人故意向圖像中添加噪聲),也可以是在推理過程中自然發生的(例如,攝像頭拍攝的圖像發生位移)。解決這一問題對于開發能夠在環境變化時依然有效的機器學習系統至關重要。公平性是人工智能安全的另一重要話題,隨著機器學習模型通常基于偏差數據進行訓練,模型本身也可能會開始表現出類似的偏差行為。盡管公平性有多種定義,本論文關注個體公平性(要求相似個體獲得相似結果)和群體公平性(要求不同群體間的平均預測相似)。隨著機器學習越來越多地被用于重要的社會決策中,充分解決公平性問題變得越來越重要。

目標

本論文的主要目標是推進能夠保證機器學習模型魯棒性和公平性的方法。為此,我們結合使用了形式方法(例如,抽象解釋和凸松弛)和統計方法(例如,有限樣本邊界)。具體而言,在第三章中,我們引入了一種基于優化和采樣相結合的方法,以認證機器學習模型對幾何變換的魯棒性。接下來在第四章中,我們不僅對模型進行認證,還提出通過潛在對抗樣本進行訓練的創新概念,使模型在訓練時即具備可證明的魯棒性。第五章首次探討了輸入數據的預處理問題,從而使數據消費者能夠證明個體公平性。最后,第六章提出了一種新的預處理方法,使得轉換后的輸入數據無法用于推斷敏感屬性,從而保證在其之上的任何下游分類器的群體公平性。 在表1.1中,我們總結了本論文的貢獻,每一行對應一個章節:章節中涉及的安全屬性,以及用于安全性檢查的關鍵方法。接下來,我們將對本論文的貢獻進行分章節概述。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

開發能夠處理復雜任務的人工智能系統的需求推動了深度學習的快速發展,尤其是自 2016 年以來,神經網絡模型已成為主流方法。這些模型的應用范圍廣泛,從推薦系統到語音識別,徹底變革了多個領域。然而,仍然存在一些挑戰,特別是在融合大量特定領域知識和減少大語言模型固有的生成幻覺方面。本論文探索了將檢索增強生成(RAG)集成到多模態問答(QA)系統中的方法,以應對這些挑戰。通過利用外部知識源,RAG 提高了模型的準確性并增強了對特定領域信息的訪問能力。研究按以下順序展開:首先,為了高效利用外部知識回答知識密集型的視覺問題,我們提出了 RA-VQA(檢索增強視覺問答)框架,該框架專為知識驅動的視覺問答(KB-VQA)設計。我們展示了檢索器和生成器模型聯合訓練在最大化性能方面的效果。其次,FVQA(基于事實的視覺問答)2.0 引入了半自動標注的對抗樣本,以解決數據分布不均衡問題并增強系統的魯棒性,展示了在處理復雜場景方面的顯著改進。第三,開發了 FLMR(細粒度后交互多模態檢索器)及其擴展版本 PreFLMR(預訓練 FLMR),突顯了后交互模型在實現卓越多模態檢索性能方面的重要性。我們證明了所提出的模型能夠捕捉查詢與上下文之間的細粒度交互,在廣泛的多模態檢索任務中實現了高效和準確的檢索。隨后,研究重點轉向 TableQA 中的檢索方法,引入了 ITR(內表檢索器)用于封閉域場景,并提出了 LI-RAGE(帶顯式信號的后交互檢索增強生成)用于開放域 TableQA 任務。兩種框架在現有方法上表現出顯著的性能提升。我們展示了在 TableQA 中整合檢索方法顯著推動了研究邊界,提供了最先進的問答性能。通過細致的實驗和創新,本論文不僅在多模態檢索增強系統的理論理解上取得了進展,還提供了實用的框架和數據集,以應對不同領域問答中的關鍵挑戰。在邁向有效 AI 系統的過程中,這些貢獻為信息檢索和多模態問答的未來發展奠定了堅實基礎。創造能夠處理復雜任務的人工智能(AI)一直是人工智能研究領域的目標。自 2016 年以來,深度學習已成為人工智能中的一種重要方法,其中通過構建和訓練神經網絡模型,使其逐漸成為開發人工智能的主流方法 [139]。近年來,這些神經網絡模型也在各種實際場景中得到了廣泛應用,包括推薦系統、對話代理、語音識別、情感分析和人機交互。人工智能模型因其在自動分析、邏輯推理和內容生成等復雜任務中的潛力而備受重視。2021 年,GPT-3(Generative Pre-trained Transformer 3)[23] 的發布以及一系列開源大型語言模型,證實了在數據驅動方法下擴展模型參數和訓練數據的有效性,正式開啟了以大模型為核心的研究浪潮。大型語言模型的出現標志著人工智能領域的新里程碑,并引起了人們對數據驅動方法的關注。這些在海量數據上訓練的模型在各種語言任務中表現出色,從簡單的語言理解到復雜的文本生成,展現出前所未有的能力。多模態是指整合來自不同來源的異構數據,通常包括語言、視覺和音頻信息,廣義上還延伸到圖數據和表格(結構化)數據。自 2021 年以來,多模態任務的研究日益突出,特別是自然語言處理和計算機視覺領域的逐步融合。因此,學術界和工業界正在投入更多資源研究多模態大型模型。以 GPT-4 [232] 為代表的一系列多模態大型模型(如 LLaVA [198] 和 MiniGPT-4 [388])的出現,意味著大型模型正逐漸獲得強大的視覺-語言理解和推理能力,有望應用于處理更復雜的多模態任務。例如,強大的視覺-語言理解能力在醫療保健 [220, 329, 371]、教育 [18, 154] 和推薦系統 [203, 351] 等應用中至關重要,在這些領域中,對視覺和文本信息的準確解釋和整合可以顯著提升性能和結果。然而,各種研究 [219, 44] 表明,盡管大型模型可以基于自身知識處理各種復雜任務,但其能夠存儲和熟練應用的知識是有限的,特別是在復雜和特定領域的知識方面。當前的大型模型存在生成幻覺 [118, 196] 的問題,在回答問題時經常生成錯誤或模棱兩可的內容,并且在需要專業知識或世界知識的場景中表現不佳。本章開頭引用的蘇格拉底名言:“真正的智慧在于知道自己一無所知”,完美地適用于我們對優秀 AI 系統的期望。只有當 AI 系統認識到自身的局限性,并且在缺乏相關信息時能夠利用外部資源獲取知識時,它才真正具備“真正的智慧”。在此背景下,在深度學習系統早期提出的檢索增強生成(Retrieval-Augmented Generation,RAG)再次受到關注。RAG 是一種將信息檢索系統整合到大型模型生成過程中的流程。它利用檢索系統從知識庫中提取必要的知識,并將這些信息提供給模型,從而使其能夠基于外部檢索的數據進行推理或回答問題。RAG 可以通過以下方式為大型模型的生成帶來顯著優勢: * 通過明確呈現模型所需的知識,減少大型模型的幻覺,提供更準確的答案(例如,股票代碼和產品信息)。 * 使模型能夠訪問更廣泛的行業特定和世界知識。為模型配備特定領域的知識庫,使其能夠處理專業任務。 * 增強模型的時效性。雖然模型的訓練和參數更新通常需要較長時間(甚至數月或數年),但信息更新的速度要快得多。模型從持續更新的數據庫中提取最新信息進行問答,可以顯著提高其相關性。 然而,在本文研究的初始階段(2021 年 10 月),多模態大型模型和多模態 RAG 系統的研究仍存在一些不足。知識密集型任務的多模態系統通常存在以下問題: * 模型結構復雜,參數規模龐大,但在需要知識的多模態任務上表現不佳。 * 所使用的多模態信息檢索系統性能較弱,召回率(評估檢索性能的指標)較低。 * 信息檢索組件與檢索增強生成模型之間的整合不佳,即使檢索性能良好,回答性能也不理想。 在下一節中,我們將提出本研究旨在解決的關鍵研究問題,以克服現有多模態 RAG 系統的局限性。

付費5元查看完整內容

受到人工智能(AI)在高成本和安全關鍵應用中的潛力,以及最近人工智能在我們日常生活中日益普及的影響,可信賴的人工智能作為一個廣泛的研究領域日益受到重視,涵蓋了可解釋性、魯棒性、可驗證安全、公平性、隱私、問責等主題。這在簡單、透明的模型與復雜、黑箱模型之間造成了一種緊張關系,前者具有固有的信任相關好處,而后者在許多任務上的表現則無與倫比。為了彌補這一差距,我們提出并研究了一種對數值數據的不確定解釋,并將其應用于基于樹的模型,形成了一種新型模糊決策樹,稱為核密度決策樹(KDDTs),它具有更好的性能、增強的可信特性和更廣泛的實用性,使得這些樹可以應用于更廣泛的領域。我們將本論文的貢獻分為三大支柱。

第一支柱是魯棒性和驗證。不確定解釋通過考慮數據中的不確定性,并更一般地作為對模型表示的函數的一種正則化,可以改善模型在各種魯棒性概念方面的表現。我們展示了它在應對噪聲特征和噪聲標簽方面的魯棒性,這在現實世界數據中很常見。接下來,我們展示了如何通過隨機平滑理論有效地實現可驗證的對抗魯棒性。最后,我們討論了相關主題的驗證,并提出了第一個模糊決策樹的驗證算法。

第二支柱是可解釋性。雖然決策樹普遍被認為是可解釋的,但基于樹的模型的良好性能通常僅限于表格數據,并且需要特征工程,這增加了設計工作量,同時集成方法則大大降低了相較于單棵樹模型的可解釋性。通過利用KDDTs的高效擬合和可微性,我們提出了一種學習參數化特征變換的系統。通過選擇可解釋的特征類并應用稀疏正則化,我們可以獲得具有競爭性能的緊湊單樹模型。我們展示了其在表格數據、時間序列和簡單圖像數據上的應用。

第三支柱是務實的進展。半監督學習(SSL)是由標簽成本的高昂而驅動的,從混合的標記和未標記數據中學習。樹的半監督學習通常僅限于黑箱包裝方法,而這并不適合樹。我們提出了一種基于我們對數據的不確定解釋的新穎內在SSL方法。聯邦學習(FL)是由數據共享限制驅動的,通過通信模型從分布式數據中學習。我們引入了一種基于函數空間正則化的新FL算法,它借用了我們不確定解釋形式中的概念和方法。與先前的FL方法不同,它支持非參數模型,并在溫和的假設下具有收斂保證。最后,我們展示了我們的FL算法還提供了一種簡單的集成合并實用工具。

付費5元查看完整內容

大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。

在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。

在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。

付費5元查看完整內容

機器學習(Machine Learning, ML)越來越多地用于驅動復雜應用,如大規模網頁搜索、內容推薦、自動駕駛汽車以及基于語言的數字助理。近年來,這些系統變得主要依賴數據驅動,通常以端到端學習復雜函數的深度學習模型為基礎,這些模型通過大量可用數據進行訓練。然而,純粹的數據驅動特性也使得所學習的解決方案不透明、樣本效率低下且脆弱。

為了提高可靠性,生產級解決方案通常采用混合形式的ML系統,這些系統利用深度學習模型的優勢,同時通過系統中的其他組件來處理諸如規劃、驗證、決策邏輯和政策合規等輔助功能。然而,由于這些方法通常是在完全訓練后的黑箱深度學習模型上后期應用的,它們在提高系統可靠性和透明性方面的能力有限。 在本論文中,我們研究了如何通過使用具有結構化中間表示(Structured Intermediate Representations, StructIRs)的機器學習模型來構建更可靠且透明的機器學習系統。與神經網絡激活等非結構化表示相比,StructIRs 是通過優化明確的目標直接獲得的,并且具有結構約束(例如歸一化嵌入或可編譯代碼),同時仍然具有足夠的表達能力來支持下游任務。因此,它們通過增加模塊化并使建模假設顯式化,可以使得所產生的ML系統更加可靠且透明。

我們探討了StructIRs在三種不同機器學習系統中的作用。在我們的第一個工作中,我們使用由神經網絡參數化的簡單概率分布來構建一個有效的ML驅動的數據中心存儲策略。在第二項工作中,我們展示了將文本生成嵌入到結構良好的向量表示空間中,可以通過簡單、可解釋的向量運算有效地轉換文本的高層屬性,如時態和情感。最后,在第三項工作中,我們進行了人類受試者研究,表明基于Bandit的推薦系統背后的平穩性假設在實踐中并不成立,強調了驗證ML系統背后假設和結構的重要性。

付費5元查看完整內容

大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。

大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:

**1.1 論文大綱

  • 第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。

  • 第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。

  • 第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。

付費5元查看完整內容

隨著深度學習逐漸滲透到計算機視覺和自然語言等領域,并且越來越多地與可能影響人類的關鍵系統相結合,解決人工智能安全問題成為該領域的核心挑戰之一。在這些重要系統中,首要目標不再僅僅是構建最準確的AI模型,而是構建那些既高度準確又能被證明安全的AI模型。本論文探討了AI安全的兩個重要方面:穩健性和公平性。穩健性要求模型在輸入分布與訓練時遇到的分布不同的條件下也能表現良好。公平性是一種安全屬性,要求模型的預測對不同個體和群體是公平的。 在論文的第一部分中,我們專注于穩健性。我們首先提出了一種新穎的認證方法,可以保證模型對輸入變換具有穩健性,并在第二章中擴展了這一方法,使模型訓練時能夠被證明是穩健的。這些貢獻基于諸如通過優化和采樣進行認證的新技術,以及通過在凸松弛中找到對抗性樣本進行訓練的新方法。論文的第二部分探討了公平性問題,我們開發了新的方法來學習可以證明滿足個體或群體公平性的公平表示。此外,我們還將個體公平性與穩健性聯系起來,使我們能夠利用論文第一部分中的技術來解決公平性問題。

本論文中提出的方法具有廣泛的應用潛力,例如,穩健性方法可以應用于更復雜的輸入變換,而群體公平表示學習也可以用于將輸入編碼為更具隱私性的表示。我們相信,本論文中提出的方法改善了我們對可證明的AI安全性的工具集,并且在未來可能應用于更多的系統中。

在過去的十年中,深度學習取得了顯著的成功。基于深度學習的模型現已應用于各種不同的領域,如推薦系統[16]、計算機視覺[17, 18, 19],并最終應用于涉及自然語言的一般任務[20]。然而,隨著深度學習模型能力的提高,人們也對其安全性產生了重大擔憂,因為這些模型不僅單獨使用,而是作為更大系統的一部分,其預測可能會對人類產生下游影響。例如,計算機視覺模型可以用作自動駕駛車輛的一部分,幫助其檢測路標,其預測直接關系到乘客和其他交通參與者的安全性。又如,用于預測學生GPA的模型可能會用于大學錄取,這意味著其預測質量可能影響個人的教育道路。這凸顯了研究人工智能安全性的重要性,更具體地說,研究這些系統在最壞情況下的性能,以確保它們在盡可能多的情況下能夠正確運行。

在本論文中,我們聚焦于安全AI的兩個方面:穩健性和公平性。如果機器學習模型在輸入變化的情況下能夠正確運行,那么它就是穩健的。這些變化可能由對手故意施加(例如,有人故意在圖像中添加噪聲),或者在推理過程中自然發生(例如,攝像頭拍攝的圖像發生位移)。解決這個問題對于開發能夠在環境變化時仍能良好運行的機器學習系統至關重要。公平性是AI安全性中的另一個重要議題,隨著機器學習模型通常基于有偏數據進行訓練,它們往往開始表現出這種偏見行為。在本論文中,我們專注于個體公平性(要求相似的個體獲得相似的結果)和群體公平性(要求兩個群體之間的平均預測相似)。隨著機器學習越來越多地用于做出重要的社會決策,充分解決公平性問題變得尤為重要。

目標 本論文的主要目標是推進能夠保證機器學習模型穩健性和公平性的方法。為此,我們結合使用了形式化方法(如抽象解釋和凸松弛)和統計方法(如有限樣本界)。具體而言,在第3章中,我們引入了一種基于優化和采樣相結合的方法,以證明機器學習模型在幾何變換下的穩健性。接著,在第4章中,我們不僅考慮認證模型,還通過潛在對抗性樣本的訓練概念,訓練模型使其被證明是穩健的。第5章首次處理了預處理輸入數據的問題,從而使數據消費者可以證明個體公平性。最后,第6章介紹了一種新的預處理方法,使得轉換后的輸入無法用于推斷敏感屬性,從而保證了任何下游分類器的群體公平性。 在表1.1中,我們總結了本論文的貢獻,每一行對應一個章節:章節中考慮的安全屬性以及用于檢查安全性的關鍵方法。接下來,我們對本論文的貢獻進行總體概述,并按照不同章節進行區分。安全屬性方法章節幾何穩健性優化和采樣第3章局部穩健性潛在對抗性樣本第4章個體公平性邏輯和連續約束第5章群體公平性通過歸一化流編碼第6章 1.1 第3章:幾何穩健性的認證 我們的第一個貢獻是由一個實際場景所驅動的,在該場景中,輸入首先經過幾何變換,然后再傳遞給網絡。這可能發生在拍攝圖像的攝像機旋轉或移動時。雖然先前的工作通過對變換中的每個操作應用區間界限來處理這個問題,但我們工作的關鍵見解是我們可以將其公式化為一個優化問題,該問題的解是整個變換序列的最緊線性界限。我們開發并實現了實際算法,并表明它們可以認證穩健性,以應對廣泛的幾何變換及其組合(如旋轉、平移、剪切等),并在更多的圖像上實現了顯著優于先前工作的認證效果。 影響 第3章中提出的技術也具有更廣泛的影響,后來被更廣泛地應用于認證空間[5]、點云[8]和音頻[7]變換的穩健性。這增加了我們成功認證穩健性的規范和領域的多樣性,從而使AI的應用更加安全。 1.2 第4章:訓練可被證明穩健的網絡 第3章的重點在于認證模型的穩健性誤差,而第4章的目標是訓練既具有高度穩健性又具有高標準精度的模型。這是一個重要的研究方向,因為未經此類技術訓練的模型通常難以證明其穩健性。在我們在本章中提出的工作之前,訓練具有高認證穩健性和高精度的網絡非常困難,尤其是在較小噪聲水平下。本章的主要見解是使用對抗性訓練的方法,不是為了在輸入區域中尋找對抗性輸入,而是為了在通過網絡傳播的凸區域中進行搜索。這使得可證明穩健性和精度之間的權衡更加細致,最終產生了比先前工作更好的模型。 影響 我們的訓練方法也有進一步的影響,因為大多數最新的可證明訓練方法[21, 22, 23]基于與我們的相似的觀察,即連接啟發式和可證明的防御方法,使得能夠訓練出具有更好認證穩健性和精度權衡的模型。我們還研究了本章中提出的理論問題[9],以加深對為什么某些凸松弛在訓練中表現更好的理解。 1.3 第5章:可被證明的個體公平表示 在第5章中,我們的概念上從穩健性轉向公平性。然而,在技術層面上,本章中提出的整個思想基于個體公平性與穩健性之間的聯系。更具體地說,個體公平性要求類似的個體獲得類似的分類結果,這與第3章和第4章中考慮的穩健性要求輸入及其鄰居獲得類似的分類結果相同。在本章中,我們提出了一種新的數據預處理方法(或表示學習),使數據消費者知道他們在這種數據上訓練的任何模型都能被證明滿足個體公平性。 影響 我們后來將這一方法擴展到計算機視覺模型中的個體公平性[10],從而展示了這一框架在其他領域的廣泛適用性。其他工作也將類似的方法應用于其他類型的個體公平性保證表示[24]。總體而言,本章的貢獻使得訓練可證明的個體公平表示在實踐中更加可行。 1.4 第6章:可被證明的群體公平表示 在最后一章中,我們繼續研究學習可證明公平表示的概念,這次針對群體公平性定義的隱私(如人口統計平等或機會均等)。群體公平性定義在實踐中往往更為廣泛使用,因為它們比個體公平性更容易定義和評估,因此學習這種可證明的公平表示具有重要的實踐意義。先前的工作表明,滿足群體公平性與確保不能從表示中恢復敏感屬性之間存在等價性。我們方法的關鍵思想(稱為FNF)是使用基于歸一化流的統計方法[25],以計算潛在空間中表示的概率密度,從而計算出對任何對抗性分類器能夠預測敏感屬性的最大準確性的上限。 影響 FNF也對后續工作產生了影響:在后續的論文中,我們提出了一種新的方法FARE[11],解決了FNF的局限性(需要了解先驗分布)。此外,我們還在隱私領域產生了更廣泛的影響,在該領域中我們研究了從數據中預測敏感屬性的問題[26, 27],這可以視為表示學習方法。

付費5元查看完整內容

在快速發展的機器學習領域,計算能力和數據的激增推動了深度學習成為學術研究的前沿。隨著模型和數據集規模的不斷擴大,越來越多的注意力集中在算法改進上,以應對日益增長的計算和內存需求。此外,由于其在廣泛應用中的成功,該領域見證了多種多樣的神經網絡架構的涌現,每種架構都有其獨特的訓練挑戰。本論文介紹了利用模型結構來提高資源和算法效率的流行神經網絡架構的高效訓練方法。 在第一部分中,我們首先提出了針對隱式深度學習模型和基于變壓器的語言模型的具有較低計算和內存需求的新訓練算法。具體來說,我們首先提出了一種高效的順序訓練方法,用于隱式平衡模型,消除了在現有訓練過程中求解計算昂貴的固定點方程和投影步驟的需求。然后,我們引入了方差減少的零階方法,以僅使用內存高效的推理過程來有效微調大型語言模型。

在第二部分中,我們轉向探索可微分優化在元優化和矢量量化中的訓練增強應用。具體來說,對于前者,我們提出了一種利用可微分凸優化結構來參數化新型一階優化器的方法。對于后者,我們引入了可微分凸優化作為一種改進通過矢量量化層反向傳播的技術。

我們希望這項工作能為研究社區提供新的視角,并作為進一步發展深度學習高效訓練策略的基礎。 在過去的十年中,人工智能(AI)領域取得了前所未有的進展,這些進展使其在自然語言處理和計算機視覺等多個專門任務領域達到了超越人類的表現。深度學習架構創新和計算改進的協同作用促進了AI的飛躍發展 [1], [2]。

直到最近,深度學習領域的研究通常是專門化的,聚焦于特定領域,如自然語言處理(NLP)或視覺。在每個應用領域,研究的目標是開發旨在解決特定應用挑戰的定制神經網絡架構。例如,循環神經網絡(RNN)及其變體用于處理NLP中常見的序列數據。而視覺應用則常使用卷積神經網絡(CNN),因為它們能夠高效處理視覺數據。這種專門化被認為是必要的,因為不同的數據模態需要定制的處理方法來學習其潛在模式。這促使了各個領域中架構類型的激增。

最近,變壓器和隱式深度學習的引入帶來了從開發領域特定架構的轉變。變壓器模型建立在注意力機制的基礎上,這種機制能夠處理序列數據中的長期依賴關系,支持并行處理,并且與反向傳播兼容。尤其是基于變壓器的架構現在在NLP和視覺任務中都成為了最先進模型的標準,設立了性能基準。隱式深度學習則摒棄了將神經網絡視為顯式、前饋層堆疊的概念,而是通過一組輸出應滿足的條件隱式地表示它們。這種范式提供了一種具有多種實例的表達模型類別,包括神經常微分方程、可微優化和深度平衡模型。具體而言,文獻[3]中展示了隱式模型在許多流行深度學習架構中的推廣,并在各種示例應用中表現出色。

新興的、更具表現力的深度學習架構突顯了開發高效優化策略以釋放其全部性能潛力的重要性。更具體地說,針對不同架構類型開發優化策略是高效模型訓練的基礎,它能有效地從數據中學習。這強調了需要不斷改進訓練技術和架構設計,以充分實現深度學習技術的潛力。

本論文為應對最先進深度學習架構的獨特需求,貢獻了開發定制訓練策略的更廣泛努力。第一部分中,我們首先審視了現有隱式深度學習和變壓器模型訓練方法的資源密集特性,并提出了新算法以克服計算和內存需求的障礙。第二部分我們重點探討如何利用特定的隱式深度學習實例——可微優化作為一種技術來增強元優化和矢量量化中的訓練過程。

第一部分:深度神經架構的高效訓練策略

在這一部分中,我們關注流行架構類型在訓練中面臨的挑戰,并提出旨在緩解這些特定挑戰的優化算法。具體來說,我們旨在克服現有隱式深度學習和基于變壓器的語言模型訓練方法中禁止性的計算和內存需求。

**第二章

我們強調了通過固定點方程描述的隱式模型的現有訓練方法的缺點:這種端到端優化方案利用了計算繁重的隱式微分和投影步驟。我們提出了一種新的順序、分塊訓練算法,適用于上三角隱式深度模型,從而減輕了隱式微分和投影步驟的需求。

**第三章

我們解決了在微調基于變壓器的語言模型(LM)時一階方法的大內存需求。基于零階(ZO)方法僅使用內存高效的推理過程來估計梯度的觀察,我們將ZO方法與方差減少技術結合,以增強基于推理的LM微調的穩定性和收斂性。我們的實驗表明,相比于現有的ZO微調基準,我們的方法在保持顯著較低內存占用的同時,性能也有了持續的改善。

第二部分:通過可微優化增強訓練

在第二部分中,我們集中探討了如何應用可微優化來改進元優化和矢量量化中的學習過程。

**第四章

我們展示了如何利用凸優化來推廣許多現有的一階更新規則。隨后我們提出了一種新的數據驅動優化算法設計方法,利用可微凸優化(DCO)。這種利用以往優化經驗的方法可以提出新的更新規則,能夠高效解決來自相同基礎問題類的新優化任務。通過示例實驗,我們展示了DCO優化器在實際應用中能夠超越流行的一階方法。

**第五章

我們利用DCO來緩解矢量量化(VQ)層帶來的訓練挑戰。嵌入VQ的模型在圖像和語音生成等多個應用中顯示出令人印象深刻的結果。VQ作為一種參數化的K均值算法,在前向傳遞中使用單個代碼本向量對輸入進行量化。盡管強大,該技術面臨實際挑戰,包括代碼本坍塌、不可微性和有損壓縮。為緩解上述問題,我們提出了軟凸量化(SCQ),作為VQ的直接替代。SCQ像一個可微凸優化(DCO)層一樣工作:在前向傳遞中,我們求解出量化輸入的最佳凸組合代碼本向量。在反向傳遞中,我們利用前向解決方案的最優性條件進行微分。隨后,我們介紹了SCQ優化的可擴展放松,并在CIFAR-10 [4]、GTSRB [5]和LSUN [6]數據集上驗證了其有效性。我們訓練了強大的SCQ自動編碼器模型,這些模型顯著超越了匹配的基于VQ的架構,在圖像重建和代碼本使用方面表現出數量級的提升,同時保持了可比的量化運行時間。

付費5元查看完整內容

構建能從文本、語音、視頻、現實世界傳感器、可穿戴設備和醫療數據等多種感官輸入中學習的多感官人工智能系統,在許多具有實際益處的科學領域展現出巨大的影響潛力,例如在支持人類健康與福祉、使多媒體內容處理以及增強現實世界自主代理的應用中。然而,多模態研究進展的廣度使得難以識別該領域的共同主題和開放性問題。通過綜合多種理論框架和應用領域,本論文旨在推進多模態機器學習的基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系,將展示最近的技術成就,使研究者能夠理解不同方法之間的相似性和差異,并識別未來研究的開放問題。本論文的主要內容涵蓋了我們最近在解決多模態學習中兩個關鍵問題方面的進展:多模態交互的機器學習基礎以及構建在現實世界中廣泛適用于多種模態和任務的多感官基礎模型的實用方法。在第一部分,我們研究多模態交互的基礎:即模態如何結合產生任務所需的新信息的基本原理。我們提出了一個理論框架,用于形式化模態如何相互作用以產生任務所需的新信息,例如從言語和聲音表達之間的不一致性中識別出的諷刺。使用這個理論框架,我們提出了兩個實用的估算器,以量化實際數據集中的交互。量化多模態任務所需的交互類型,使研究者能夠決定收集哪種模態,設計合適的學習這些交互的方法,并分析他們的模型是否成功地學習了這些交互。在第二部分,我們研究了設計實用的多模態基礎模型,這些模型可以廣泛地適用于多種模態和任務,這是將大型語言模型與現實世界感官模態相結合的一步。我們首先引入MULTIBENCH,一個跨廣泛模態、任務和研究領域的統一大規模基準測試。我們還將介紹現在支持今天許多多模態基礎模型的跨模態注意力和多模態變換器架構。在MULTIBENCH上擴展這些架構,使得創建適用于多種任務的通用多模態多任務模型成為可能,我們已與實踐者廣泛合作,將這些模型應用于情感計算、心理健康和癌癥預后的實際影響中。我們在論文的最后討論如何利用這些思想,朝著更通用、交互性更強和更安全的多模態人工智能邁進。

多模態人工智能是一個充滿活力的跨學科研究領域,旨在設計能夠通過多種交流方式(包括語言、聲學、視覺、觸覺、感官和生理信息)感知、推理和交互的計算機代理[46, 375]。多模態AI系統在許多具有實際益處的科學領域都能帶來巨大影響,例如支持人類健康與福祉[360, 427, 716]、使多媒體內容處理[11, 486, 514],以及增強現實世界自主代理[63, 93, 334, 523, 546]。然而,多模態研究的廣泛進展使得難以識別該領域的共同主題和開放性問題。本論文通過綜合歷史和近期視角下的廣泛理論框架和應用領域,旨在推進多模態機器學習的理論和計算基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互,這些原則帶來了機器學習的獨特挑戰。多模態數據的異質性使學習變得具有挑戰性,例如,語言通常被視為符號性的,而音頻和視頻則被表示為連續信號。同時,這些模態包含重疊的連接信息,并互動以產生任務相關的新信息。學習這些連接和互動對于系統的良好性能至關重要。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系的視角,將展示最近的技術成就,使研究者能夠理解新方法之間的相似性和差異,并幫助我們識別未來研究的關鍵開放問題。利用我們的多模態機器學習分類體系,我們強調了多模態學習進展中的兩個關鍵挑戰:(1)建立多模態交互的基礎,以便我們能夠量化數據集中存在的交互并使用機器學習方法正確地模擬這些交互;(2)構建能夠在大量模態和任務中實現泛化的多模態模型和數據集,以產生真實世界的社會影響(圖1.1)。

付費5元查看完整內容

新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。

時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?

付費5元查看完整內容

以物體為中心的幾何感知旨在提取三維物體的幾何屬性。這些屬性包括目標物體的形狀、姿態和運動,能夠對圖形學、計算機視覺和機器人技術中的各種任務進行細粒度的對象級理解。隨著3D幾何數據和3D深度學習方法的增長,直接使用3D輸入數據實現此類任務的可能性越來越大。在不同的3D表示中,3D點云是一種簡單、常見且節省內存的表示,可以直接從多視圖圖像、深度掃描或LiDAR距離圖像中檢索。在實現以物體為中心的幾何感知方面存在不同的挑戰,如對具有多個剛性部件的常見鉸接物體實現細粒度的幾何理解,學習具有較少標簽的解纏形狀和姿態表示,或以端到端的方式處理動態和順序幾何輸入。本文通過設計有效和可泛化的3D表示、架構和管道,從3D深度學習的角度識別和解決這些挑戰。本文通過設計一種新的層次不變表示,首次對常見鉸接物體進行深度姿態估計。為了推動常見剛性物體的6D姿態估計的邊界,設計了一個簡單而有效的自監督框架來處理無標記的部分分割掃描。提出一種新的4D卷積神經網絡PointMotionNet來學習三維點云序列的時空特征。這些工作從一個獨特的3D深度學習視角推進了以物體為中心的幾何感知領域的研究。如今,3D傳感器廣泛安裝在各種移動設備上,如iPhone上的深度相機,或自動駕駛汽車上的激光雷達傳感器。這些3D傳感技術可以幫助我們準確地測量3D世界。對于機器智能領域,我們也希望構建智能系統和算法來學習有用的信息,更好地理解3D世界。我們人類具有不可思議的能力,通過我們的視覺或觸覺系統來感知和理解這個3D世界。例如,人類可以在沒有看到整個房間的情況下推斷出房間中家具的幾何結構和布置,我們能夠跟蹤一個3D對象,無論其外觀、形狀和比例如何變化,我們還可以根據順序觀察和復雜推理預測多個對象的未來運動。在這里,我的工作設計了各種框架,從大量3D點表示的幾何數據中學習這些3D信息,實現了對單個物體的細粒度幾何理解,可以幫助機器告訴目標物體的幾何、狀態和動態。本文的工作是為了更好地理解這個動態世界。

付費5元查看完整內容
北京阿比特科技有限公司