在過去的幾十年里,機器人已經展現出卓越的能力,從執行外科手術到探索太空,成就斐然。盡管取得了諸多進展,機器人仍未普及到我們的日常生活中;相反,它們仍局限于執行那些人類可以預先窮舉所有可能情境的任務。實現機器人自主性的核心挑戰在于物理世界的多樣性與不可預測性。人類在不斷面對新情境時,能夠迅速適應并作出反應。那么,我們是否也能通過讓機器人在線學習來自真實世界的經驗,使其能夠應對這個充滿不確定性的世界?
強化學習為通過與環境的交互和反饋進行學習提供了理論框架。在本論文中,我們研究了將強化學習應用于非實驗室環境下的真實機器人系統所面臨的挑戰,并在此過程中提出了算法解決方案、開展了實證分析,并構建了驗證其有效性的實用訓練系統。我們首先構建了一個用于腿式機器人運動學習的系統,結合了模擬預訓練、自主故障恢復、多任務訓練、機載傳感器與高樣本效率的強化學習方法,實驗證明,少量的真實世界實踐即可在非結構化環境中實現有效的微調。
接下來,我們展示了如何利用更復雜的獎勵函數實現高效學習,這些獎勵源于現實世界中普遍可用的監督信號:人類偏好。我們進一步簡化了假設條件,探索了在真實世界中直接進行學習的方式,構建了一個系統,使四足機器人能夠完全基于真實經驗在各種自然環境中學會行走。
最后,我們將目光投向更復雜任務的學習,重點在于如何利用先驗知識。我們首先擴展了高效學習框架,使其能夠有效吸收離線的、質量不一的數據。我們探討了該方法在機器人應用中的實用性,實驗顯示該方法能夠實現靈活的高動態四足運動,如奔跑跳躍與雙足行走等復雜行為。最后,我們進一步探索了**基礎模型(foundation models)如何將語言條件操控(language-conditioned manipulation)**能力遷移到現實世界中的新場景。
隨著人工智能(AI)技術越來越多地改變我們的生活、工作和溝通方式,AI評估必須采取以人為本的方法,以真實反映現實世界中的表現和影響。在本論文中,我展示了通過整合人工智能和人機交互(HCI)領域的知識和方法,推動以人為本的評估,并隨后推動負責任的人工智能發展和部署的研究。 首先,本文以可解釋人工智能為例,討論了人類(而非自動化)評估的挑戰和必要性,并呈現了識別可解釋人工智能研究中新問題和新機會的人類評估研究。接下來,我將情境引入其中,并展示了與真實用戶的情境化研究,提供了對用戶可解釋性需求和對人工智能信任的全面和細致的理解。然后,我通過研究展示了評估人類與人工智能互動的重要性,這些研究考察了不同的人工智能技術特征如何影響用戶的信任、依賴以及其他認知和行為。最后,我討論了這些工作的意義,提出了以人為本評估的建議,并描述了負責任人工智能的未來研究方向。
神經網絡的端到端優化帶來了人工智能的巨大進展,這些進展有望顛覆我們生活的許多方面。與此同時,端到端的工程方法有助于確保這些人工智能系統保持在用戶和開發者的控制之下。設計目標和威脅模型為基準和指標提供了依據,這些又反過來影響訓練目標和數據,進而影響神經架構和算法。我將討論這一方法的多種實際方法和考慮因素,包括多模態的優勢、評估基于規則的行為、確保廣泛能力模型的挑戰、構建穩健的控制通道和保障措施等內容。 在過去幾年中,人工智能領域已從一個僅僅是令人興奮且充滿潛力的研究領域,發展成了世界上最強大技術公司之間的國際軍備競賽。其資源已增長到天文數字,目前由OpenAI和軟銀宣布的價值5000億美元的數據中心基礎設施合資企業為這一領域設定了新的高點。 我在GPT-3發布幾個月后開始研究生學習,當時關于大型語言模型(LLM)是否能為現實世界帶來經濟價值仍是一個公開的辯論話題。OpenAI的GPT-3 API在當時對除了像Harvey和Jasper這樣的一小部分冒險創業公司外,幾乎對所有人來說只是學術興趣的對象。而今天,辯論的焦點已經轉移到是否任何有經濟價值的勞動在不久的將來將不會被人工智能自動化的問題上。 許多領先的人工智能研究人員認為,由自主AI系統完全取代人類是一種嚴肅的可能性。Geoffrey Hinton甚至預測,未來30年內AI導致人類滅絕的概率為10%到20%。與此同時,許多領域內的人仍然對從狹窄、封閉的基準測試中推斷出來的戲劇性結論持深刻懷疑態度。Yann LeCun自信地宣稱,LLM是“通往人類水平AI的繞行路”,并將有關存在性風險的討論斥為“AI末日主義”。然而,盡管存在如此廣泛的意見分歧,LeCun和Hinton都呼吁在人工智能系統中構建防護欄和更強的可控性,全球各國政府也已成立顧問機構,以跟蹤先進AI的風險和后果。 事實上,雖然很少有人能就確切的預測和政策建議達成一致,但許多人共享建立可信賴AI系統的目標。 當前的AI系統在許多方面仍然存在不足之處,例如決策的可解釋性,或者它們與人類價值觀的一致性。許多問題是社會技術問題,我們甚至尚未達成明確的目標共識。但可信賴性另一個關鍵方面,即AI系統的安全性和可控性,包含了令人興奮且定義清晰的技術問題。圍繞這些問題,研究社區已經識別出了許多有前景的進展方向。通過解決這些問題,我們將能更好地為管理更強大的未來AI系統做好準備,并實現理想的社會和經濟成果。
構建一個可控的AI系統意味著什么?在我看來,主要有三個標準。一個可控的AI系統應當: 1. 遵循用戶指定的目標和提供的上下文 1. 在合理條件下具有穩健的泛化能力 1. 抵抗對其目標進行劫持的企圖
與LLM的早期階段相比,人工智能領域在這些標準上取得了顯著進展,但同時仍有許多工作待完成。
用戶可能會指定一些非正式的高層次目標,或是精確的低層次目標。這里所說的“用戶”是廣義的,包括最終消費者、第三方應用開發者和初期研究者。在用戶的明確指示不足時,系統應當依賴相關上下文,例如與用戶的先前互動,來推斷出正確的行動方案。 如今,許多系統在理解明確指令方面做得相當不錯,但在適當整合大量上下文信息方面仍有很長的路要走。當前聊天機器人的“記憶”功能主要依賴關鍵詞或嵌入式搜索,這種方法可能會忽視間接相關的上下文信息,例如隱性偏好或獨特的術語。
一個條件集是否合理,取決于系統設計者構建系統的意圖以及用戶對這些意圖的理解。例如,自動駕駛車輛需要應對各種可能的駕駛條件,聊天機器人必須在長時間、多輪對話中保持連貫性。 AI系統龐大的訓練語料庫賦予了它們在訓練分布內進行泛化的能力,但我們仍然看到在訓練中沒有很好表示的條件下,性能表現極為不均。對于某些應用,確實可以“讓全世界都包含在分布內”,即收集一個涵蓋所有可能部署設置的訓練數據集。但對于許多復雜領域,這種強行推進的方法是不可行的。
未經授權的方可能會試圖修改系統的原始目標,方法包括覆蓋明確的指令或在上下文窗口中插入惡意內容,從而將模型的行為引導向不同的目標。在LLM之前,對抗性機器學習研究主要集中在計算機視覺模型或自動駕駛應用上。研究人員提出了許多不同的攻擊方法,其中許多假設了不切實際的威脅模型,比如攻擊者擁有模型架構和權重的全部知識,但現實中有效的攻擊也廣泛存在于文獻中。研究界的共識是,這方面的工作迄今未能提供有意義的解決方案。 今天,模型提供商通常會將行為限制訓練到模型中,以防生成違反使用政策的內容。然而,這些防護欄往往容易通過“AI越獄”被繞過。雖然新發布的模型現在對常見的越獄攻擊具有更強的抗性,但紅隊競賽表明,任何模型都無法完全抵抗決心強烈的攻擊者。隨著我們繼續為AI系統引入額外的能力,如多語言和視覺識別,可能的攻擊數量呈組合式增長。 本論文的第一章《自監督與語言-圖像預訓練的結合(SLIP)》源于我在與Meta的FAIR研究小組合作期間進行的一系列復制實驗。我們沿襲了OpenAI的CLIP項目的做法,這是一個真正具有突破性的項目,發布于2021年,它將計算機視覺領域引入了網頁規模的數據策劃和預訓練,成為了當前所有視覺和語言模型的第一個共同祖先,包括像DALL-E和Stable Diffusion這樣的文本到圖像模型,以及像GPT-4和Gemini這樣的多模態LLM。在對一部分公開數據進行的小規模實驗中,我們發現,將自監督學習與圖像和標題對比學習相結合,能夠在不同的評估環境和視覺識別任務中,顯著提高圖像表示質量。后來的視覺和語言預訓練方法增加了越來越多的訓練目標,這一趨勢我們雖然無法聲稱是我們開創的,但無疑是我們在早期階段就識別出來的。 在展示這項工作時,我結識了Waymo的應用研究團隊,并在一次夏季研究實習中繼續沿著這個方向深入,探索如何將SLIP等預訓練的視覺表示應用于自動駕駛汽車。第二章《MoST:用于運動預測的多模態場景標記化》呈現了這項研究的成果,我們在其中解決了預測附近道路使用者(如其他汽車、騎行者、行人等)的運動軌跡的問題,這是Waymo在其汽車中部署的模塊化自動駕駛架構的關鍵組成部分。通過將豐富的高維圖像和點云特征與之前運動預測模型所依賴的符號化對象和場景表示結合,我們能夠提高模型預測的準確性和穩健性。如今,Waymo的汽車在路上使用的更先進版本的這種方法,將許多傳感器和感知信號引入了上下文中。 此時,預訓練的規模已遠遠超過了即使是裝備精良的學術研究小組在行業中的資源,我決定在LLM領域探索新的方向。在最初的GPT-4 API發布中,隱藏著一個很少使用的請求參數,叫做“系統消息”,用于向模型傳達更高優先級的指令。我意識到,如果應用開發人員要實際使用這個功能來定制LLM以適應他們的特定用例,那么模型必須可靠地遵守系統消息中指定的任何規則,即使這些規則與用戶指令相沖突。第三章《LLM能遵循簡單規則嗎?》中,我開發了一個評估方法,用于衡量LLM在像玩石頭剪子布這樣的簡單交互場景中,遵循可驗證規則的能力。我們的研究表明,各種簡單而巧妙的用戶消息都能說服即使是最強大的模型違反原始規則。當時,只有一小部分LLM支持系統消息或指令,但即便如此,這些模型也無法始終如一地遵循我們的規則。一年后,幾乎所有模型都聲稱支持系統消息或指令,并且系統提示已成為“編程”LLM應用程序的普遍認可方法。然而,研究界仍然缺乏對系統提示在滿足開發人員和用戶期望的所有角色中的可靠性進行全面評估的方法。在《系統提示魯棒性深入分析》中,我們整理了一個評估套件,衡量系統提示在不同設置中的可靠性。例如,我們設計了一個評估,包含多輪對話,模型需要處理不同數量的需求,如裝飾名字或為場景描述添加特定的修飾語。我們還建立了對不同系統提示、沖突的用戶消息、對抗性攻擊、干擾性無關輸入以及代理工具調用應用程序的系統提示魯棒性評估。我們的結果表明,盡管最大的最新模型能夠更加可靠地遵循系統提示,但它們仍然未能達到傳統編程語言所能提供的可靠性水平。最后,我們還從一組第三方系統提示中收集了演示和偏好數據集,這些提示來自于各種在線來源。我們對這些數據集進行微調,能夠顯著提高模型對系統提示的遵守能力,證明了更系統化的數據收集能夠顯著提高模型表現,甚至超過了用于開發像Qwen和LLama這樣的模型的復雜后期訓練方法。
實現真實世界中的機器人安全不僅僅意味著規避風險,更在于有效地識別、管理并應對風險。
本論文提出了一種面向風險感知決策與行為建模的安全保障體系(Safety Case),適用于復雜的多智能體環境,例如航空和自動駕駛等應用場景。我們認為,真正的安全性源自智能體以下能力:預測不確定性、推理他者意圖,并在由先驗知識、行為規范、社會語境及歷史經驗所界定的操作邊界內行動。 為了實現安全且可解釋的決策過程,本研究將**蒙特卡洛樹搜索(MCTS)與邏輯規范(logic specification)相結合,整合進學習策略中,以提升單智能體和多智能體場景下的規則遵循能力。我們提出了一種基于歸納邏輯編程(Inductive Logic Programming, ILP)**的符號規則挖掘方法,可從軌跡數據與事故報告中提取可解釋的行為約束。
針對分布外風險(out-of-distribution risk),我們設計了一個融合框架,將**神經模仿學習(neural imitation learning)與符號規則系統(symbolic rule-based systems)結合,提升泛化與安全性。此外,為緩解模型偏差帶來的風險,我們探討了結合檢索增強生成(Retrieval-Augmented Generation, RAG)**與事故報告的方式,以實現復雜環境下基于真實數據的行動裁決(action arbitration)。 在航空領域的真實行為學習方面,我們構建并發布了三個關鍵數據集: * TrajAir:一個面向社交空中導航的軌跡數據集; * TartanAviation:一個用于意圖推理的時間同步多模態數據集; * Amelia-48:覆蓋美國多個機場的大規模地面滑行數據集,用于空中交通管理中的預測分析任務。
綜上所述,本論文提出的理論框架、方法工具及數據集資源,支持自主系統在不確定性環境中推理、多元先驗整合與復雜真實世界中的穩健運行。
在過去的幾十年里,人工智能(AI)在“特定能力”(即封閉世界,如人工環境或特定現實任務)上取得了諸多成功。這種定義明確的狹窄能力帶來了兩個顯著優勢:一是有清晰的成功標準,二是有機會收集大量示例數據。成功標準不僅可以判斷機器是否完成了目標,還能揭示機器未達成目標的具體原因。因此,人類設計者可以逐一修復問題,直到機器在特定任務上表現得足夠好。進一步來說,大量收集的示例數據也降低了修復問題的難度(依據中心極限定理)。
那么,封閉世界中的成功能否遷移到廣闊的開放世界呢?在開放世界中,機器需要以更少的示例和更少的人類先驗知識(如圖靈測試所要求)完成任何人類可能執行的任務。答案是否定的。因為在特定任務中獲得的能力對處理其他任務幾乎沒有幫助,針對特定任務制定的有價值標準在面對更廣泛、未知的任務時也無能為力。此外,由于在未知任務中缺乏充足的示例數據,中心極限定理無法為我們提供支持。最終,人類設計者也失去了“調試儀”,無法通過不斷修補來“破解”開放世界中的 AI 系統。 要實現面向開放世界的 AI,需要不同于構建封閉世界 AI 的獨特學習原則和創新技術。本論文探索了構建開放世界 AI 所需的重要學習原則,包括豐富特征(類比為一套龐大的工具箱)、解耦表示(類比為一套井然有序的工具箱)以及推理時學習(類比為一只靈活運用工具的手)。在這些學習原則的指導下,論文進一步提出了利用這些原則的創新方法,并進行了大量大規模實驗以驗證這些學習原則的有效性。 關鍵詞—— 開放世界 AI、豐富特征、預測性解耦、推理時學習、分布外問題、上下文學習、基于記憶的模型、記憶拼圖(v2)。
如何構建通用機器人系統? 觀察視覺和語言等領域,其共同主題是通過大規模、精心策劃的數據集進行端到端學習。然而,在機器人技術中,僅靠規模可能不足以應對機器人任務的多模態性、缺乏易于獲取的數據以及在物理硬件上部署的安全性和可靠性挑戰。與此同時,當今一些最成功的機器人系統本質上是模塊化的,能夠利用每個模塊的獨立泛化能力來表現優異。受這些特性的啟發,本論文旨在通過將這些組件整合為一個整體來解決構建通用機器人代理的任務:將模塊化與大規模學習相結合,以實現通用機器人控制。我們首先獨立探討這兩個方面。第一個問題是:如何在學習系統中構建模塊化和層次結構? 我們的關鍵見解是,與其讓代理端到端地學習層次結構和低級控制,不如通過規劃顯式地強制模塊化,從而實現更高效、能力更強的機器人學習。接下來,我們探討規模在構建通用機器人系統中的作用。為了有效擴展,神經網絡需要大量多樣化數據、適應數據的表達性架構以及生成數據的監督來源。為此,我們利用一種強大的監督來源:經典規劃算法,這些算法可以廣泛泛化,但運行成本高,并且需要訪問完美的特權信息才能在實踐中表現良好。我們使用這些規劃算法在模擬中監督大規模策略學習,以生成通用代理。最后,我們考慮如何將模塊化與大規模策略學習統一起來,以構建能夠執行零樣本長期操作的自主現實世界機器人系統。我們提出通過緊密集成模塊化高層和中層規劃、學習的局部控制、程序化場景生成以及用于模擬到現實遷移的大規模策略學習的關鍵要素來實現這一目標。我們證明,這種方法可以產生強大的結果:一個單一的通用代理可以僅通過文本指令解決現實世界中具有挑戰性的長期操作任務。//arxiv.org/abs/2503.06814
為了使機器人系統能夠在真實世界中常常令人驚訝且不可預測的環境中成功運行,它們必須具備在部署期間學習和適應的能力。然而,在機器人領域,通常將每個機器人視為一個單獨的孤立系統,必須獨立學習新技能并對環境作出反應。實際上,世界早已是一個高度互聯的環境,數以億計的獨立設備持續進行通信。因此,沒有理由機器人系統不能遵循相同的模式。事實上,由于數據獲取通常是有效且高效學習的瓶頸,多機器人系統可以通過協作共享多個機器人收集的數據,實現學習速度的倍增效應。 本論文提出了三種用于互聯多機器人系統協作學習的新型算法,以及支持并驗證它們在真實世界中部署的工具與分析方法。 第一個算法在本論文的第三章中介紹,是一種新穎的自主車隊對數百個目標車輛進行同時跟蹤的方法。通過利用多個自動駕駛車輛的實時數據,該算法使車隊能夠形成對所跟蹤目標車輛運動的城市級感知。每輛車隊中的車輛隨后都能夠利用這種感知,即使在沒有直接視線的情況下,也能預測被跟蹤車輛的未來運動,從而避免諸如盲角等危險情況。我們通過在真實的自動駕駛車輛仿真環境中進行城市級分布式多目標跟蹤演示了該方法的潛力。 第四章介紹了本論文的第二個算法貢獻,一種使互聯機器人能夠利用各自獨立收集的數據,以通信高效的方式協作優化神經網絡參數的方法。該算法可推廣至任何神經網絡架構,且從不需要傳輸原始數據,從而保證了通信效率。為了驗證我們的觀點,我們展示了該方法在三個不同的應用場景下優于基線方法:分類、神經隱式映射和強化學習。 最后,在第五章中,我們討論了本論文的最后一個貢獻,一種多機器人度量-語義映射算法,使多種不同的機器人系統能夠異步且協作地學習高度詳細的環境地圖。在實驗演示中,我們展示了該方法在多個不同環境中的有效性,并證明了生成的地圖可用于多機器人無碰撞運動規劃,同時支持開放詞匯的語義目標指定。
人類具有從原始感官輸入(如視頻和音頻)中學習強大感知能力的非凡能力,并且幾乎不需要監督。盡管在建模高層次認知功能(如語言理解與生成)方面取得了巨大的近期進展,但我們目前最先進的計算機視覺模型在學習感知和表征物理世界的效率和性能方面,遠遠落后于人類水平。它們通常需要大量的訓練數據,并且這些數據需要昂貴的手工標注,任務特定的架構,以及即便在模型參數和訓練數據規模增大的情況下,性能提升也非常有限。在本論文中,我們研究了如何從原始未標注的視頻數據構建可擴展的通用感知系統的問題。核心思想是訓練一個大規模的世界模型,基于視覺數據。預訓練的世界模型根據當前狀態和額外干預預測可能的未來世界狀態。我們進一步展示了,可以利用預測器生成的預測結果,以零-shot(零樣本)方式提取廣泛的視覺結構——如關鍵點、光流、分割和深度信息。 本論文分為三部分,我們在其中探索了無需手工標注的新范式,用于訓練可擴展的通用感知系統。第一部分,我們提出了通過利用視頻中的運動作為自監督信號來學習結構化場景表示的新方法。第二部分,概述了一個用于在視頻數據上預訓練大規模世界模型的通用框架,這反過來使得通過統一架構和任務接口能夠零-shot地提取不同的視覺結構。第三部分,進一步通過解決不確定性管理的關鍵挑戰,提升了世界模型的性能。
大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。
大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:
第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。
第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。
第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。
計算系統已經在現代世界中變得無處不在,但它們的設計遠非“一刀切”。從電池供電設備到超級計算機,部署需求是計算機設計中異構性的重要驅動力。由于現代系統依賴并行性和專業化來實現其性能和功耗目標,新挑戰也隨之而來。隨著硬件模塊數量的增加,系統的復雜性也在增加,這使得正確和安全行為的驗證變得更加復雜。此外,將并行化擴展到更多的處理單元(PUs)會增加對內存層次結構和處理單元間網絡的壓力,從而導致在處理具有間接內存訪問(IMAs)的圖狀數據結構的應用程序時出現嚴重的瓶頸。這些挑戰要求重新思考軟件抽象和硬件設計,以實現可擴展和高效的系統,并引入強大的方法來確保其正確性。我的論文旨在通過三個主要方向來解決這些挑戰。首先,為了便于硬件設計師將形式驗證應用于他們的模塊,本文引入了AutoSVA,這是一種從模塊接口注釋生成形式驗證測試平臺的工具流程。使用AutoSVA生成的測試平臺已經在開源項目中發現了漏洞,包括一個廣泛使用的RISC-V CPU。其次,為了在不增加驗證復雜性的情況下緩解IMA延遲,本文介紹了MAPLE,這是一種支持數據流水線和預取的網絡連接內存訪問引擎,無需修改PU。因此,現成的PUs可以將IMAs卸載到MAPLE,并通過軟件管理的隊列消費數據。使用MAPLE可以有效地減輕內存延遲,提供比軟件和硬件預取快2倍的速度提升。第三,為了進一步提高圖和稀疏工作負載的可擴展性,本文共同設計了一個數據中心執行模型的擴展架構,Dalorex,在這個模型中,IMAs被分割成僅訪問受限地址范圍的任務,并在具有專用訪問該內存范圍的PU上執行。跨越一百萬個PUs并行執行一個具有十億條邊的圖的廣度優先搜索,比Graph500的頂級條目快了近一個數量級的運行時間。通過引入新穎的硬件設計、執行模型和驗證工具,本論文為解決日益增長的對高性能、能效和成本效益計算系統的需求所帶來的挑戰作出了貢獻。
發現具有所需性質的新分子和新材料對我們成功應對全球挑戰,如氣候危機或新興疾病,至關重要。然而,在幾乎無限且離散的化學搜索空間中進行導航,同時又要尊重一系列多屬性目標,這是極具挑戰性的。在過去的幾十年里,化學工業不僅面臨著生產力下降,而且新材料和分子的研發成本也在不斷攀升。近期,分子生成模型結合虛擬篩選方法在高效、系統地探索化學空間上展示了有希望的結果。人們寄望于這些方法能加速分子的發現過程,特別是當它們與化學合成規劃工具和自動實驗室的機器人硬件配合使用時。然而,大多數生成模型都是針對簡單化、以化學為中心的目標進行優化,忽視了關于分子目標環境的系統級信息,因此不能用于生成條件性的分子以滿足一系列廣泛的目標。這篇論文主要研究如何開發可以根據語義環境進行查詢,靈活生成分子以滿足所需條件的條件性分子生成模型,而無需進行特定的優化。此外,該論文旨在通過開發具有關于連續性質的歸納偏見,且在預測此類性質上表現優秀的分子生成模型,以改進從頭設計和性質預測的“糾纏”。這是通過利用自然語言和有機化學之間的類比來實現的。
作為生成建模的先決條件,這篇論文的第一部分致力于構建分子性質的預測模型。第一章提出了一個簡單而穩健、可解釋的化學語言模型,該模型大量依賴數據增強,并被證明在一系列性質(如毒性)上表現出強大的性能。接下來的一章發展了用于預測蛋白質-配體結合親和力的蛋白質化學度量語言模型,并證明通過從蛋白質序列中去除超過95%的殘基,人類蛋白質激酶的結合親和力預測性能顯著提高。這篇論文的第二部分關注的主要目標是開發條件性分子設計的生成語言模型。利用強化學習優化方案中的性質預測器,得出一個可以在生物分子環境向量(例如,惡性腫瘤的基因表達簽名或一個目標蛋白質)上進行條件設置,并生成對此環境具有高親和力的分子的生成模型。實驗證明,這種方法具有很好的泛化性,即使在缺乏實驗數據的情況下,也能提出具有高選擇性的分子,針對未見過的蛋白質目標。在關于加速分子發現的案例研究中,提出的生成模型被集成到一個完全自動的工作流程中,這個過程涵蓋了回溯合成模型,合成協議生成,以及在機器人硬件上成功進行濕實驗室合成。最后一章提出了一個多任務語言模型,將回歸抽象為條件序列建模問題,從而統一了前面關于分子性質預測和條件生成的工作在同一模型中。這個模型不僅在回歸任務上表現出色,盡管依賴于分類損失,而且還可以同時對任意分子子結構和連續目標性質進行條件設置。如所示,這個模型在條件分子設計中超越了專門的方法,并且可以基于所需的性質引物,無需任何優化,就可以裝飾種子分子、蛋白質或化學反應。這在性質驅動的化學空間局部探索中找到了特別的應用,并為材料設計中的基礎模型鋪平了道路。
總的來說,這篇論文可能通過提供改善被視為下游化學合成和濕實驗室實驗考慮的平均假設質量的方法,為加速分子發現作出貢獻。