遷移學習對于提高深度學習模型在序列決策任務中的數據效率和適用性至關重要。然而,確定哪些知識可以遷移以及如何有效利用它仍然是一個尚未解決的難題。近年來在表示學習方面的突破,尤其是在語言和視覺領域,展示了從大規模數據集遷移知識的強大能力。同時,仿真平臺和環境設計的進步也為收集多樣化、逼真的訓練數據開辟了新的可能性。在此背景下,本論文包含的四項研究工作探討了序列決策任務中不同方面的遷移技術。 首先,我們對先前在序列決策中整合自然語言數據和表示的研究進行了全面綜述。我們的綜述揭示了尚未解決的挑戰,并規劃了有前景的研究方向,主張更廣泛地利用大型語言模型,并開發語義復雜性更高的環境。其次,我們提出并研究了一種用于多模態多任務設置的模塊化架構設計,以實現組合泛化。受控實驗表明,該設計在觀察、動作和指令空間的未見組合上實現了零樣本遷移,并有效整合了新的觀測模態。第三,我們提出了一種方法,通過遷移源任務中與價值相關的狀態特征知識,來引導無監督技能發現,以生成更有用的行為。在連續控制領域的實驗表明,我們的方法在狀態空間的相關維度上實現了更優的覆蓋,并提升了下游任務的表現。最后,我們對非平穩環境中元梯度的分析表明,將優化器作為上下文特征的函數進行學習,可以實現更快的適應速度和更高的整體表現。 總的來說,本論文為在序列決策任務中實現有效知識遷移提供了新穎的見解和策略。研究工作展示了整合語言、針對性歸納偏差、適度監督以及元學習自適應帶來的優勢。
開發能夠處理復雜任務的人工智能系統的需求推動了深度學習的快速發展,尤其是自 2016 年以來,神經網絡模型已成為主流方法。這些模型的應用范圍廣泛,從推薦系統到語音識別,徹底變革了多個領域。然而,仍然存在一些挑戰,特別是在融合大量特定領域知識和減少大語言模型固有的生成幻覺方面。本論文探索了將檢索增強生成(RAG)集成到多模態問答(QA)系統中的方法,以應對這些挑戰。通過利用外部知識源,RAG 提高了模型的準確性并增強了對特定領域信息的訪問能力。研究按以下順序展開:首先,為了高效利用外部知識回答知識密集型的視覺問題,我們提出了 RA-VQA(檢索增強視覺問答)框架,該框架專為知識驅動的視覺問答(KB-VQA)設計。我們展示了檢索器和生成器模型聯合訓練在最大化性能方面的效果。其次,FVQA(基于事實的視覺問答)2.0 引入了半自動標注的對抗樣本,以解決數據分布不均衡問題并增強系統的魯棒性,展示了在處理復雜場景方面的顯著改進。第三,開發了 FLMR(細粒度后交互多模態檢索器)及其擴展版本 PreFLMR(預訓練 FLMR),突顯了后交互模型在實現卓越多模態檢索性能方面的重要性。我們證明了所提出的模型能夠捕捉查詢與上下文之間的細粒度交互,在廣泛的多模態檢索任務中實現了高效和準確的檢索。隨后,研究重點轉向 TableQA 中的檢索方法,引入了 ITR(內表檢索器)用于封閉域場景,并提出了 LI-RAGE(帶顯式信號的后交互檢索增強生成)用于開放域 TableQA 任務。兩種框架在現有方法上表現出顯著的性能提升。我們展示了在 TableQA 中整合檢索方法顯著推動了研究邊界,提供了最先進的問答性能。通過細致的實驗和創新,本論文不僅在多模態檢索增強系統的理論理解上取得了進展,還提供了實用的框架和數據集,以應對不同領域問答中的關鍵挑戰。在邁向有效 AI 系統的過程中,這些貢獻為信息檢索和多模態問答的未來發展奠定了堅實基礎。創造能夠處理復雜任務的人工智能(AI)一直是人工智能研究領域的目標。自 2016 年以來,深度學習已成為人工智能中的一種重要方法,其中通過構建和訓練神經網絡模型,使其逐漸成為開發人工智能的主流方法 [139]。近年來,這些神經網絡模型也在各種實際場景中得到了廣泛應用,包括推薦系統、對話代理、語音識別、情感分析和人機交互。人工智能模型因其在自動分析、邏輯推理和內容生成等復雜任務中的潛力而備受重視。2021 年,GPT-3(Generative Pre-trained Transformer 3)[23] 的發布以及一系列開源大型語言模型,證實了在數據驅動方法下擴展模型參數和訓練數據的有效性,正式開啟了以大模型為核心的研究浪潮。大型語言模型的出現標志著人工智能領域的新里程碑,并引起了人們對數據驅動方法的關注。這些在海量數據上訓練的模型在各種語言任務中表現出色,從簡單的語言理解到復雜的文本生成,展現出前所未有的能力。多模態是指整合來自不同來源的異構數據,通常包括語言、視覺和音頻信息,廣義上還延伸到圖數據和表格(結構化)數據。自 2021 年以來,多模態任務的研究日益突出,特別是自然語言處理和計算機視覺領域的逐步融合。因此,學術界和工業界正在投入更多資源研究多模態大型模型。以 GPT-4 [232] 為代表的一系列多模態大型模型(如 LLaVA [198] 和 MiniGPT-4 [388])的出現,意味著大型模型正逐漸獲得強大的視覺-語言理解和推理能力,有望應用于處理更復雜的多模態任務。例如,強大的視覺-語言理解能力在醫療保健 [220, 329, 371]、教育 [18, 154] 和推薦系統 [203, 351] 等應用中至關重要,在這些領域中,對視覺和文本信息的準確解釋和整合可以顯著提升性能和結果。然而,各種研究 [219, 44] 表明,盡管大型模型可以基于自身知識處理各種復雜任務,但其能夠存儲和熟練應用的知識是有限的,特別是在復雜和特定領域的知識方面。當前的大型模型存在生成幻覺 [118, 196] 的問題,在回答問題時經常生成錯誤或模棱兩可的內容,并且在需要專業知識或世界知識的場景中表現不佳。本章開頭引用的蘇格拉底名言:“真正的智慧在于知道自己一無所知”,完美地適用于我們對優秀 AI 系統的期望。只有當 AI 系統認識到自身的局限性,并且在缺乏相關信息時能夠利用外部資源獲取知識時,它才真正具備“真正的智慧”。在此背景下,在深度學習系統早期提出的檢索增強生成(Retrieval-Augmented Generation,RAG)再次受到關注。RAG 是一種將信息檢索系統整合到大型模型生成過程中的流程。它利用檢索系統從知識庫中提取必要的知識,并將這些信息提供給模型,從而使其能夠基于外部檢索的數據進行推理或回答問題。RAG 可以通過以下方式為大型模型的生成帶來顯著優勢: * 通過明確呈現模型所需的知識,減少大型模型的幻覺,提供更準確的答案(例如,股票代碼和產品信息)。 * 使模型能夠訪問更廣泛的行業特定和世界知識。為模型配備特定領域的知識庫,使其能夠處理專業任務。 * 增強模型的時效性。雖然模型的訓練和參數更新通常需要較長時間(甚至數月或數年),但信息更新的速度要快得多。模型從持續更新的數據庫中提取最新信息進行問答,可以顯著提高其相關性。 然而,在本文研究的初始階段(2021 年 10 月),多模態大型模型和多模態 RAG 系統的研究仍存在一些不足。知識密集型任務的多模態系統通常存在以下問題: * 模型結構復雜,參數規模龐大,但在需要知識的多模態任務上表現不佳。 * 所使用的多模態信息檢索系統性能較弱,召回率(評估檢索性能的指標)較低。 * 信息檢索組件與檢索增強生成模型之間的整合不佳,即使檢索性能良好,回答性能也不理想。 在下一節中,我們將提出本研究旨在解決的關鍵研究問題,以克服現有多模態 RAG 系統的局限性。
表示學習對于開發健壯的視覺系統至關重要。這一學習過程的有效性在很大程度上取決于數據的質量和數量。合成數據在靈活性、可擴展性和可控性方面具有獨特的優勢。最近生成式模型的進展使得合成逼真的圖像和高質量文本成為可能,大大提高了合成數據的可行性。盡管有這些進展,合成數據在表示學習和視覺識別任務中的應用仍然落后,使用合成數據訓練的模型與使用真實數據訓練的模型之間存在明顯的性能差距。在本論文中,我們展示了我們最近為縮小這一差距并利用合成數據訓練最先進的表示模型所做的努力。我們首先利用來自大型語言模型的合成文本來增強視覺-語言模型的訓練。接著,我們探索了由文本到圖像模型生成的合成圖像,研究了這些圖像在用于監督模型訓練時適用的縮放規律。我們還引入了一種專為合成圖像設計的多正樣本對比損失,展示了它們在表示學習中相對于真實圖像的優勢。最后,我們提出了一個全新框架,使用純合成文本和圖像訓練視覺模型,實現了卓越的性能,在包括細粒度分類和語義分割等任務中超越了使用真實圖像訓練的最先進模型。這些工作為在表示學習中推進生成式模型并解決關鍵計算機視覺任務奠定了堅實的基礎,標志著在利用合成數據提升數據中心人工智能生態系統中表示學習的進步。
數據的質量和數量在訓練視覺模型中起著至關重要的作用。歷史上,研究的重點一直放在創建大型、精心策劃的圖像數據集上,這些數據集在圖像層面帶有分類標簽,用于訓練監督模型 [105, 40, 180, 152]。著名的例子包括 CIFAR [105] 和 ImageNet [40]。盡管創建這些數據集在較小規模上是有效的,但將其擴展到數億個樣本時會面臨顯著的挑戰。這些挑戰包括大規模策劃所需的密集勞動,以及隨著數據集規模的擴大,噪聲和質量問題增加的潛在風險。
最近,使用語言監督訓練視覺表示模型的興趣逐漸增加 [93, 144]。以 CLIP [144] 等模型為代表,這一轉變超越了像 ImageNet 這樣的數據集中固定的、預定義的類別。訓練這些模型需要大量的圖像-文本對數據集。發展趨勢包括從創建包含數百萬圖像-文本對的 Conceptual Captions 數據集 [169],到包含數十億對的 LAION 數據集 [165]。然而,這種方法并非沒有挑戰。大規模的數據來源,通常通過網絡抓取,帶來了顯著的噪聲。可擴展性問題仍然存在。此外,這些數據集的巨大規模在存儲和數據傳輸方面也帶來了實際困難。例如,LAION-2B 需要數十TB的磁盤空間,下載可能需要數天甚至數周。
幸運的是,生成模型的最新突破為合成數據生成引入了新的可能性。生成模型產生的合成數據在表示學習中越來越有用,原因有以下幾點:首先,隨著大規模語言模型和文本到圖像模型的發展,合成數據的質量得到了改善。這些模型現在能夠生成逼真且富有創造性的文本以及高質量的圖像。其次,它們具有帶寬效率優勢,因為只需傳輸模型,而不需要傳輸整個數據集。例如,Stable Diffusion [154] 這樣的模型僅占用約 5 GB 的磁盤空間,這相比龐大的 LAION-2B 數據集要高效得多。然而,這種效率的代價是需要額外的計算資源來按需生成合成數據。第三,它們通過顯著減少數據集策劃所需的人力勞動,促進了更輕松的可擴展性。由于數據是由模型生成的,因此擴展數量比收集和標注現實世界的數據更容易。最后,也是最令人興奮的,它們允許通過輸入文本來控制生成的內容。這種能力有可能生成新的組合,并且無需額外成本即可提供類別標簽或成對的文本監督。
考慮到合成數據的眾多優勢,本論文旨在探討一個簡單但雄心勃勃的問題:是否有可能使用合成數據訓練最先進的表示模型?在整個工作中,我們將探索這一核心問題,并展示如何通過合成數據訓練模型可以在廣泛研究的計算機視覺任務上取得卓越表現。
通過系統地解決與合成數據相關的挑戰和機遇,本論文旨在為機器學習研究的發展做出貢獻,并提供關于合成數據作為訓練有效表示模型的新來源的寶貴見解。
自從神經網絡在人工智能領域成為主導技術以來,一個研究子領域已經出現,試圖理解它們的內部工作機制。在這個子領域中的一種標準方法是主要理解神經網絡如何表征人類可理解的特征。另一種較少探索的可能性是將它們理解為多步驟的計算機程序。這似乎需要一種模塊化的前提:網絡的不同部分需要足夠獨立地運作,以便能夠單獨理解,并實現不同的可解釋子程序。
為了在神經網絡內部找到模塊化結構,我們最初使用圖形聚類工具。如果一個網絡可以被劃分為具有強內部連接但外部連接弱的神經元群組,那么這個網絡在這個意義上是可聚類的。我們發現,訓練過的神經網絡通常比隨機初始化的網絡更具聚類性,而且常常相對于具有與訓練網絡相同權重分布的隨機網絡具有聚類性。我們研究促進聚類性的因素,并且還開發了針對這一目的的新方法。
為了使模塊化對理解神經網絡有價值,它需要具有某種功能相關性。我們關注的功能相關性類型是功能的局部專業化。一個神經網絡在其計算圖的部分可以被抽象地表示為執行某些與整體任務相關的可理解子任務的程度上局部專業化。我們提出了兩個局部專業化的代理:重要性,反映了神經元集合對網絡性能的價值;以及一致性,反映了它們的神經元與輸入特征的關聯一致性。然后,我們使用通常用來解釋單個神經元的技術來操作這些代理,將它們應用于由圖聚類算法產生的神經元組。我們的結果顯示,聚類成功地找到了重要且一致的神經元組,盡管并非所有發現的神經元組都是這樣。我們最后通過一個案例研究來總結,使用更標準的可解釋性工具,這些工具旨在理解激活空間中方向所代表的特征,將它們應用于對CoinRun游戲的獎勵函數訓練的神經網絡的分析。
盡管我們的網絡實現了低測試損失,但應用可解釋性工具顯示,網絡沒有充分代表相關特征,并且在分布外嚴重誤預測獎勵。即便如此,這些工具并沒有清晰地揭示網絡實際上正在執行的計算。這不僅說明了需要更好的可解釋性工具來理解泛化行為的必要性,而且也激發了這種需求:如果我們將這些網絡視為通過強化學習訓練的政策的“動機系統”的模型,那么結論是這樣的網絡可能在更豐富的環境中追求錯誤的目標,表明需要可解釋性技術來闡明泛化行為。
在機器越來越多地融入我們日常生活的時代,它們感知和理解三維世界的能力變得極為重要。這一能力的核心是場景表示,它將感官數據轉換成緊湊、詳細且整體的環境描述。雖然深度學習,特別是卷積神經網絡(CNNs),已經革新了計算機視覺的許多方面,但其主要關注點仍然是2D信息。本論文深入探討了將這些技術轉向3D環境的挑戰與潛能,旨在彌合機器感知與類人空間理解之間的鴻溝。
我們的主要目標是開創針對準確的三維重建和全面的三維場景理解而定制的神經場景表示的發展。我們首先介紹了一種為基于深度學習的三維重建量身定制的可擴展場景表示。這種表示能夠以連續、不受分辨率限制的方式捕捉3D形狀,有效地解決了傳統顯式基方法的限制。接下來,通過引入一個可微的點到網格層,我們提出了一種輕量級表示,確保了高質量重建與快速推理,滿足了現實世界應用中對速度的需求。此外,我們還探索了采用層次化神經隱式表示的密集視覺同時定位與地圖構建(SLAM)系統,這種方法能夠在大規模室內場景中實現詳細重建,推動了當前SLAM系統的邊界。最后,我們的研究以開發用于廣泛三維場景理解任務的統一場景表示為高潮,繞過了對昂貴的3D標注數據的需求。
總之,本論文提出了一系列在神經場景表示方面的進展,提供了不僅增強了三維重建能力而且提升了三維場景理解水平的解決方案,使我們更接近于實現與人類認知相鏡像的機器感知。
隨著科學技術的快速發展,機器已無縫地融入我們的日常生活中。現在,我們發現自己與能夠駕駛汽車、組織我們的家庭乃至協助進行醫療手術的機器一同生活。這些進步的核心在于機器對周圍環境的感知和理解能力。 為了有效地感知三維世界,機器需要從感官數據中建模周圍環境。特別是,準確地表示和重建細致的幾何形態以匹配其現實生活中的對應物,對于增強現實/虛擬現實、自動駕駛、機器人技術等應用至關重要。然而,從頭開始創建細致的幾何形態是一項勞動密集型任務,需要專門的專業知識。盡管出現了先進的軟件和用戶友好型建模工具,但像可擴展性和速度這樣的挑戰阻礙了它們的大規模部署。如何快速準確地為大場景構建幾何細節是本論文的主要關注點。
一旦三維環境被準確構建,同樣重要的是理解重建對象的語義、可供性、功能和物理屬性。這種全面理解對于機器在日常場景中與人類智能互動至關重要。然而,傳統方法往往針對特定任務量身定做,例如對有限類別集進行的3D語義分割,留下其他任務未被解決。實現對3D場景的廣泛理解是本論文的另一個目標。
場景表示,即將環境的觀察(無論是視覺的、觸覺的、聽覺的還是其他的)轉換為環境的簡潔模型,對于旨在準確重建逼真場景并全面理解我們世界的機器自然至關重要。近期在深度學習方面的進展,特別是卷積神經網絡(CNNs)的出現,提供了一種推導出健壯且強大的場景表示的有希望的方式,這里稱為神經場景表示。 CNNs已經革命性地改變了許多計算機視覺任務,特別是在圖像分類和深度估計等領域,展示了深度學習處理視覺信息的潛力。然而,它們的絕大多數能力都集中在處理2D信息上。將這些以2D為重點的技術轉移到3D環境中帶來了獨特的挑戰。為了有效地建模和理解復雜的世界,對機器來說,學習3D場景表示至關重要,這能使機器獲得類似于人類感知世界的更深層次的空間理解。
本論文的目標是開創神經場景表示的發展,專門為準確重建和全面理解3D世界量身定做。我們的路線圖標記著清晰的里程碑,它們都緊密相連。首先,我們想開發一種可擴展的場景表示,能夠忠實地重建詳細的3D幾何形態,從對象到大規模場景都能覆蓋。接下來,通過整合一種新穎的可微分點到網格層,我們可以僅使用輕量級點云來表示詳細形狀,并加速3D重建過程。第三,我們還研究了一種層次化神經場景表示,特別是為大型室內場景中的密集RGB-D SLAM應用賦能。一旦獲得場景的3D重建,論文的最后一部分是為眾多3D場景理解任務產生3D神經場景表示,僅利用2D預訓練模型,從而繞過了任何昂貴的3D標注數據的需求。 總體而言,本論文探討了各種神經場景表示,以高效地產生詳細的3D場景重建,并隨后將3D場景理解的邊界推向另一個水平。在下一節中,我們將深入討論實際問題和挑戰。
人類自然地整合各種感覺來理解我們的周圍環境,使我們能夠補償部分缺失的感官輸入。相反,機器學習模型擅長利用大量數據集,但在有效處理缺失數據方面面臨挑戰。雖然利用多種數據類型提供了更全面的視角,但也增加了遇到缺失值的可能性,從而強調了在機器學習技術中適當管理缺失數據的重要性。 在這篇論文中,我們主張開發模擬人類合并多種感覺輸入到統一表示法的機器學習模型,展示在面對缺失輸入源時的韌性。為多種數據類型生成標簽是費時且通常成本高昂的,導致完全注釋的多模態數據集稀缺。另一方面,多模態數據自然地具有一種弱監督形式。我們知道這些樣本描述了同一事件,并假設某些基本生成因子在群組成員之間是共享的,提供了一種弱引導。 我們的論文重點研究由弱監督特征的數據學習,深入探討群組成員之間的相互關系。 我們首先探索能夠處理多模態輸入并有效處理缺失數據的機器學習模型的新技術。
我們的重點是使用變分自編碼器(VAE)從弱監督數據中學習。我們引入了一種概率聚合函數的泛化公式,旨在克服以前方法的局限性,我們展示了這種泛化公式與性能提升的關聯。 在更高的層次上,我們研究了關于群體結構的隱含假設對模型學習行為和效果的影響。 我們發現,對于生成連貫和高質量的樣本,假設一個共享的潛在空間過于嚴格。為了克服這一局限性,我們在多模態VAEs中引入了模態特定的潛在子空間,反映了更為靈活的建模方法。 雖然我們觀察到,在建模假設上的更大靈活性,或與實際數據生成過程一致的假設,都會導致性能的提高,但我們仍然依賴于關于一組多模態或弱監督樣本的關系的先驗知識。隨著群體成員的增長,他們之間的基本關系可能變得更為復雜,增加了過于嚴格假設的風險。 因此,在最后一節中,我們將重點轉向在學習弱監督數據時最小化所需的假設,并同時在學習過程中推導出群體結構。在這種情境下,我們引入了一個可微分的隨機分區模型的新公式,該模型遵循兩階段過程。在第一步,我們使用新提出的超幾何分布的可微分公式估計元素的數量。在第二步,我們將適當數量的元素分配給每個子集。我們可以證明,我們的可微分隨機分區模型可以在弱監督設置中學習共享和獨立的生成因子。 我們希望這篇論文及其貢獻能夠增強多模態機器學習的未來應用,并減少一般情況下從弱監督數據中學習所需的假設。
//www.research-collection.ethz.ch/handle/20.500.11850/634822
最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。
這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。
盡管深度學習取得了理論成就和令人鼓舞的實踐結果,但在推理、因果推理、可解釋性和可解釋性等許多領域仍然存在局限性。從應用程序的角度來看,最有效的限制之一與這些系統的魯棒性有關。事實上,目前的深度學習解決方案都沒有告知它們是否能夠在推理過程中對一個例子進行可靠的分類。現代神經網絡通常過于自信,即使它們是錯誤的。因此,構建魯棒的深度學習應用是當前計算機視覺、自然語言處理和許多其他領域的前沿研究課題。構建更可靠的深度學習解決方案最有效的方法之一是提高它們在所謂分布外檢測任務中的性能,所謂分布外檢測任務本質上是由“知道你不知道”或“知道未知”組成的。換句話說,當提交神經網絡未訓練的類實例時,具有分布外檢測能力的系統可能會拒絕執行無意義的分類。本文通過提出新的損失函數和檢測分數來解決目標性分布不均檢測任務。不確定性估計也是構建更魯棒的深度學習系統的關鍵輔助任務。因此,我們也處理這個與魯棒性相關的任務,它評估由深度神經網絡呈現的概率有多真實。為了證明我們的方法的有效性,除了大量的實驗,其中包括最新的結果,我們使用基于最大熵原理的論點來建立所提出的方法的理論基礎。與大多數當前的方法不同,我們的損失和得分是無縫的和有原則的解決方案,除了快速和有效的推斷,還能產生準確的預測。此外,我們的方法可以并入到當前和未來的項目中,只需替換用于訓練深度神經網絡的損失,并計算一個快速的檢測評分。
深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。
在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html
在過去的十年中,神經網絡在自然語言處理(NLP)領域已經取得了顯著的進展,特別是因為它們能夠從大量的未標記語料庫中學習相關的單詞表征。這些詞嵌入可以在監督訓練中進行遷移移和微調應用到不同的終端應用。最近,在2018年,整個預訓練語言模型的遷移和上下文化能力的保留使得幾乎在每一個NLP基準上都達到了前所未有的性能,有時甚至超過了人類的基準。然而,當模型達到如此令人印象深刻的分數時,它們的理解能力仍然顯得很膚淺,這揭示了基準的局限性,不能為它們的表現因素提供有用的見解,并準確地衡量理解能力。
在本論文中,我們研究了最SOTA模型在兩個重要的信息提取任務(命名實體識別(NER)和關系提取(RE))中關于在未見事實的泛化性能。事實上,傳統基準在提到和關系之間存在重要的詞匯重疊,用于訓練和評估模型,而信息提取的主要興趣是提取以前未知的信息。我們提出了基于提及和與訓練集的關系重疊來分離性能的實證研究,發現預訓練的語言模型主要有利于檢測未見提及,特別是域外提及。雖然這使得它們適合于真正的用例,但可見和未見提及之間仍然存在性能差距,這不利于對新事實的歸納。特別是,即使是最先進的ERE模型也依賴于淺層記憶啟發式,其預測更多地基于論據表面形式而不是上下文。
在這項工作中,我們還鞏固了端到端關系提取評估的基礎,這一基礎被以前的不正確的比較所破壞,并提出了一個更細粒度的評估和理解端到端關系提取模型,以泛化到新的關系。最后,我們提出了在創建未來的模型和數據集時改進上下文合并的想法。
在過去的幾年里,深度學習方法在從計算機視覺到語音識別的各個領域的廣泛問題上取得了前所未有的成績。目前的研究主要集中在開發網格結構數據的深度學習方法,而許多重要的應用都需要處理圖結構數據。這些幾何數據在計算機圖形學和三維視覺、傳感器網絡、藥物設計、生物醫學、推薦系統、NLP和帶有知識圖的計算機視覺、web應用等領域越來越重要。本次演講的目的是介紹圖上的卷積神經網絡,以及這些新的學習技術的應用。
人類從端粒到端粒的DNA全序列測定始于30年前,最終于2021年完成。這一成就是眾多專家的巨大努力的結果,他們設計了各種工具,并進行了艱苦的手工檢查,以實現第一個無間隙基因組序列。然而,這種方法很難作為一種組裝不同基因組的通用方法,尤其是在數據量大、組裝速度快的情況下。在這項工作中,我們探索了一種不同的方法來解決基因組組裝任務的中心部分,包括解開一個大的組裝圖,從中需要重建基因組序列。我們的主要動機是減少人類工程啟發式,并使用深度學習開發更通用的重建技術。準確地說,我們引入了一種新的學習框架來訓練圖卷積網絡通過找到正確的路徑來解析組裝圖。訓練使用從解析CHM13人類序列生成的數據集進行監督,并在使用真實人類PacBio HiFi讀取數據構建的組裝圖上進行測試。實驗結果表明,在單個染色體生成的模擬圖形上訓練的模型能夠顯著地解析所有其他染色體。此外,該模型在相同的圖表上優于從最先進的\textit{de novo}匯編器手工制作的啟發式。利用圖網絡重建的染色體在核苷酸水平上更準確,報告的contig數量更少,基因組重建分數更高,NG50/NGA50評估指標更高。