隨著大型語言模型在近年來能力的大幅提升,提高我們對其輸出的控制能力變得越發重要。在本論文中,我討論了我開發的幾種控制方案,范圍從純推理時控制到基于微調的對齊方法。我首先將討論適用于非結構化自然語言生成的高度通用方法,包括一種稱為FUDGE的推理時控制方案以及一種基于強化學習的微調方法,稱為RLCD。接下來,我將討論更專門的方法,這些方法可以用于更結構化領域的控制,如分子設計、程序合成和語義解析。最后,我將展示如何將這些想法與通過提示進行的結構化規劃結合使用,以將我們的控制擴展到更長的輸出——在自動故事生成應用中范圍達到數千詞。
近期大型語言模型(LLMs)的發展顯著推進了在廣泛自然語言任務上的最新技術水平。然而,雖然這類模型能夠生成流暢的文本,但在推理時要充分控制它們的行為可能很困難。例如,開箱即用的預訓練語言模型頻繁地生成帶有偏見或有害的文本,這可能是因為在它們的預訓練數據中大量存在這類文本。
因此,控制生成——在推理時控制模型的行為,以產生符合期望的軟性或硬性約束的輸出——是確保在現實世界設置中道德使用這些強大技術的必要條件。實際上,去除問題偏見只是控制生成廣泛應用領域中的一個例子。控制生成的應用范圍從維持期望的風格或正式程度,到保持對參考文檔或現實世界事實的忠實,甚至非語言任務(使用模型處理非語言領域),如設計具有理想藥物屬性的分子。
因此,近年來已經投入了大量努力來開發控制語言模型輸出的方法。這些努力包括僅在推理時操作的各種方法,以及依賴于修改底層模型分布的方法,無論是通過微調還是通過強化學習。
盡管如此,控制LLMs的任務非常復雜,隨著時間的推移只會變得更加困難:語言模型在能力上持續改進的同時變得越來越不可解釋,我們對最強大的模型的訪問權限更加有限,這些模型越來越多地隱藏在私有APIs后面,而我們要求的控制目標變得越來越困難。為了詳細說明后一點:僅僅兩三年前,我們可能滿足于簡單地控制輸出段落的一般主題,這些段落僅幾十個令牌長,但今天一個主要挑戰是在可能跨越數千甚至數萬個令牌的輸出段落上控制事實準確性,既要考慮提供的上下文也要考慮現實世界的知識。 在本論文中,我將討論我開發的幾種方法,這些方法在許多不同的設置中解決了控制生成的問題。 自然語言的控制首先,在第二章,我將討論用于非結構化自然語言的一般控制方法,包括純推理時控制以及基于強化學習的微調。
對于純推理時控制,我提出了一種用于控制文本生成的靈活且模塊化的方法——生成未來判別器(FUDGE)。給定一個現有的基礎語言模型(LM)用于從感興趣的分布中生成文本,FUDGE允許在僅需要訪問基礎LM的輸出邏輯的情況下,基于期望的屬性a(例如,正式程度)進行條件化。FUDGE學習一個在部分序列上操作的屬性預測器,并使用此預測器的輸出來調整基礎LM的原始概率。我們展示了FUDGE模型對應于基礎LM給定屬性a的條件分布的貝葉斯分解。此外,FUDGE可以輕松地組合多個期望屬性的預測器。我們在三個任務上評估了FUDGE——詩句完成、語言生成中的主題控制以及機器翻譯中的正式性變化——并在所有三個任務中觀察到提升。 與純推理時控制相比,微調(包括基于RL的方法)需要并利用對基礎語言模型更大的訪問權限。雖然在前期需要額外的培訓或微調模型的成本,但它們可以通過從微調模型中進行普通采樣來減少推理時的成本(與可能需要更昂貴的解碼程序來啟用控制的推理時控制方法相比)。
基于RL的微調方法最近變得越來越受歡迎。在本論文中,我將提出一種RL方法,名為對比蒸餾的強化學習(RLCD),它不使用人類反饋就可以使語言模型遵循用自然語言表達的原則(例如,更無害)。RLCD從兩個對比的模型輸出中創建偏好對,一個使用正面提示來鼓勵遵循給定原則,另一個使用負面提示來鼓勵違反它們。使用兩個不同的提示會導致模型輸出在平均上更加分化,從而在沒有人類注釋的情況下產生更清晰的偏好標簽。然后我們使用偏好對來訓練一個偏好模型,進而用強化學習改善一個基礎未對齊的語言模型。經驗上,RLCD在三個不同的對齊任務——無害性、有幫助性和故事大綱生成——上優于RLAIF和上下文蒸餾基線,并在用于模擬偏好數據的7B和30B模型規模上均有表現。 針對結構化領域的控制接下來,在第三章,我將討論我為將控制擴展到結構化領域而進行的幾項工作。這一部分的大部分內容將聚焦于我開發的一種方法——隨機迭代目標增強,我們將其應用于分子設計和程序合成等多個領域。 例如,在分子設計任務的背景下:分子設計中的生成模型傾向于是參數豐富、對數據需求高的神經模型,因為它們必須生成復雜的結構化對象作為輸出。由于缺乏足夠的訓練數據,估計這樣的模型可能具有挑戰性。通過隨機迭代目標增強,我們提出了一種用于迭代創建額外分子目標的自訓練方法。我們首先將生成模型與一個簡單的屬性預測器一起進行預訓練。然后將屬性預測器用作似然模型,用于從生成模型中篩選候選結構。額外的目標通過隨機EM迭代的過程中迭代產生,并用于最大化候選結構被接受的對數似然。由于生成模型在預訓練后已經相當合理,因此一個簡單的拒絕(重加權)采樣器就足以抽取后驗樣本。我們展示了在無條件和條件分子設計上相比于強基線的顯著提升。特別是,我們的方法在條件分子設計中的絕對增益超過了先前最先進技術10%。最后,我們展示了我們的方法在其他領域(如程序合成)也是有用的。
在本節的最后,我還將簡要討論我在這一領域與他人合作的一些其他項目,涉及其他結構化領域(如語義解析和填字游戲)的控制生成方法。
長篇故事生成最后,在第四章,我將應用諸如FUDGE之類的可控生成思想于生成更長長度的高質量語言模型輸出——在故事生成領域達到數千詞——的任務。
首先,在我關于遞歸重新提示和修訂(Re3)的工作中,我們考慮了自動生成超過兩千詞的更長故事的問題。與之前關于更短故事的工作相比,長距離情節連貫性和相關性在這里是更為核心的挑戰。我們提出了遞歸重新提示和修訂框架來解決這些挑戰,通過(a)提示一個通用語言模型構建一個結構化的總體計劃,以及(b)通過重復地將來自計劃和當前故事狀態的上下文信息注入語言模型提示來生成故事段落。然后我們通過(c)對不同續篇進行重新排序以保持情節連貫性和前提相關性,最后(d)編輯最佳續篇以保證事實一致性進行修訂。與直接從相同基礎模型生成的類似長度故事相比,人類評估員判斷Re3的故事在擁有連貫的總體情節方面(絕對增加14%)和與給定初始前提相關方面(增加20%)顯著更多。
然后,我們通過提出詳細大綱控制(DOC)框架來進一步改進我們在Re3中的先前工作,該框架用于在自動生成數千詞長的故事時改善長距離情節連貫性。DOC由兩個互補的組件組成:一個詳細的大綱制作者和一個詳細的控制器。詳細的大綱制作者創建一個更詳細、分層結構化的大綱,將創造性負擔從主要起草過程轉移到規劃階段。詳細的控制器確保在生成過程中仍然尊重更詳細的大綱,通過控制故事段落與大綱細節保持一致。在自動生成故事的人類評估中,DOC在情節連貫性(22.5%的絕對增益)、大綱相關性(28.2%)和有趣性(20.7%)上顯著優于Re3。人類還判斷DOC在交互式生成設置中的可控性要高得多。
最后,我將討論幾項最近和正在進行的工作,這些工作進一步探索了長篇故事生成的不同方面,如個性化、節奏和事實一致性,以及使用更新的LLMs來提高計算效率的一些改進。
網絡修剪是解決大型語言模型(LLMs)部署和推理中巨大計算資源需求的有前景的方法。對于LLMs的修剪方法來說,無需重新訓練是重要的。然而,幾乎所有現有的LLMs無需重新訓練的修剪方法都集中在非結構化修剪上,這需要特定硬件支持才能加速。在本文中,我們提出了一種新穎的針對LLMs的無需重新訓練的結構化修剪框架,命名為FLAP(基于波動的自適應結構化修剪)。它通過有效減少存儲和提高推理速度,對硬件友好。為了有效地對LLMs進行結構化修剪,我們強調了三個需高度關注的關鍵要素:制定結構化重要性指標、自適應搜索全局壓縮模型和實施補償機制以減輕性能損失。首先,FLAP基于波動修剪指標判斷移除權重列時輸出特征圖是否容易恢復。然后它標準化重要性分數以自適應地確定全局壓縮模型結構。最后,FLAP添加額外的偏置項使用基線值來恢復輸出特征圖。我們在各種語言基準上全面評估了我們的方法。在無需任何重新訓練的情況下,我們的方法顯著優于包括LLM-Pruner和Wanda在內的結構化修剪領域的最新方法。代碼發布在//github.com/CASIA-IVA-Lab/FLAP。
此綜述關注大型語言模型(LLMs)中的事實性關鍵問題。隨著LLMs在各種領域的應用,它們輸出的可靠性和準確性變得至關重要。我們將“事實性問題”定義為LLMs生成與既定事實不一致內容的概率。我們首先深入探討這些不準確性的影響,強調LLM輸出中事實性錯誤可能帶來的潛在后果和挑戰。隨后,我們分析LLMs存儲和處理事實的機制,尋找事實錯誤的主要原因。我們的討論接著轉向評估LLM事實性的方法,強調關鍵指標、基準和研究。我們進一步探索提高LLM事實性的策略,包括為特定領域量身定制的方法。我們關注兩種主要的LLM配置—獨立LLMs和利用外部數據的檢索增強型LLMs—我們詳細說明它們的獨特挑戰和潛在增強。我們的綜述為旨在加強LLM事實可靠性的研究者提供了一個結構化指南。我們始終維護并更新相關的開源材料,地址為 //github.com/wangcunxiang/LLM-Factuality-Survey。
對知識掌握的追求一直是人工智能系統發展中的基礎愿景。從歷史上看,McCarthy等人(1955年)和Newell與Simon(1976年)的開創性工作都強調了知識表示和推理在AI系統中的重要性。例如,Cyc項目開始了一個雄心勃勃的旅程,旨在編碼常識知識,希望為AI系統提供對世界的全面了解(Lenat, 1995年)。同時,像Miller等人(1990年)的WordNet項目致力于創建捕獲單詞之間語義關系的詞匯數據庫,從而幫助AI系統掌握人類語言的細微差別。 在這些開創性努力之中,Large Language Models(LLMs)的出現,如ChatGPT(OpenAI, 2022b),GPT-4(OpenAI, 2023)和LLaMA(Touvron等人,2023a,b),在學術界和工業界都被視為一個重大的飛躍,尤其是向著擁有大量事實知識的AI系統(OpenAI, 2022a, 2023)。使用LLMs作為知識庫載體的優點是多種多樣的。首先,它們減少了構建和維護專用知識庫的開銷和成本(AlKhamissi等人,2022;Petroni等人,2019c;Wang等人,2023b)。此外,LLMs提供了一種更靈活的知識處理和利用方法,允許進行上下文感知的推理,并具有適應新信息或提示的能力(Huang和Chang,2023;Sun等人,2023a)。然而,盡管它們具有無與倫比的能力,人們對LLMs生成的非事實性或誤導性內容的可能性產生了擔憂(Bender等人,2021;Bubeck等人,2023;OpenAI, 2023)。鑒于這些進展和挑戰,本綜述旨在深入探討LLMs,探索它們的潛力以及圍繞其事實準確性的關注。
了解大型語言模型的事實性不僅僅是一個技術挑戰;對于我們在日常生活中負責任地使用這些工具來說,這是至關重要的。隨著LLMs越來越多地融入到搜索引擎(Microsoft,2023)、聊天機器人(Google,2023; OpenAI,2022b)和內容生成器(Cui等人,2023b)等服務中,它們提供的信息直接影響著數百萬人的決策、信仰和行動。如果一個LLM提供了不正確或誤導性的信息,它可能導致誤解、傳播錯誤的信仰,甚至造成傷害,尤其是對于那些要求高事實準確性的領域(Ling等人,2023b),如健康(Tang等人,2023;Thirunavukarasu等人,2023)、法律(Huang等人,2023a)和金融(Wu等人,2023)。例如,一個依賴LLM進行醫學指導的醫生可能無意中危及患者健康,一個利用LLM洞察力的公司可能做出錯誤的市場決策,或一個被LLM誤導的律師可能在法律程序中失誤(Curran等人,2023)。此外,隨著基于LLM的代理人的發展,LLMs的事實性變得更加強大。駕駛員或自動駕駛汽車可能依賴基于LLM的代理進行規劃或駕駛,其中LLMs犯的嚴重事實錯誤可能造成不可逆轉的損害。通過研究LLMs的事實性,我們的目標是確保這些模型既強大又值得信賴。
近年來,有大量的研究致力于評估LLMs的事實性,這包括像事實性問題回答和事實核查等多種任務。除了評估,努力提高LLMs的事實知識也很顯著。策略的范圍從從外部知識庫檢索信息到持續的預訓練和有監督的微調。然而,盡管有這些日益增長的努力,對LLMs中的事實性進行全面概述仍然是個難題。雖然該領域存在一些調查,如Chang等人(2023年)和Wang等人(2023g年)深入研究了LLMs及其事實性的評估,但它們只觸及了更廣泛的領域的表面。還有一些最近的研究專注于LLMs中的錯覺問題(Rawte等人,2023年; Ye等人,2023年; Zhang等人,2023f年)。但我們在第2.2節中區分了錯覺問題和事實性問題。此外,這些調查經常忽視了我們強調的關鍵領域,如特定領域的事實性或過時信息的挑戰。盡管Ling等人(2023a年)探討了LLMs的領域專長,但我們的調查更加廣泛地關注事實性的更廣泛問題。
據我們了解,我們的工作是對大型語言模型事實性的首次全面研究。 這份綜述旨在為LLMs中的事實性研究提供一個詳盡的概覽,深入探討四個關鍵維度:第2節)事實性問題的定義和影響(Nori等人,2023;Pranshu Verma,2023);第3節)評估事實性的技術及其定量評估(Huang等人,2023b;Min等人,2023);第4節)分析LLMs中事實性的基本機制并確定事實錯誤的根本原因(Kotha等人,2023;Liu等人,2023b);以及第5節)提高LLMs事實性的方法(Du等人,2023;He等人,2022)。值得注意的是,我們將LLMs的使用分類為兩種主要的設置:沒有外部知識的LLMs,如ChatGPT(OpenAI,2022b)和檢索增強型LLMs,如BingChat(Microsoft,2023)。這次調查的完整結構在圖1中說明。通過對現有研究的詳細檢查,我們希望闡明LLMs的這一關鍵方面,幫助研究者、開發者和用戶負責任和有效地利用這些模型的力量。 **增強 **
本節討論在不同階段增強LLMs事實性的方法,包括LLM生成、檢索增強生成、推斷階段的增強以及特定領域的事實性改進,如圖2所示。表7提供了增強方法的概要以及它們相對于基線LLM的改進情況。必須認識到,不同的研究論文可能采用不同的實驗設置,如零射擊、少數射擊或完全設置。因此,在檢查這個表格時,重要的是要注意,即使在評估同一數據集上的同一指標,不同方法的性能指標也可能不是直接可比的。
單獨LLM生成 當關注單獨的LLM生成時,增強策略可以大致分為三大類: (1) 從無監督語料庫中提高事實知識(第5.1.1節):這涉及到在預訓練期間優化訓練數據,如通過去重和強調有信息性的詞語(Lee等人,2022a)。還探討了像TOPICPREFIX(Lee等人,2022b)和句子完成損失這樣的技術來增強這種方法。 (2) 從監督數據中增強事實知識(第5.1.2節):這一類的例子包括監督微調策略(Chung等人,2022;Zhou等人,2023a),這些策略關注于從知識圖譜(KGs)中整合結構化知識或對模型參數進行精確調整(Li等人,2023d)。 (3) 最佳地從模型中提取事實知識(第5.1.3節, 5.1.4節, 5.1.5節):這一類包括像多代理協作(Du等人,2023)和創新提示(Yu等人,2023)這樣的方法。此外,還引入了像事實核心抽樣這樣的新穎解碼方法,以進一步提高事實性(Chuang等人,2023;Lee等人,2022b)。
關于檢索增強生成 檢索增強生成(RAG)已經成為一種廣泛采用的方法,用于解決獨立LLMs固有的某些局限性,如過時的信息和無法記憶的問題(Chase,2022; Liu,2022)。這些挑戰在第4.2.1節中詳細討論。然而,雖然RAG為某些問題提供了解決方案,但它也引入了自己的一系列挑戰,包括信息不足的可能性和對相關數據的誤解,如第4.2.2節中詳細說明。本小節深入探討了為緩解這些挑戰而設計的各種策略。在檢索增強生成的領域內,增強技術可以廣泛地分為幾個關鍵領域: (1) 利用檢索文本進行生成的正常設置(第5.2.1節)。 (2) 交互式檢索和生成(第5.2.2節):這里的例子包括將Chain-of-Thoughts步驟集成到查詢檢索中(He等人,2022),以及使用基于LLM的代理框架進入外部知識APIs(Yao等人,2023a)。 (3) 將LLMs適應到RAG設置(第5.2.3節):這涉及到像Peng等人提出的方法(2023),該方法結合了一個固定的LLM和一個即插即用的檢索模塊。另一個值得注意的方法是REPLUG(Shi等人,2023),一個檢索增強框架,將LLM視為一個黑盒,并使用語言建模分數對檢索模型進行微調。 (4) 從其他知識庫中檢索(第5.2.5節和第5.2.4節):這一類包括從外部參數記憶(Chen等人,2023a)或知識圖(Zhang等人,2023d)檢索的方法,以增強模型的知識庫。 **領域事實增強的LLMs **
領域知識缺陷不僅是限制LLM在特定領域應用的重要原因,而且是學術界和工業界都非常關心的一個主題。在這個小節中,我們討論了那些特定領域的LLMs是如何增強它們的領域事實性的。 表8列出了領域事實性增強的LLMs。在此,我們包括了幾個領域,包括醫療健康(H)、金融(F)、法律/法規(L)、地球科學/環境(G)、教育(E)、食品檢測(FT)和家居翻新(HR)。
結論
在這份綜述中,我們系統地探討了大型語言模型(LLMs)內部事實性問題的復雜景觀。我們首先定義了事實性的概念(第2.2節),然后討論了其更廣泛的意義(第2.3節)。我們的旅程帶領我們穿越了事實性評估的多面領域,包括基準(第3.2節)、指標(第3.1節)、特定評估研究(第3.3節)和特定領域的評估(第3.4節)。接著,我們深入探索,探討了支撐LLMs中事實性的內在機制(第4節)。我們的探索在增強技術的討論中達到高潮,既有純LLMs(第5.1節)也有檢索增強型LLMs(第5.2節),特別關注特定領域的LLM增強(第5.3節)。 盡管本綜述中詳細描述了許多進展,但仍有許多挑戰。事實性的評估仍然是一個復雜的難題,由自然語言的固有變異性和細微差別使其變得復雜。關于LLMs如何存儲、更新和產生事實的核心過程尚未完全揭示。盡管某些技術,如持續培訓和檢索,顯示出了前景,但它們也不是沒有局限性。展望未來,尋求完全基于事實的LLMs既帶來挑戰,也帶來機會。未來的研究可能會深入了解LLMs的神經結構,開發更為強大的評估指標,并在增強技術上進行創新。隨著LLMs日益融入我們的數字生態系統,確保其事實可靠性將始終是最重要的,這對AI社區及其更廣泛的領域都有影響。
機器學習模型對抗性攻擊的脆弱性的理解日益重要。在對抗性機器學習中,一個基本問題是在存在所謂的規避攻擊的情況下量化需要多少訓練數據,其中數據在測試時會被損壞。在本論文中,我們采用了“球內精確性”概念,從學習理論的角度研究了對抗性魯棒學習的可行性,考慮樣本復雜性。我們首先得出了兩個負面結果。我們證明,在無分布設置下,任何非平凡的概念類都不能在對手能夠擾動單個輸入位的情況下得到魯棒學習。然后,我們展示了樣本復雜性的下界:單調合取的類以及布爾超立方體上的任何超類,其樣本復雜性至少是對手預算(即每個輸入上可以擾動的最大位數)的指數函數。特別地,這意味著在均勻分布下,不能對那些可以擾動輸入的 ω(log n) 位的對手進行魯棒學習。
作為獲得魯棒性學習保證的第一條途徑,我們考慮限制用于訓練和測試數據的分布類別。我們關注概率分布在輸入數據上滿足Lipschitz條件的學習問題:附近的點具有類似的概率。我們證明,如果對手被限制在擾動 O(log n) 位的情況下,那么可以在對數Lipschitz分布類別的條件下魯棒地學習單調合取類。然后,我們擴展了這一結果,展示了在相同的分布和對抗環境中學習 1-決策列表、2-決策列表和單調 k-決策列表的可行性。最后,我們展示對于每個固定的 k 值,k-決策列表類在 log(n) 有界對手條件下具有多項式樣本復雜性。考慮中間的 k-決策列表子類的優勢在于,我們能夠為這些情況獲得改進的樣本復雜性界限。
作為第二條途徑,我們研究了學習模型,其中學習者通過使用局部查詢獲得了更多的能力。我們首先考慮的學習模型使用局部成員查詢(LMQ),在該模型中,學習者可以查詢接近訓練樣本的點的標簽。我們證明,在均勻分布下,即使在學習者除了隨機示例外還可以訪問LMQ的情況下,對于擾動預算為 O(log n) 的對手,魯棒學習合取類和任何超類對于對數Lipschitz分布仍然不可避免地需要對對手的預算呈指數依賴。面對這個負面結果,我們引入了局部等價查詢預測器,該預測器返回假設和目標概念在訓練樣本中的某個點周圍區域內是否一致,以及如果存在反例的話也會返回反例。我們證明了一個分離結果:一方面,如果查詢半徑 λ 嚴格小于對手的擾動預算 ρ,那么在多種概念類別中是不可能進行無分布魯棒學習的;另一方面,當 λ = ρ 時,我們能夠在無分布環境中開發出魯棒的經驗風險最小化算法。然后,我們基于在線學習保證來限制這些算法的查詢復雜性,并在合取式特殊情況下進一步改進這些界限。接著,我們提供了一個在 {0, 1} n 上的半空間魯棒學習算法。最后,由于在 R n 上的半空間查詢復雜性是無界的,我們轉而考慮具有有界精度的對手,并在這種情況下給出了查詢復雜性的上界。
盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。
//dash.harvard.edu/handle/1/37372168
我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。
強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。
//dspace.mit.edu/handle/1721.1/144562
近年來,我們已經看到了預訓練神經網絡來學習可遷移到視覺和NLP中看不見的下游任務的表征的巨大好處。然而,這種學習范式在諸如設計優化或控制等決策方面的研究還不多。在這篇論文中,我們概述了兩個問題設置,可以受益于在決策制定的背景下的預訓練。首先,我們描述了一個用于自動化設計優化的設置,特別是電路設計優化,在該設置中,特定領域的先驗數據可以有效地提高基于模型的優化方法的樣本效率。本文對如何提高基于模型的進化算法和貝葉斯優化方法的樣本效率提出了新的思路,并進行了實證和理論分析。在第二個問題設置中,我們將討論如何從大型任務無關數據集中利用無監督的預訓練來提取行為表征,并進行少量的模仿學習。我們發現,當新任務的例子演示稀缺時,預訓練agent提取技能是使他們準備進行少樣本模仿的一個實用方向。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-35.html
在本文中,我們開發并分析了三種不同機器學習環境下的魯棒性算法。在論文的第一部分,我們介紹了隱藏分層的問題——當一個分類模型在數據的某些未標記子類上表現不佳時——并提出了一種檢測和緩解這個問題的方法。以前的工作研究了如何在已知子類標簽的情況下處理這個問題。基于經驗觀察,未標記的子類通常在深度神經網絡的特征空間中是可分離的,我們轉而使用聚類技術估計數據的子類標簽。然后,我們使用估計的子類標簽作為分布魯棒優化目標中的一種噪聲監督形式,以便訓練一個對子類間變化更魯棒的模型。我們在幾個魯棒的圖像分類基準上證明了我們的方法的有效性。我們簡要討論了以下幾種替代方法:1)使用有限數量的子類標簽來進一步提高性能,2) 使用對比學習來學習不太容易受隱藏分層影響的表示。在論文的第二部分,我們研究了結構化分布漂移下的分類模型評價問題。給定來自“源”分布的標記樣本和來自“目標”分布的未標記樣本,重要性加權是執行這種評估的標準方法;然而,重要性加權在高維設置中會遇到困難,當源分布中不包含目標分布的支持時,重要性加權就會失敗。我們表明,人們可以通過對分布轉移性質的一些預見來回避這些問題;具體來說,我們提出了一種使用用戶定義的“切片函數”(旨在捕獲可能的分布偏移軸的二進制函數)來估計目標分布上的性能的算法。我們從理論上描述了我們的方法對切片函數中的噪聲和不完全性的魯棒性,并在各種分類任務上驗證了它的有效性。在論文的第三部分,我們提出了一種加速梯度法來有效地最小化一類光滑結構非凸函數,我們稱之為“類凸”函數。該算法是經典凸函數加速梯度下降法的推廣,對迭代間可能存在的非凸性具有較強的魯棒性。我們提供了一階求值次數的上界和下界,我們的算法需要找到一個近似最優,這表明我們的算法具有最優復雜度到對數因子
//searchworks.stanford.edu/view/14172616
深度學習模型的分散訓練是實現網絡上數據隱私和設備上學習的關鍵要素。在現實的學習場景中,不同客戶端局部數據集之間存在異構,這對優化提出了挑戰,并可能嚴重影響泛化性能。在本文中,我們研究并識別了幾種分散優化算法在不同程度的數據異構下的局限性。我們提出了一種新的基于動量的方法來緩解這種分散訓練的困難。我們通過對各種CV/NLP數據集(CIFAR-10、ImageNet和AG News)和幾種網絡拓撲(Ring和Social network)的大量經驗實驗表明,與其他現有方法相比,我們的方法對客戶數據的異構性更穩健,測試性能顯著提高(1% - 20%)。我們的代碼是公開的。
現有的語義分割模型嚴重依賴于密集的像素級標注。為了減少標注的壓力,我們專注于一項具有挑戰性的任務,即零標注語義分割,它的目標是用零標注分割不可見的對象。這一任務可以通過語義詞嵌入在類別間傳遞知識來完成。在本文中,我們提出了一種新的基于上下文的零樣本分割特征生成方法——CaGNet。特別是在觀察到像素級特征高度依賴上下文信息的情況下,我們在分割網絡中插入上下文模塊來捕獲像素級特征的上下文信息,從而指導語義詞嵌入生成更加多樣化和上下文感知的特征的過程。我們的方法在三個基準數據集上實現了最先進的零樣本分割結果。代碼可在:this https URL獲得。
小樣本學習(FSL)近年來引起了越來越多的關注,但仍然具有挑戰性,因為學習從少數例子中歸納的固有困難。本文提出了一種自適應間隔原則,以提高基于度量的元學習方法在小樣本學習問題中的泛化能力。具體地說,我們首先開發了一個與類相關的加性邊緣損失算法,該算法考慮了每對類之間的語義相似性,從而將特征嵌入空間中的樣本從相似的類中分離出來。此外,我們在抽樣訓練任務中加入所有類別之間的語義上下文,并開發了與任務相關的附加間隔損失,以更好地區分不同類別的樣本。我們的自適應間隔方法可以很容易地推廣到更現實的廣義FSL設置。大量的實驗表明,在標準FSL和通用FSL設置下,所提出的方法可以提高現有基于度量的元學習方法的性能。