近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
**本論文提出了用于在隨時間變化的曲面上進行穩健計算的算法和數據結構。在科學和幾何計算中,曲面通常被建模為三角網格。然而,找到高質量的網格仍然是一個挑戰,因為網格扮演著兩個截然不同且常常相互沖突的角色:既定義曲面幾何形狀,又定義該曲面上的函數空間。****解決這一難題的一種方法是使用內在三角剖分來解耦這兩個問題。其核心思想是,給定一個代表輸入曲面的三角網格,可以找到許多替代的三角剖分,它們編碼相同的內在幾何信息,但提供不同的函數空間。這項技術使得找到高質量的內在三角網格變得更加容易,從而避開了傳統網格構造中的折衷問題。然而,內在三角剖分正是因為能夠精確地保持輸入幾何形狀——這一技術的核心優勢——也使得其在應用于隨時間變化的曲面時變得具有挑戰性。**在本論文中,我們放寬了對精確幾何保持的假設,允許內在視角應用于時間演變的曲面。我們以網格簡化和曲面參數化問題為例。在網格簡化問題中,我們提供了一種通用的數據結構,用于內在三角剖分,這些剖分僅共享輸入曲面的拓撲類別,但可能具有不同的幾何形狀。在曲面參數化問題中,我們為幾何形狀以共形方式變化的特殊情況構建了更高效的數據結構和算法,利用了離散共形映射與超幾何學之間的聯系。在這兩種情況下,我們發現內在視角導致了簡單的算法,這些算法在各種示例上仍然穩健且高效。
在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。
本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。
總結來說,本論文的主要貢獻如下:
本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。
總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。
大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。
在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。
在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。
因果機器學習 (Causal ML) 處理多種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大規模數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果機器學習方法中的不確定性。為了有效處理海量信息并預測復雜關系,可擴展性至關重要。隨著模型規模的擴大和靈活性增強,傳達未知信息變得愈發重要。我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性是在將機器學習模型擬合到有限數據集時產生的。解決這種不確定性可以預測一系列可能的因果效應,并隨著訓練樣本的增加而縮小范圍,從而有助于做出更明智的決策,并指出需要進一步理解的領域。結構不確定性則來自對因果結構的不精確認知,通常需要對數據生成過程或與世界的交互做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果機器學習方法。我們展示了在因果機器學習算法設計和應用中考慮可擴展性和不確定性的重要性,從而增強決策能力和知識獲取。我們的研究貢獻旨在推動因果機器學習領域的發展,并為未來研究奠定基礎。
因果機器學習 (CML) 涵蓋了多種任務,包括因果效應推斷、因果推理、因果結構發現以及因果表示學習。CML 為數據驅動算法提供了一種系統的方法,通過整合領域知識、表達建模假設的豐富語言,以及理解機器學習預測失敗原因的理論來增強其能力。本論文探討了適用于大規模數據集并處理復雜高維輸入輸出模式(如圖像、文本、時間序列和視頻)的可擴展 CML 方法中的不確定性。在大數據時代及復雜的現實世界問題中,可擴展性至關重要,因為它使 CML 算法能夠高效地處理和學習海量信息,同時建模預測復雜關系所需的上下文。
隨著模型規模的擴大和靈活性的提升,傳達未知信息變得越來越重要。挑戰在于將系統化的分析不確定性的方法應用到可擴展的方法中。解決不確定性對于做出更明智的決策以及識別我們需要學習的內容至關重要。基于這一點,我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。 統計不確定性,通常稱為認知不確定性,出現在將機器學習模型擬合到有限數據集時。解決這種不確定性有助于預測一系列可能的因果效應,并隨著訓練樣本數量的增加而縮小范圍。這一數值范圍不僅能夠促進更明智的決策,還能指出我們需要進一步理解的狀態或個體。然而,統計不確定性需要以正確的世界模型為前提。此時,結構不確定性變得相關,因為它源于對問題中潛在因果結構的不精確認知。通常,緩解結構不確定性需要對數據生成過程或與世界的交互做出進一步假設。盡管如此,CML 仍可以基于額外的領域知識傳達因果關系的不確定性,從而更好地為決策提供信息。
在本論文中,我們開發了能夠有效應對統計和結構不確定性的創新性可擴展 CML 方法和技術。我們展示了在設計和應用 CML 算法時考慮可擴展性和不確定性的重要性,因為它們增強了模型的魯棒性和泛化能力。我們的貢獻旨在推動 CML 領域的發展,并為未來在該領域的研究奠定堅實基礎。
大型語言模型(LLMs)在幫助人們獲取信息方面越來越重要,從“世界上最大的冰蓋在哪里”這樣簡單的事實性問題到需要獲取實時信息和推理的復雜問題,如“計劃一次邁阿密的度假”。有兩種處理需要事實知識的問題的范式:參數化方法將知識存儲在LLMs的參數中,并通過提示來引出這些知識;非參數化方法將知識檢索外包給外部的非參數化數據存儲。在本論文中,我們旨在研究、比較并增強這兩種范式的能力。 由于LLMs通過在多樣的語料庫上進行預訓練,已經在其參數中積累了大量知識,因此可以在被提示提問時直接生成答案。在論文的第一部分中,我們重點關注利用LLMs參數中包含的事實性知識的參數化方法。我們首先研究通過組合從不同提示中得出的多種預測來提取更多知識的方法。然后,我們校準LLMs,使其在回答超出其知識范圍的問題時變得更加可信。我們發現,即使LLMs完全記住文檔并能夠逐字復述它們,仍然常常無法回答有關這些文檔的問題。為了增強LLMs從文檔中吸收知識的能力,我們提出了在預訓練文檔之前進行問題回答任務教學的預指令調整方法。
參數化方法提供了一個簡單的接口,但它們存在幻覺問題,并且無法訪問實時的外部信息。在論文的第二部分中,我們重點關注通過非參數化數據存儲擴展LLMs的非參數化方法,這通常由一個文檔語料庫和一個檢索器構建。標準的檢索增強生成(RAG)流程包括基于嵌入的檢索器和基于LLM的生成器,通常需要單獨的訓練程序,并且往往受限于檢索器的性能。我們引入了一種將檢索與生成融合在單個變換器中的端到端解決方案,并直接使用注意力機制進行檢索。為了解決需要詳細回答的復雜問題,我們引入了Active RAG,它在生成過程中動態和主動地檢索信息。最后,我們通過比較和調和兩種范式并提供對未來方向的見解來總結我們的研究。
這篇論文探討了如何通過將實體信息納入神經網絡模型來增強自然語言理解。它解決了三個關鍵問題:
利用實體進行理解任務:本文引入了Entity-GCN模型,該模型在一個圖上執行多步推理,其中節點代表實體提及,邊代表關系。這種方法在一個多文檔問答數據集上取得了最先進的結果。
使用大型語言模型識別和消歧實體:該研究提出了一種新穎的系統,通過逐字生成實體名稱來檢索實體,克服了傳統方法的局限性,并顯著減少了內存占用。該方法還擴展到了多語言環境,并進一步優化了效率。
解釋和控制模型中的實體知識:本文提出了一種事后解釋技術,用于分析神經模型各層的決策過程,允許對知識表示進行可視化和分析。此外,提出了一種編輯實體事實知識的方法,使得在無需昂貴的重新訓練的情況下能夠修正模型預測。
實體在我們表示和匯總知識的方式中處于中心地位。例如,像維基百科這樣的百科全書是按實體組織的(例如,每篇維基百科文章對應一個實體)。書面百科全書已有約兩千年的歷史(例如,《自然史》可以追溯到公元77年),在此期間,它們在形式、語言、風格及許多其他方面都有了很大的發展。《百科全書,或科學、藝術和工藝詳解詞典》(在1751年至1772年間于法國出版;狄德羅和達朗貝爾,1751)和《大英百科全書》(在1768年至1771年間于蘇格蘭出版;斯梅利,1768)通常被認為是現代歷史上第一部印刷的百科全書,并定義了信息傳播的重大變革。盡管內容和語言可能有所不同,但通過實體、類別和交叉引用組織信息的基本方式在幾個世紀以來幾乎沒有改變。以這種方式組織世界知識對人類來說是自然且方便的,但對機器來說如何呢?機器學習算法能否利用我們的分類方式?我們能否構建能夠連接不同知識點或區分模糊概念的計算機算法?雖然這些復雜問題目前還沒有明確的答案,但在本文中,我們將論證,向自然語言處理(NLP)算法提供關于實體性質的額外信息,可以提高其在許多有用應用中的性能。
讓我們從一個利用實體進行多文檔問答的例子開始。在這種情況下,用戶向信息系統提出問題,該系統需要在文檔庫中搜索答案。此外,我們假設需要跨多個文檔進行分析和推理,因為在單個文檔中找不到簡單的答案。圖1.1展示了在這種情況下獲得答案的機器輔助過程。正如我們從中看到的那樣,機器進行的過程旨在模仿人類的行為,這似乎是一種合理的策略。我們假設將這種復雜任務分解為可學習的子步驟會導致整體系統的改進和人類可解釋性。我們可以使用客觀指標來驗證這一任務是否如此。
用于自然語言理解的實體 為了研究上述問題,在第三章中,我們探討了如何利用實體來解決自然語言理解(NLU)。我們引入了一種依靠在多個文檔內外傳播的信息進行“推理”的神經模型。我們的假設是,通過引用實體進行“推理”(學習)步驟使模型輸出預測,將使其學會處理復雜問題的合理且更具普遍性的策略。文本中出現的實體提及進行了注釋,這使得測試我們的假設變得更容易。然后,我們將任務框定為圖上的推理問題。這些提及是圖的節點,而邊則編碼了不同提及之間的關系(例如,文檔內和跨文檔的共指關系)。圖卷積網絡(GCN)應用于這些圖,并經過訓練以執行多步推理。我們展示了使用額外的實體信息可以實現一種可擴展且緊湊的方法,在開發時(即2018年)在一個流行的多文檔問答數據集WikiHop上取得了最先進的結果。 第三章的發現為更有趣的問題打開了大門,因為我們貢獻的一個限制因素是所有實體的提及都作為輸入提供給模型。檢索文本中實體提及的能力對于知識密集型任務(如開放領域問答和對話)至關重要。因此,一個自然的問題出現了:我們如何利用語言模型來識別和消歧文本中的實體?
使用語言模型在文本中查找實體 實體鏈接(EL;Bunescu & Pa?ca,2006;Cucerzan,2007;Dredze等,2010;Hoffart等,2011;Le & Titov,2018)是NLP中的一項基本任務,用作文本理解的構建模塊(Févry等,2020b;Verga等,2020)。它包括將非結構化文本中的實體提及錨定到知識庫(KB)標識符(例如,維基百科文章)。實體鏈接在多個領域有廣泛應用,涵蓋開放領域問答(De Cao等,2019b;Nie等,2019;Asai等,2020)、對話(Bordes等,2017;Wen等,2017;Williams等,2017;Chen等,2017b;Curry等,2018;Sevegnani等,2021)、生物醫學系統(Leaman & Gonzalez,2008;Zheng等,2015)、信息抽取(Sarawagi,2008;Martinez-Rodriguez等,2020)等。在圖1.2中,我們展示了將提及鏈接到知識庫中相關實體的例子。
盡管之前有大量關于實體檢索的研究(例如,Hoffart等,2011;Piccinno & Ferragina,2014;Huang等,2015;Le & Titov,2018;Logeswaran等,2019;Broscheit,2019;Wu等,2020,僅舉幾例),但大多數當前解決方案的一個共同設計選擇是:實體與唯一的原子標簽相關聯,可以將檢索問題解釋為跨這些標簽的多類分類。輸入和標簽之間的匹配通過雙編碼器(Wu等,2020;Karpukhin等,2020)計算:輸入的密集向量編碼與實體信息(如標題和描述)的編碼之間的點積。這種形式化允許使用現代最大內積搜索庫(Johnson等,2019)進行亞線性搜索,從而支持從大型實體數據庫中檢索。在第四章中,我們提出了一種新穎的方法:第一個通過逐字生成其唯一名稱(從左到右,自回歸方式)來檢索實體的系統。我們的模型緩解了當時廣泛采用的現代模型(4)可能忽略文本和知識庫中實體之間的細粒度交互的限制。此外,我們顯著減少了當前系統的內存占用(最多15倍),因為我們的編碼器-解碼器架構的參數隨詞匯量的變化而不是實體數量的變化而變化。我們還將我們的方法擴展到一個包含100多種語言的大型多語言環境(第五章)。在這種環境中,我們對盡可能多語言的實體名稱進行匹配,這允許利用源輸入和目標名稱之間的語言連接。最后,我們還提出了一種非常高效的方法,可以在文本片段中的所有潛在提及上并行化自回歸鏈接。這樣的系統依賴于一個淺層且高效的解碼器,使得模型速度提高超過70倍且沒有性能下降(第六章)。
語言模型的可解釋性和可控性 第四、五和六章的發現為許多子領域的許多有趣應用打開了大門。我們研究的一個引人注目的方面是,它表明系統的大部分收益來自模型回憶起其在語言建模預訓練和任務特定微調過程中獲得的實體名稱記憶的能力。不幸的是,這種能力是有代價的。因為大多數(如果不是全部)基于深度學習的語言模型都是黑箱函數。因此,我們不能完全理解它們的預測,也不能確定它們是推理還是記憶。當它們記憶時,我們通常也不能輕松地控制添加、刪除或修改這些記憶的方式和位置。這些反思引出了下一個研究問題:我們如何解釋和控制模型內部關于實體的知識?
為此,在第七章中,我們介紹了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。我們的系統學習屏蔽向量子集,同時保持可微性。這不僅讓我們能夠繪制歸因熱圖,還能分析決策在網絡層中的形成方式。我們使用該系統研究了BERT模型(Devlin等,2019a)在情感分類和問答任務中的表現,并展示了該技術也可以應用于第三章提出的基于圖的模型。最后,我們還提出了一種可以用于編輯語言模型中實體事實知識的方法,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測(第八章)。
貢獻 本論文的主要貢獻可總結如下: 1. 我們引入了一種依靠在多個文檔內外傳播的信息進行推理的神經模型。我們將其框定為圖上的推理問題。實體提及是該圖的節點,而邊則編碼了不同提及之間的關系。 1. 我們提出了一個系統,通過生成實體的唯一名稱(自回歸方式)來識別文本中的實體并將其鏈接到外部知識庫中,支持100多種語言。我們采用受限生成方法,將這種生成自回歸模型用作分類器。 1. 我們提出了一種新的事后解釋技術,用于檢查神經模型各層決策的形成方式。 1. 我們開發了一種方法,可以編輯語言模型內部的實體事實知識,從而在無需昂貴的重新訓練或微調的情況下修復“錯誤”或意外預測。
大多數(如果不是全部)研究結果表明,實體在自然語言處理中的核心作用,我們鼓勵在更多任務中納入實體信息的研究。
在機器學習領域,開發在世界中智能行為的代理仍是一個開放性挑戰。對這樣的代理的期望包括高效的探索、最大化長期效用以及能夠有效利用以往數據解決新任務的能力。強化學習(RL)是一種基于通過試錯直接與環境互動來學習的方法,并為我們訓練和部署此類代理提供了途徑。此外,將RL與強大的神經網絡功能逼近器結合使用——一個被稱為“深度RL”的子領域——已顯示出實現這一目標的證據。例如,深度RL已產生了能夠以超人水平玩圍棋的代理、提高微芯片設計的效率,以及學習控制核聚變反應的復雜新策略的代理。部署深度RL的一個主要問題是樣本效率低。具體來說,雖然可以使用深度RL訓練有效的代理,但主要成功案例大多數是在我們可以通過使用模擬器獲得大量在線互動的環境中實現的。然而,在許多現實世界的問題中,我們面臨的情況是樣本成本高昂。正如所暗示的,解決這個問題的一種方式是通過獲取一些以往的數據,通常稱為“離線數據”,這可以加速我們學習這些代理的速度,例如利用探索性數據防止重復部署,或使用人類專家數據快速引導代理朝向有前途的行為等。然而,將這些數據融入現有的深度RL算法的最佳方式并不直觀;簡單地使用RL算法在這些離線數據上進行預訓練,一種稱為“離線RL”的范式作為后續學習的起點,往往是不利的。此外,如何明確地在線派生出由這種離線預訓練積極影響的有用行為尚不清楚。鑒于這些因素,本文提出了一種三管齊下的策略來提高深度RL中的樣本效率。首先,我們研究了在離線數據上進行有效的預訓練。然后,我們解決在線問題,探討在純在線操作時對環境進行高效適應。最后,我們得出結論,使用離線數據在在線行動時明確增強策略。
模型無關的特征重要性度量對于揭示不透明或“黑箱”機器學習模型的任務至關重要。這種模型在高風險決策環境(如醫療保健或銀行業)的激增,要求開發靈活且可信的方法來解決這個問題。由于沒有地面真實的特征重要性進行比較,各種競爭方法提供了不同的方法和/或理念,通常都聲稱自己更優越。最近一些最受歡迎的方法是從合作博弈論的工具進行適應,這些工具在獎勵或成本分享問題中被使用。在本文檔中,我們報告了這類特征重要性方法的最近進展。特別是,我們討論了一個使用Shapley值的“數據為中心”的群體(cohort)-基礎框架,用于模型不可知的局部特征重要性。我們提出了一個主要的重要性度量,并探討了更適合特定用例或數據環境的該方法的幾種適應。我們分析了這些方法的屬性和行為,并將它們應用于包括選民注冊和累犯數據在內的一系列合成和實際問題設置。然后,我們提出并討論了局部重要性聚合和特征重要性評估的新方法。
序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標。
在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199
在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。