隨著人工智能的不斷進步,像 ChatGPT 這樣的大型語言模型有可能徹底改變國防采購和合同簽訂的方式。由于語言模型能夠生成類似人類的文本,因此可以自動完成采購中的許多重復而耗時的任務,如文件準備、研究和溝通。與任何新技術一樣,國防工業采用大型語言模型也存在相關風險。這些風險包括潛在的安全漏洞、決策偏差和意外后果。在本文中,我們將探討在國防采購和合同簽訂中使用 ChatGPT 等高級語言模型所帶來的機遇和風險。
ChatGPT 是一種人工智能語言模型,是一種根據用戶輸入生成文本的計算機程序。雖然有許多語言模型,但 ChatGPT 因其能夠準確生成類似人類的文本而在最近受到最多關注。ChatGPT 由 OpenAI 開發,OpenAI 是一家致力于創建和推廣友好人工智能的研究機構。OpenAI 使用一種名為 "從人類反饋中強化學習 "的人工智能技術對模型進行了訓練。訓練過程包括向計算機程序輸入大量數據,然后向程序提供反饋和調整,以提高其性能。據估計,ChatGPT 在超過 3000 億字的大量文本上進行了訓練。
ChatGPT 能夠理解并生成連貫、有意義的文本,這使它成為一款廣受歡迎的工具,在 2022 年 11 月發布后的短短一周內就吸引了 100 多萬用戶。據估計,到今年 1 月,它的月活躍用戶已達 1 億,成為歷史上增長最快的消費者應用程序。
大多數用戶通過網絡瀏覽器上簡單自由的文本提示訪問 ChatGPT,而微軟等公司已經開始將人工智能集成到其軟件服務中。微軟最近宣布對 OpenAI 進行為期多年、價值數十億美元的投資,并將在必應搜索引擎和 Microsoft Teams 等消費者和企業產品中部署 ChatGPT 模型。這項投資估計價值超過 100 億美元,凸顯了對高級語言模型日益增長的需求。
像 ChatGPT 這樣的高級語言模型是利用復雜的人工智能計算機編程技術開發出來的。開發人員將大量文本數據輸入計算機程序,由程序對信息進行分析和處理。數據來源多種多樣,如書籍、文章和網頁。計算機程序的輸出是另一種稱為語言模型的計算機程序,它能夠理解和生成人類文本。
然后,數據科學家和工程師團隊通過一個稱為訓練和微調的過程對模型進行調整。他們會調整數據和模型用于計算的參數,使其能夠對新的文本數據做出越來越準確的預測或決策。他們會重復這個過程數百萬次,直到它能高概率地準確預測下一個單詞。一旦模型經過訓練和微調,就可以用來執行各種語言任務。例如,它可用于生成連貫、逼真的文本,回答問題,以及總結大量文本。
雖然 ChatGPT 目前在語言模型領域處于行業領先地位,但其他公司也在迎頭趕上。在不久的將來,我們將有更多機會接觸到這些語言模型,并與許多我們已經熟悉的軟件工具進行更多整合。隨著語言模型變得越來越先進,它們也將可以根據特定的風格、流派和領域(如國防部的采購)進行定制。有人猜測,語言模型將成為 "寫作的計算器"。他們預測,就像我們今天依靠計算器完成大部分數學計算一樣,未來我們也將依靠語言模型完成大部分寫作。
作者最近調查了一組采購官員,以收集他們對如何在國防采購中使用語言模型的看法。事實證明,他們的反饋很有參考價值,分享了一些值得注意的見解。例如,一些人表示有興趣將人工智能或 ChatGPT 整合到合同撰寫系統中,以幫助起草履約工作說明書或撰寫需求。還有人認為 ChatGPT 可以幫助進行市場調研,找出創新的解決方案來彌補能力上的差距。提到的另一個潛在應用是利用 ChatGPT 的分析能力來制定現實可行的要求和標準,以便選擇供應商。此外,一些人還建議使用 ChatGPT 來協助撰寫標準表格,包括單一采購管理計劃和測試評估總計劃,以及幫助外國供應商瀏覽 SAM.gov 和采購集成企業環境等系統。
值得注意的是,一些采購專業人員已經在利用 ChatGPT 來提高他們的工作效率,盡管不是出于官方目的。他們將其用于個人項目、研究和創意生成。一位官員使用 ChatGPT 查找了政府問責局最近的報告,并將技術語言簡化為更易于理解的術語。另一位官員使用 ChatGPT 為一個潛在的原型項目創建了一份概念性的目標聲明,他們發現這非常有用。一位官員的配偶甚至用 ChatGPT 撰寫了她的簡歷,結果比她的伴侶寫的還要好。最后,許多人對 ChatGPT 簡單高效、快速準確的回答表示贊賞。
作者就曾使用 ChatGPT 協助撰寫過類似這樣的文章、給員工的節日祝福、促銷演講、社交媒體文章、慰問卡、給妻子的情書,甚至是一本書。這為作者節省了數百個小時的時間,并帶來了比自己所能完成的更好的產品。作者的親身經歷和前面的評論都突出表明,ChatGPT 和類似的語言模型在改變國防知識獲取中的寫作本質方面具有巨大的潛力。
圖 變革現實:隨著人工智能的發展,像 ChatGPT 這樣的語言模型將通過自動化重復而耗時的任務,徹底改變國防采購和合同簽訂。(圖片由作者提供)
盡管存在潛在的機遇和用例,但在國防采購和承包中采用大型語言模型也存在相關風險。第一個主要風險是機密或敏感信息的處理,因為語言模型不是為保護受控或機密數據而專門設計或測試的。這可能導致安全漏洞或傳播不準確的信息。
如果語言模型用于生成政府文件,那么審查有關記錄保留法的現行政策也很重要。這些政策規定了某些類型的記錄應保留多長時間。語言模型的使用可能會改變文檔的創建和存儲方式,從而可能影響對這些政策的遵守。
語言模型還可能生成包含偏見、不準確或其他錯誤的文本,從而損害政府的公信力或完整性。因此,語言模型生成的任何文本在使用前都必須經過仔細審查和驗證。因此,網絡安全政策通常會阻止對 ChatGPT 和類似語言模型的訪問,從而減緩了其在國防工業中的應用。不過,一些公司正在研究專門為政府團隊定制語言模型,利用大量政府相關數據對模型進行微調。盡管 ChatGPT 仍處于早期開發階段,但將其集成到 Office 365 和 Microsoft Teams 等微軟產品中很可能是許多政府用戶第一次接觸語言模型。
在政府辦公室之外,行業合作伙伴對語言模型的廣泛采用有望提高他們在項目管理和合同運作方面的效率。使用語言模型可以大大提高行政任務的速度和效率,如起草會議記錄和提交合同提案。信息收集和建議書撰寫的自動化有助于為小企業和非傳統承包商創造公平的競爭環境,因為他們可能不具備與大型承包商相同的資源。
語言模式可以使供應商更容易響應政府招標,從而增加投標數量,促進競爭。政府收到的招標數量增加,可能會使本來就人手不足的承包商隊伍不堪重負。因此,政府必須開始考慮如何有效管理可能涌入的大量提案,并確保評估過程保持公平和徹底。
報價人使用語言模型也會在合同簽訂過程中產生一些風險。報價人可以使用語言模型來優化對政府要求的回應,增加贏得合同的機會,從而使使用語言模型的供應商獲得優勢。這可能導致合同授予擁有最佳人工智能模型的報價人,而不是那些為政府提供最佳價值的報價人。
為了應對這些風險,我們的合同專業人員需要充分了解語言模型是如何編譯和呈現信息的。他們還需要使用相同的語言模型技術來協助市場調研、總結冗長的投標書或識別風險領域。隨著報價人在答復過程中變得更加高效,我們的合同專業人員將需要充分利用資源,以保持同等水平的效率。
大型語言模型有可能提高包括政府部門在內的各行各業的效率和生產力。雖然這些模型在政府部門的廣泛應用可能會落后于商業部門,但行業合作伙伴很可能會首先采用該技術,并將其用于協助撰寫建議書和合同流程,從而使報價人更容易響應政府招標,并為小型企業和非傳統供應商創造公平的競爭環境。對于采購專業人員來說,重要的是要考慮其中的機遇和風險,并以負責任和安全的方式使用該技術。
參考來源:美國陸軍采辦支持中心
像 GPT-3 這樣的大型語言模型 (LLM) 在國防領域有著廣泛的潛在應用。以下是LLM在國防相關領域的一些應用方式:
大型語言模型可用于識別社交媒體數據中可能與國家安全相關的模式和趨勢。例如,它們可用于監控社交媒體平臺,以發現動亂或政治不穩定的跡象。
大型語言模型還可用于分析各種來源的新聞文章,以識別新出現的威脅和趨勢。例如,它們可用于監控新聞文章,以發現恐怖活動或網絡攻擊的跡象。
大型語言模型還可用于分析政府報告和其他官方文件,以識別潛在威脅和趨勢。例如,它們可用于分析情報機構或軍事組織的報告,以識別新出現的威脅。
大型語言模型還可用于生成這些數據的報告和摘要,幫助決策者更輕松地理解信息。例如,它們可用于生成每日或每周報告,介紹可能與國家安全相關的新興威脅和趨勢。
隨著大型語言模型(LLMs)在編寫類似人類的文本方面不斷進步,它們傾向于“幻覺”——生成看似事實卻無根據的內容的傾向仍然是一個關鍵挑戰。幻覺問題可以說是將這些強大的LLMs安全部署到影響人們生活的實際生產系統中的最大障礙。向LLMs在實際設置中廣泛采用的旅程嚴重依賴于解決和緩解幻覺。與專注于有限任務的傳統AI系統不同,LLMs在訓練期間已經接觸了大量的在線文本數據。雖然這使它們能夠展現出令人印象深刻的語言流利度,但這也意味著它們能夠從訓練數據中的偏見中推斷出信息,誤解模糊的提示,或修改信息以表面上與輸入對齊。當我們依賴語言生成能力進行敏感應用時,這變得極其令人擔憂,例如總結醫療記錄、客戶支持對話、財務分析報告和提供錯誤的法律建議。小錯誤可能導致傷害,揭示了LLMs盡管在自我學習方面取得了進步,但實際上缺乏真正的理解。本文提出了一項對超過三十二種旨在緩解LLMs中幻覺的技術的全面綜述。其中值得注意的是檢索增強生成(RAG)(Lewis et al., 2021)、知識檢索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和CoVe(Dhuliawala et al., 2023)。此外,我們引入了一種詳細的分類法,根據各種參數對這些方法進行分類,如數據集利用、常見任務、反饋機制和檢索器類型。這種分類有助于區分專門設計用于解決LLMs中幻覺問題的多種方法。此外,我們分析了這些技術固有的挑戰和限制,為未來在LLMs領域解決幻覺和相關現象的研究提供了堅實的基礎。
1 引言 大型語言模型(LLMs)中的幻覺涉及到在多個主題上創造事實上錯誤的信息。鑒于LLMs的廣泛領域覆蓋,它們的應用橫跨眾多學術和專業領域。這些包括但不限于學術研究、編程、創意寫作、技術咨詢以及技能獲取的促進。因此,LLMs已成為我們日常生活中不可或缺的組成部分,在提供準確可靠信息方面扮演著關鍵角色。然而,LLMs的一個根本問題是它們傾向于產生關于現實世界主題的錯誤或捏造細節。這種提供錯誤數據的傾向,通常被稱為幻覺,為該領域的研究人員提出了重大挑戰。這導致了像GPT-4等先進模型可能生成不準確或完全沒有根據的引用(Rawte et al., 2023)的情況。這一問題是由于訓練階段的模式生成技術和缺乏實時互聯網更新,從而導致信息輸出中的差異(Ray,2023)。 在當代計算語言學中,緩解幻覺是一個關鍵焦點。研究人員提出了各種策略,包括反饋機制、外部信息檢索和語言模型生成早期細化,來應對這一挑戰。本文通過整合和組織這些不同技術為一個全面的分類法而具有重要意義。本文對于LLMs幻覺領域的貢獻有三方面:
引入了一個系統的分類法,旨在對LLMs的幻覺緩解技術進行分類,包括視覺語言模型(VLMs)。
綜合了這些緩解技術的基本特征,從而指導該領域未來更有結構性的研究努力。
對這些技術固有的局限性和挑戰進行了討論,并提出了潛在的解決方案和未來研究的方向建議。
大型語言模型(LMs)在許多語言任務中取得了顯著的成功。最近的研究也表明,大型LMs能夠從世界知識中獲益,從而幫助人們在體現任務中進行決策。然而,目前大型LMs展現的世界知識往往不夠穩健,且在沒有額外模型的情況下無法在物理環境中得到實現。這限制了它們可靠地執行復雜推理和規劃任務的能力。例如,在創建移動積木到目標狀態的行動計劃時,GPT-4與人類相比成功率顯著較低。 另一方面,人類基于對世界的心智模型進行深思熟慮的推理和規劃,這也被稱為世界模型(WM),它使我們能夠模擬行動及其對世界狀態的影響。編碼物理世界知識的WMs可以極大地提高智能代理的數據效率和穩健性。 然而,WMs通常在強化學習和機器人技術領域進行研究,這些領域在概念上與語言建模研究的問題不同。這一差距表明將WMs與LMs相結合,以提升LM在體現和通用設置中的推理和規劃能力,并解決上述局限性,是一個新的機遇。在WMs和LMs交匯點上的新興研究已展示出有希望的結果。本教程旨在總結并呈現連接WMs和LMs的統一視角,突出基于大型LMs通過世界建模來改進機器推理和規劃的各種機會。我們將回顧近期關于學習WMs的研究,并使用它們來進一步學習和執行體現任務。我們將展示LMs如何利用外部WMs來彌補其缺乏的基于地面的世界知識,以及LMs本身如何從超越文本數據的體現經驗中學習世界模型,并使用這些內部WMs來指導復雜推理。
盡管在許多應用中取得了巨大成功,但大型語言模型在各種(語言、體現和社會)場景中常常難以實現一致的推理和規劃,這是由于它們在推理、學習和建模能力上的固有局限。在這篇立場論文中,我們提出了一種新的機器推理觀點,LAW,它將語言模型、代理模型和世界模型的概念聯系起來,以實現更穩健和多樣的推理能力。特別是,我們認為世界和代理模型是一種更好的推理抽象,它引入了人類推理的關鍵元素,包括對世界和其他代理的信念、對后果的預期、目標/獎勵和戰略規劃。關鍵的是,LAW中的語言模型作為實現系統或其元素的后端,因此提供了計算能力和適應性。我們回顧了近期取得相關進展的研究,并討論了將LAW框架實用化的未來研究方向。
大型語言模型(LLMs)是迄今為止人類構建的最強大的智能機器之一。它們擅長根據給定的文本(或多模態)輸入生成自然語言的延續。自然語言是人類描述世界、表達思想和相互交流的靈活手段。LLMs,經過訓練,吸收了人類所產生的大量文本中傳達的大部分知識,包括世界的因果結構(如“一個瓶子被推,水便流出來”的句子所表達的),對各種主題的推理、科學理論、信仰、文化規范等。 另一方面,LLMs在一致的推理和規劃上常常有所不足,有時在人類覺得簡單的任務上意外地失敗。圖1展示了在不同推理場景中的這類例子。這些失敗實例突顯了基于LLMs的機器推理的幾個根本限制: 首先,自然語言文本通常是模糊且不精確的。造成這種模糊和不精確的一個關鍵原因是,人類在產生文本時所依賴的豐富上下文通常缺失。這種上下文包括人類代理人所處的特定感知和社會情境、他們的心理狀態(例如,意圖、信念和思維過程)以及世界常識。因此,LLMs只學習模仿表面文本而不建模潛在的上下文,缺乏對物理、社會和心理經驗的基礎。 LLMs的另一個核心局限來自于語言作為在某些情況下進行推理的媒介的低效性(圖1,體現推理)。例如,表達兩片樹葉之間所有微妙的區別可能需要一段冗長的文本段落。相比之下,生成視覺上代表這些樹葉的圖像可能更為高效,只需幾個像素。同樣,使用其他感官模式(例如,視頻)通常比依靠語言來描述直觀物理學更為直接,如基于其粘度和周圍障礙物預測流體流動。
這些局限性進一步被LLMs的推理過程所加劇。它們通過從左到右自回歸地、逐標記地生成文本來進行推理,類似于人類的第一系統(System-I)直覺思維。人類的第二系統(System-II)推理與LLM推理形成鮮明對比。特別是,人類擁有世界的心智模型。我們頭腦中的“世界模型”使我們能夠模擬行動及其對世界狀態的影響,從而在復雜任務中進行穩健推理(Tolman, 1948; Briscoe, 2011; Battaglia et al., 2013; Allen et al., 2020; Pramod et al., 2020)。例如,在規劃實現目標時,我們使用內部世界模型來思考我們可以采取的不同行動,并預測每個選擇的可能結果。這種結果的預測反過來有助于改進行動計劃,以更好地實現目標。這一決策過程由位于世界模型之上的“代理模型”所控制。此外,在社會推理任務中,人類代理人還使用他們對其他代理人的信念。例如,在對話過程中,代理人需要推斷他人的意圖和他們可能的反應,以決定最合適的言語。因此,人類通過由其內部世界和其他代理人模型指導的深思熟慮的規劃實現他們的目標并成功與他人互動。
人類代理人還展現出比LLMs更豐富的學習機制。如圖1所示(體現/社會推理),僅用大規模文本語料庫訓練的LLMs缺乏基本的現實世界經驗,如跟蹤和與對象互動、理解現實世界物理和時空關系、感知和跟蹤世界狀態、識別其他代理的行為等。人類代理人通過與環境的互動學習來繞過這些限制。例如,我們通過嘗試任務并獲得反饋來獲取新知識(例如,廚師通過嘗試不同的食材并品嘗結果來完善他們的烹飪技巧),或者僅僅通過隨機探索周圍環境(例如,一個孩子通過隨機拾起各種物體來了解不同的質地和感覺)。
總而言之,當前LLM的推理和規劃在推理(自回歸生成)、學習(未經真實世界互動的數據語料庫模仿)和建模(語言的低效率及其缺乏基礎)方面面臨關鍵限制。在這篇立場論文中,我們提出了一種更通用和穩健的機器推理的新視角,適用于語言、體現、社會以及其他廣泛場景。特別是,受到上述討論的啟發,我們提出了一種統一的LAW機器推理框架,將語言模型、代理模型和世界模型的概念聯系起來(圖2,右側)。
具體而言,世界和代理模型的概念源于認知科學和發展心理學(例如,Tolman, 1948; Premack and Woodruff, 1978; Johnson-Laird, 1983, 2010; Gentner and Stevens, 2014; Nortmann et al., 2015; Maus et al., 2013; Forrester, 1971; Gopnik and Wellman, 1994; Gergely and Csibra, 2003; Spelke and Kinzler, 2007; Battaglia et al., 2013; Baker et al., 2009; Jara-Ettinger et al., 2016; Baker et al., 2017)。如前所述,世界模型(§2.2)是代理人用來理解和預測周圍外部世界的心理表征;代理模型(§2.3)包含世界模型以及其他關鍵組件,包括代理的目標以及對當前世界狀態和其他代理的信念。這些組件共同塑造了代理的認知過程,使其能夠進行深思熟慮的推理和規劃。在人工智能和機器學習領域,世界和代理模型通常在強化學習和機器人技術的背景下研究(例如,Toussaint, 2003; Schulkin, 2012; Ha and Schmidhuber, 2018; Berkenkamp et al., 2017; Clavera et al., 2018; Zhang et al., 2019; Kaiser et al., 2019; Moerland et al., 2023; LeCun, 2022)。例如,最近的研究表明,世界建模使代理能夠在特定游戲和體現控制問題中制定有效的行動計劃(Schrittwieser et al., 2020; Hafner et al., 2020)。
在這篇論文中,我們強調了將語言模型與世界和代理模型結合起來的巨大新機遇,以實現單獨公式無法實現的更通用推理能力。特別是,與當前基于LM的推理范式相比,我們認為世界和代理模型是機器推理的更好抽象,因為它們天生包含了人類推理所必需的基本組成部分——例如,信念、目標、對后果的預期和深思熟慮的規劃(圖2,右側)。在這個框架中,LMs是實現世界/代理模型或各個組成部分的一種方式。也就是說,LMs作為實現這一框架的后端。與傳統的實現方式相比,LMs提供了處理廣泛多樣的推理場景所需的計算能力和適應性。另一方面,LMs在LAW推理框架中的新角色也突顯了它們的局限性,并激發了改進的未來研究。 在接下來的章節中,我們首先分別簡要介紹這三種模型的背景(§2)。然后,我們介紹新的LAW推理框架(§3),其中我們回顧了與框架中每個元素相關的新興研究,并討論了應對現有方法固有挑戰的路線圖,以實現更先進的機器推理和規劃。
近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。
近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。
更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。
為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。
盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。
與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。
本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:
?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。
? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。
本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。
面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:
? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。
?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。
? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。
上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。
在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。
近年來,人工智能(AI)系統有了長足的進步,其功能也在不斷擴展。特別是被稱為 "生成式模型 "的人工智能系統在自動內容創建方面取得了巨大進步,例如根據文本提示生成圖像。其中一個發展尤為迅速的領域是能夠生成原始語言的生成模型,這可能會給法律和醫療保健等多個領域帶來益處。
不過,生成式語言模型(簡稱 "語言模型")也可能存在負面應用。對于希望傳播宣傳信息--旨在塑造觀念以促進行為者利益的惡意行為者來說,這些語言模型帶來了自動創建有說服力和誤導性文本以用于影響力行動的希望,而不必依賴人力。對社會而言,這些發展帶來了一系列新的擔憂:那些試圖暗中影響公眾輿論的人可能會開展高度可擴展、甚至極具說服力的活動。
本報告旨在評估:語言模型的變化會如何塑造影響力行動,以及可以采取哪些措施來減輕這些威脅?由于人工智能和影響力行動都在迅速變化,這項任務本質上是推測性的。
作者于 2021 年 10 月召集了 30 位人工智能、影響力行動和政策分析領域的專家,討論語言模型對影響力行動的潛在影響,該研討會為報告中的許多觀點提供了參考。由此產生的報告并不代表研討會與會者的共識。
希望這份報告對那些對新興技術的影響感興趣的虛假信息研究人員、制定政策和投資的人工智能開發人員以及準備應對技術與社會交叉領域的社會挑戰的政策制定者有所幫助。
分析了生成式語言模型對影響力行動三個眾所周知的方面——發起行動的行為體、作為戰術的欺騙行為以及內容本身——的潛在影響,并得出結論:語言模型可能會極大地影響未來影響力行動的發起方式。表 1 總結了這些變化。
語言模型有可能以較低的成本與人類撰寫的內容相媲美,這表明這些模型與任何強大的技術一樣,可以為選擇使用它們的宣傳者提供獨特的優勢。這些優勢可以擴大與更多行為者的接觸,實現新的影響策略,并使競選活動的信息傳遞更有針對性和潛在的有效性。
表 1:語言模型如何塑造影響力行動
1、行為體
由于生成AI文本的潛在變化
對變化的解釋
2、行為
由于生成AI文本的潛在變化
對變化的解釋
3、內容
由于生成AI文本的潛在變化
對變化的解釋
語言模型的技術進步不可能停止,因此任何試圖了解語言模型將如何影響未來影響行動的嘗試都需要考慮到預期的進步。語言模型可能會變得更加可用(使模型更容易應用于任務)、可靠(減少模型產生明顯錯誤輸出的機會)和高效(提高應用語言模型進行影響行動的成本效益)。
這些因素促使我們做出高度自信的判斷,即語言模型在未來的影響力行動中將大有用武之地。然而,其應用的確切性質尚不明確。
有幾個關鍵的未知因素將塑造影響力行動如何以及在多大程度上采用語言模型。這些未知因素包括:
哪些新的影響力能力將作為善意研究的副作用而出現?傳統的研究過程以更廣泛的語言任務為目標,其結果是產生了可應用于影響力行動的系統。未來可能會出現新的能力,如制作長篇有說服力的論據。這些新出現的能力很難通過生成模型來預測,但可以決定宣傳人員將使用語言模型來執行哪些具體任務。
為影響力行動設計特定的語言模型是否比應用通用模型更有效?雖然目前大多數模型都是為通用任務或具有科學或商業價值的任務而建立的,但宣傳人員可以建立或調整模型,使其直接用于說服和社會工程等任務。例如,宣傳人員可以對一個較小、能力較弱的模型進行調整,這一過程被稱為微調。這很可能比建立一個更大、更通用的模型更便宜,盡管還不能確定會便宜多少。此外,對最先進的模型進行微調可以使宣傳者更容易獲得新的影響能力。
隨著時間的推移,參與者是否會對語言模型進行大量投資?如果許多參與者都投資并創建了大型語言模型,這將增加宣傳者獲取語言模型(合法或通過盜竊)的可能性。宣傳者本身也可以投資創建或微調語言模型,納入定制數據--如用戶參與數據--以優化其目標。
政府或特定行業是否會制定禁止將模型用于宣傳目的的規范?正如使用規范會限制其他技術的濫用一樣,它們也可能會限制語言模型在影響力行動中的應用。一個同意不將語言模型用于宣傳目的的國家聯盟可以讓那些不遵守的國家付出代價。在次國家層面,研究團體和特定行業可以制定自己的規范。
何時才能公開提供易于使用的文本生成工具?語言模型的熟練使用仍然需要操作知識和基礎設施。易于使用的工具可以生成推文或段落長度的文本,這可能會讓缺乏機器學習知識的現有宣傳人員依賴語言模型。
由于這些關鍵的可能性可能會改變語言模型對影響力行動的影響,因此為減少不確定性而開展更多研究是非常有價值的。
在2021 年 10 月召開的研討會的基礎上,對現有的大量文獻進行了調查、 試圖為各種可能的緩解戰略提供一個殺傷鏈框架,并對其類型進行調查。目的不是認可具體的緩解策略,而是展示緩解策略如何針對影響力行動流水線的不同階段。
表 2:緩解措施實例摘要
宣傳者的要求
1.能夠生成真實文本的語言模型
2.可靠地獲取此類模型
3.分發生成內容的基礎設施
4.易受影響的目標受眾
干預階段
1.模型設計與制作
2.模型接入
3.內容傳播
4.信念形成
說明性的緩解措施
1.1 人工智能開發人員建立對事實更敏感的模型
1.2 開發人員傳播擴散性數據,使生成模型可被檢測到
1.3 對數據收集施加限制
1.4 對人工智能硬件實施訪問控制
2.1 人工智能供應商對語言模型實施更嚴格的使用限制
2.2 人工智能開發者圍繞模型發布制定新規范
3.1 平臺和人工智能供應商協調識別人工智能內容
3.2 平臺要求發布"個人身份證明"
3.3 依賴公眾意見的實體采取措施減少誤導性人工智能內容的風險
3.4 數字出處標準得到廣泛采用
4.1 機構參與媒體掃盲運動
4.2 開發人員提供以消費者為中心的人工智能工具
上表表明,沒有什么靈丹妙藥能徹底消除影響力行動中語言模型的威脅。一些緩解措施可能在社會上不可行,而另一些則需要技術突破。還有一些可能會帶來不可接受的負面風險。相反,要有效減輕威脅,很可能需要一種結合多種緩解措施的全社會方法。
此外,有效的管理還需要不同機構之間的合作,如人工智能開發者、社交媒體公司和政府機構。只有這些機構通力合作,許多建議的緩解措施才能產生有意義的影響。除非社交媒體公司能與人工智能開發人員合作,將文本歸屬于某個模型,否則他們很難知道某個虛假信息活動是否使用了語言模型。最激進的緩解措施--比如在互聯網協議中加入內容出處標準--需要極度的協調,如果它們是可取的話。
也許最重要的是,強調的緩解措施需要更多的開發、審查和研究。對其有效性和穩健性的評估值得認真分析。
圖 4:人工智能賦能的影響力行動的干預階段。為了阻止宣傳者利用語言模型實施影響力行動,可針對以下四個階段采取緩解措施:(1) 模型設計與構建;(2) 模型獲取;(3) 內容傳播;(4) 信念形成。最終,在這些階段進行干預可減輕影響行動的直接和間接影響。
大型語言模型(LLMs)由于其在語言理解和生成方面的卓越能力,正在成為現代通信網絡不可或缺的一部分。在這些網絡的背景下,由于經常需要使用第三方數據和計算資源,后門攻擊的風險變得非常重要。這樣的策略可能會使網絡中的模型暴露于惡意操縱的訓練數據和處理中,為攻擊者提供了一個機會,將一個隱藏的后門嵌入到模型中,這被稱為后門攻擊。LLMs中的后門攻擊是指在LLMs中嵌入一個隱藏的后門,使模型在良性樣本上正常執行,但在被毒害的樣本上表現下降。在通信網絡中,可靠性和安全性至關重要,這一問題尤為令人擔憂。盡管關于后門攻擊有大量的研究,但在通信網絡中使用的LLMs的背景下,仍缺乏深入的探索,而且目前還沒有關于這種攻擊的系統性綜述。在這次調查中,我們系統地提出了一個LLMs在通信網絡中使用的后門攻擊的分類法,將其分為四個主要類別:輸入觸發、提示觸發、指令觸發和演示觸發攻擊。此外,我們對網絡領域內的基準數據集進行了全面分析。最后,我們確定了潛在的問題和尚未解決的挑戰,為未來增強通信網絡中LLMs的安全性和完整性的研究方向提供了有價值的見解。
//www.zhuanzhi.ai/paper/5a5536928883a6ab3c18866ceeeac87f
大型語言模型(LLMs,或稱為類固醇版的N-gram模型),最初是為了通過在前面一串詞的上下文中反復預測下一個詞而進行訓練的,現在已經吸引了人工智能(以及全世界)社區的關注。部分原因在于它們能夠對幾乎所有人類知識領域的提示生成有意義的完成句。這種極度的多功能性也引發了一種說法,即這些預測性文本補全系統可能具有抽象推理和規劃的能力。在這個教程中,我們將對LLMs在規劃任務中的能力進行深入探討,無論是在自主模式還是在輔助模式中。我們特別感興趣的是,在廣泛研究的AI規劃社區的問題和框架的背景下,描述這些能力(如果有的話)。
本教程將指出LLMs在生成通常需要解決子目標交互的組合搜索的計劃時的基本限制,并展示LLMs作為AI規劃社區開發的健全規劃者的補充技術的實際應用。除了介紹我們在這個領域的工作,我們還提供了許多相關工作的批判性調查,包括來自規劃社區以外的研究者的工作。
這個教程預計將涵蓋的主題包括:大型語言模型的背景,以及LLM的使用模式,包括提示技術 在規劃中區分使用變換器架構與預訓練的LLM的方法 提及Word2vec以規劃,決策變換器,我們正在進行的使用GPT2進行微調,學習驗證器的工作 LLM與規劃 - 自主模式 用自然語言或直接的PDDL進行提示;微調的效果;思維鏈提示等 LLM作為規劃的啟發式/想法生成器 與基于案例和輕量級規劃的連接 通過提示LLM進行搜索 自動化與人工驅動的提示(以及后者的聰明漢斯問題) LLM作為模型獲取技術 LLM作為支持各種類型規劃的工具 不完全指定(高度分離)的目標;HTN規劃;“廣義規劃” 在強化學習環境中使用LLM(以獲得獎勵,偏好)
人工智能解決方案在陸軍野戰應用中的使用將在很大程度上依賴于機器學習(ML)算法。當前的ML算法需要大量與任務相關的訓練數據,以使其在目標和活動識別以及高級決策等任務中表現出色。戰場數據源可能是異構的,包含多種傳感模式。目前用于訓練ML方法的開源數據集在內容和傳感模式方面都不能充分反映陸軍感興趣的場景和情況。目前正在推動使用合成數據來彌補與未來軍事多域作戰相關的真實世界訓練數據的不足。然而,目前還沒有系統的合成數據生成方法,能夠在一定程度上保證在此類數據上訓練的ML技術能夠改善真實世界的性能。與人工生成人類認為逼真的語音或圖像相比,本文為ML生成有效合成數據提出了更深層次的問題。
人工智能(AI)是美國國防現代化的優先事項。美國國防部的人工智能戰略指示該部門加快采用人工智能并創建一支適合時代的部隊。因此,它自然也是陸軍現代化的優先事項。從陸軍多域作戰(MDO)的角度來看,人工智能是解決問題的重要因素,而MDO是建立在與對手交戰的分層對峙基礎上的。雖然人工智能本身沒有一個簡明和普遍接受的定義,但國防部人工智能戰略文件將其稱為 "機器執行通常需要人類智能的任務的能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的智能軟件"。這句話的意思是,當機器在沒有人類幫助的情況下獨立完成這些任務時,它就表現出了智能。過去十年中出現的人工智能解決方案的一個重要方面是,它們絕大多數都符合模式識別模式;在大多數情況下,它們根據經過訓練的人工神經網絡(ANN)對相同輸入數據的輸出結果,將輸入數據分配到數據類別中。具體來說,深度學習神經網絡(DNN)由多層人工神經元和連接權重組成,最初在已知類別的大量數據上進行訓練以確定權重,然后用于對應用中的實際輸入數據進行分類。因此,機器學習(ML),即自動機(這里指DNN)在訓練階段學習模式的過程,一直是一個主導主題。事實上,DNN在計算機視覺領域的成功是商業和政府部門加大對人工智能關注和投資的原因。訓練算法和軟件開發工具(如tensorflow)的進步、圖形處理器(GPU)等計算能力的可用性,以及通過社交媒體等途徑獲取大量數據,使得深度學習模型在許多應用中得到了快速探索。
在監督學習中,人類專家創建一組樣本來訓練ML算法,訓練數據與實際應用數據的接近程度對人工智能方法的性能起著重要作用。將ML模型應用于軍事問題的主要瓶頸是缺乏足夠數量的代表性數據來訓練這些模型。有人提出使用合成數據作為一種變通辦法。合成數據集具有某些優勢:
然而,最關鍵的問題是在合成數據或混合合成和真實數據上訓練ML模型是否能使這些模型在真實數據上表現良好。美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員和合作者使用合成生成的人類視頻進行機器人手勢識別所獲得的初步結果表明,在合成數據和真實數據混合的基礎上進行訓練可以提高ML手勢識別器的性能。然而,并沒有普遍或分類的結果表明,當全部或部分使用合成數據進行訓練時,真實世界的ML性能會得到一致的提高。因此,有必要進行系統調查,以確定使用合成數據訓練ML方法的可信度。我們有理由假設,合成數據在提高ML性能方面的有效性將受到實際應用領域、合成數據與真實數據的保真度、訓練機制以及ML方法本身等因素的影響。合成數據與真實數據的保真度反過來又取決于數據合成方法,并提出了通過適當指標評估保真度的問題。以圖像為例,合成數據訓練的ML方法的性能與人類視覺感知的真實場景的保真度是否成正比并不清楚。有可能數據的一些關鍵特征對于ML的性能比那些影響人類感知的特征更為重要。組織這次陸軍科學規劃和戰略會議(ASPSM)的一個主要目的是讓合成數據生成、人工智能和機器學習(AI & ML)以及人類感知方面的頂尖學術界和國防部專家討論這些問題。會議的技術重點主要是圖像和視頻數據,反映了組織者在計算機視覺和場景感知方面的任務領域。
根據上一節提出的問題,會議圍繞三個主題展開:
1.人類的學習和概括: 人類可以從最小的抽象和描述概括到復雜的對象。例如,在許多情況下,觀察一個物體的卡通圖像或線描,就足以讓人類在真實場景中識別出實際的三維物體,盡管后者比卡通圖像或線描具有更復雜的屬性。 這遠遠超出了當前人工智能和ML系統的能力。如果能夠開發出這種能力,將大大減輕數據合成機器的負擔,確保真實數據的所有屬性都嚴格保真。這個例子也說明了一個事實,即用于訓練ML模型的合成數據生成研究與提高ML模型本身的能力密切相關。因此,這項研究的重點是探索人類和動物的學習,以啟發ML和數據合成的新方法。
2.數據合成方法和驗證: 大多數應用ML方法的領域都有針對其領域的數據合成技術和工具。游戲平臺提供了一個流行的視頻合成商業范例。問題是如何評估特定領域中不同合成方法的性能。顯然,我們必須確定執行此類評估的指標或標準。通常情況下,合成工具的作者也會就工具的性能或功效發表聲明。驗證將是評估此類聲明的過程。本研究的目的是探討指導合成和驗證過程的原則。合成技術的例子包括基于計算機圖形的渲染器(如電影中使用的)、基于物理的模擬(如紅外圖像)和生成模型(目前傾向于基于神經網絡)。
3.領域適應挑戰: ML中的領域適應是指使用一個領域(稱為源領域)的數據訓練ML模型,然后將ML應用于不同但相關領域(稱為目標領域)的數據。例如,使用主要為民用車輛的源圖像數據集訓練識別車輛的ML算法,然后使用訓練好的算法識別主要為軍用車輛的目標數據集中的車輛。在使用合成數據進行訓練時,它們通常構成源域,而實際應用數據則是目標域。本次會議的重點是確定和討論有效領域適應中的關鍵問題和挑戰。
ASPSM的審議分四次會議進行。第一天的兩場會議討論了前兩個主題。第二天的第一場會議討論第三個主題,第二場會議在三個主題下進行分組討論。ASPSM兩天的日程安排分別如圖1和圖2所示。從圖中可以看出,每個主題會議首先由該領域的學術專家進行40分鐘的主講,然后由大學專家進行兩個20分鐘的講座。隨后由來自學術界和國防部的專家組成的小組進行討論。最后一個環節是分組討論,與會者可以討論與主題相關的各個方面。
麻省理工學院電子工程與計算機科學系的Antonio Torralba教授在第一分會場發表了關于人類學習與泛化的主題演講。他的演講題目是 "從視覺、觸覺和聽覺中學習",深入探討了深度學習方法如何在不使用大量標注訓練數據的情況下發現有意義的場景表征。舉例說明了他們的DNN如何在視覺場景和環境中的聲音之間建立聯系。讀者可參閱Aytar等人關于這一主題的代表性文章。
同樣來自麻省理工學院的James DiCarlo博士的下一個演講題目是 "視覺智能逆向工程"。他將 "逆向工程 "定義為根據對行為的觀察和對輸入的反應推斷大腦的內部過程,將 "正向工程 "定義為創建ANN模型,以便在相同輸入的情況下產生相應的行為。他的研究小組的一個目標是建立神經認知任務的性能基準,人類或其他靈長類動物以及ML模型可以同時達到這些基準。他的演講展示了大腦處理模型如何適應ANN實現的初步結果,并提出了ANN通過結合這些適應密切模擬人類行為,進而準確描述大腦功能的理由。
第一場會議的第三場講座由加州大學伯克利分校的Jitendra Malik教授主講,題為 "圖靈的嬰兒"。這個題目也許是指最早的電子存儲程序計算機之一,綽號 "寶貝",其創造者之一受到了阿蘭-圖靈的啟發。馬利克教授首先引用了圖靈的觀點:與其創建一個模擬成人思維的程序,不如從模擬兒童思維開始。從本質上講,這意味著創造一種人工智能,通過與環境互動以及向其他人工智能和人類學習來學習和成長。這被稱為具身機器智能。馬利克教授認為,監督學習本質上是處理靜態數據集,因此顯示了在精心策劃的時間點上運行的非實體智能。具體而言,他認為監督訓練方法不適合創建能夠提供人類水平的世界理解,特別是人類行為理解的人工智能。Malik教授介紹了 "Habitat",這是一個由他和他的合作者開發的平臺,用于嵌入式人工智能的研究。在隨后的小組討論中,與會人員討論了演講者所涉及的主題,以及與機器人學習和當前兒童智力發展模型相關的主題。
第二部分“數據合成:方法和驗證”以一個題為“學習生成還是生成學習?”,作者是斯坦福大學的Leonidas gu教授。在研究用于訓練ML的合成數據生成的動機中,他指出可以減輕大量人工注釋訓練數據的負擔。他的前提是,無論合成數據是用于訓練ML還是供人類使用,其生成效率和真實性都非常重要。不過,他表示其他質量指標還沒有得到很好的定義,需要進一步研究。他舉例說明了在混合合成數據和真實數據上訓練ML時,ML的物體識別性能有所提高,但他也承認很難得出可推廣的結論。
卡內基梅隆大學的Jessica Hodgins博士發表了第二場會議的第二個演講,題為 "生成和使用合成數據進行訓練"。演講展示了她的研究小組生成的精細合成場景。利用從真實場景到合成場景的風格轉移過程,她的研究小組創造了一些實例,說明在混合了大量風格適應的合成數據和一些真實數據的基礎上進行訓練的ML方法的性能優于僅在真實數據集或僅在合成數據集上進行訓練的方法。性能提高的原因在于風格轉移克服了合成數據集與真實數據集之間的 "分布差距"。
第二場會議的最后一場講座由加州大學伯克利分校的Trevor Darrell教授主講。他的演講題為 "生成、增強和調整復雜場景",分為三個部分。第一部分詳細介紹了演講者及其核心研究人員開發的一種名為 "語義瓶頸場景生成 "的技術,用于根據地面實況標簽合成場景。該技術可進一步與通過生成過程生成此類地面標簽的模型相結合。Azadi等人對該技術進行了詳細描述。 第二部分涉及增強和自我監督學習。發言人提出,當前的對比學習方法在合成增強數據時建立了不變量,而這些不變量可能是有益的,也可能是無益的。例如,建立旋轉不變性可能有利于識別場景中的花朵,但可能會阻礙對特定方向物體的有效識別。演講者介紹了他的研究小組考慮具有特定不變性的多種學習路徑的方法,并展示了與現有技術相比性能有所提高的結果。 第三部分介紹了一種名為 "Tent"(測試熵)的技術。其前提是DNN應用過程中遇到的數據分布可能與訓練數據不同,從而導致性能下降。因此,需要對DNN參數進行實時或測試時調整,以防止性能下降。Tent技術通過調整權重使DNN輸出的測量熵最小化來實現這一目標。演講者隨后用常用數據集展示了該技術相對于先前方法的改進性能。隨后的小組討論涉及合成方面的挑戰,尤其是紅外圖像方面的挑戰。
第二天的第三場會議以 "領域轉移的挑戰 "開始。約翰霍普金斯大學布隆伯格特聘教授Rama Chellappa博士發表了題為 "解決美國防部實際問題的綜合數據期望與最大化"的演講。演講首先回顧了過去二十年來國防部處理合成圖像的多個項目的歷史。他提出了一個重要論斷,即如果在合成過程中考慮到真實數據的物理特性,那么真實數據和合成數據之間的領域轉換就會減少。Chellappa教授還就領域自適應表示法提供了快速教程,涵蓋了正規數學方法以及較新的生成對抗網絡(GANs)。演講者及其核心研究人員開發的基于GAN的方法可以修改合成數據的分布,使之與目標分布相匹配。講座舉例說明了這種方法優于之前的非GAN方法。
佐治亞理工學院的Judy Hoffman教授發表了題為 "從多個數據源進行泛化的挑戰 "的演講。她考慮的問題是在模擬中學習模型,然后將模型應用于現實世界。她指出了四個挑戰: 生成、列舉、泛化和適應。發言人介紹了應對這些挑戰的幾種不同方法。具體來說,用于泛化的特定領域掩碼(DMG)方法通過平衡特定領域和領域不變特征表征來生成一個能夠提供有效領域泛化的單一模型,從而解決多源領域學習問題。
第三場會議的第三位也是最后一位演講者是波士頓大學的Kate Saenko教授,他的演講題目是 "圖像分類和分割的Sim2Real領域轉移的最新進展和挑戰"。Saenko教授延續了前兩場講座的主題,介紹了視覺領域適應的歷史,并探討了領域和數據集偏差問題。在糾正數據集偏差的不同方法中,講座詳細討論了領域適應。特別重要的是,Saenko教授及其合作者開發的技術能夠顯示合成到真實的適應性,就像從游戲引擎到真實數據一樣。隨后的小組討論提出了幾個有趣的問題,包括訓練域和測試域的不同,不是感興趣的對象不同,而是對象所處的環境不同,例如訓練時軍用車輛在沙漠環境中,而測試時則在熱帶植被背景中。
三個主題的分組討論同時進行。在 "人類學習與泛化 "分組討論中,首先討論了 "人類如何學習?"、"ML模型如何模仿人類過程?"以及 "合成數據如何實現這些過程?"等問題。從童年到青春期和成年期,學習和成長之間的關系成為關鍵點。其他被認為有助于人類學習的因素包括人類心理、情感、同時參與多維活動、記憶以及解除學習的能力。
關于 "數據綜合: 方法與驗證 "分論壇確定了數據合成的幾個問題,特別是圖像和視頻。主要問題涉及結合物理學的有用性、視覺外觀保真度與成本之間的權衡、保真度的衡量標準、保真度本身的重要性以及當前技術(包括GANs技術)的局限性。據觀察,合成圖像和視頻生成至少已有幾十年的歷史,但大多數產品要么是為視覺效果而設計,要么是為再現物理測量而設計(例如,紅外模擬中的輻射剖面)。它們并不適合用于ML培訓。提出的另一個問題是,合成的二維圖像必須與物體和環境的底層三維幾何圖形保持一致。還有人提出,能夠在特定的感興趣的環境中生成大量合成數據,可以作為第一道工序測試新的人工智能和ML方法,而不管這些方法是否能夠在真實數據中很好地工作。
專題3 "領域轉移挑戰 "的分組討論確定了MDO所需的關鍵人工智能能力,即從孤立學習到機器與人類之間的聯合或協作學習。會議還討論了在多種數據模式下同時訓練ML的聯合學習。人們認識到,這些領域的工作才剛剛開始。分組討論的牽頭人強調,需要向士兵明確說明基于人工智能的系統在特定情況下將會做什么。這引發了對系統魯棒性的討論。分組組長向ASPSM聽眾提供了討論摘要。
根據本次ASPSM的討論,我們確定了以下值得陸軍進一步進行科技投資的領域:
1.支持多模式互動學習的合成技術和數據集。與當前流行的捕捉 "時間瞬間 "的靜態數據集(如農村環境中的車輛圖像)相比,有必要開發更能代表支持持續學習的體現性體驗的模擬器,就像我們在人類身上看到的那樣,并實現對世界更豐富的表征。混合方法(如增強現實)也可將人類監督的優勢與合成環境的靈活性結合起來。
2.學習和合成因果關系和層次關系的算法和架構。最近的一些方法,如基于圖的卷積神經網絡,已經在學習空間和時間的層次關系(如物體-部件和因果關系)方面顯示出前景。鑒于在現實世界中收集和注釋此類數據的復雜性,合成數據的生成可能特別有用。識別層次關系是一般國防部和戰場情報分析的關鍵要素。
3.支持持續、增量、多模態學習的算法和架構。深度強化學習方法被成功地用于訓練虛擬或機器人代理的相關行動策略,如捕食者與獵物之間的相互作用。基于模仿的方法承認學習的社會性,通常讓代理與(通常是人類)教師合作學習新策略。這些類型的交互式持續學習可進一步與多模態學習(即融合來自多個傳感器的數據)相結合,以實現更豐富的世界表征,使其更穩健、更具通用性。同樣,在這一領域難以獲得大量經過整理的數據,這也為探索合成引擎提供了動力。
4.學習物理或具備相關物理領域知識的算法和架構。在許多領域(例如紅外光下的物體感知),從圖像感知和合成圖像需要了解世界的基本物理特性,例如光與材料之間的相互作用。然而,當前的深度學習模型缺乏這種物理知識。開發賦予ML物理領域知識的技術對這些系統的性能至關重要。
5.具有豐富中間表征的領域適應技術。為了縮小真實數據和合成數據之間的領域差距,必須進一步推動當前建立領域不變中間表征的趨勢,特別是使用語義詞典和生成式對抗網絡。能夠理解數據底層結構(如光照、旋轉、顏色)的表征更有可能成功抽象出合成數據中不重要的細節。
6.深入了解ML模型內部表征的方法,以及合成表征與真實表征的比較。網絡剖析技術 "打開 "了深度學習模型的隱藏層,允許解釋網絡中的每個階段正在學習哪些特定概念或其更細的方面。這些技術揭示了具有真實輸入和合成輸入的DNN的內部表征,有助于識別所學內容的關鍵差異,從而找到克服這些差異的解決方案。
為期兩天的虛擬ASPSM吸引了眾多美國防部科學家和工程師、頂尖學術專家以及科技項目管理人員的熱情參與。多學科的討論強化了這樣一種觀點,即開發用于訓練ML方法的生成合成數據的改進方法與理解和改進ML方法本身是分不開的。一個特別重要的需求是了解ML方法,尤其是當前的學習架構,是如何創建場景的內部表示的。另外兩個重要領域是:1)理解人類學習與ML世界中可能存在的學習之間的異同;2)多模態數據--從合成和ML的角度。我們預計近期國防部和學術研究人員將在本報告確定的領域加強合作。
預訓練語言模型已經成為大多數自然語言處理任務的事實范式。這也有利于生物醫學領域:來自信息學、醫學和計算機科學界的研究人員提出了各種在生物醫學數據集上訓練的預訓練模型,如生物醫學文本、電子健康記錄、蛋白質和DNA序列,用于各種生物醫學任務。然而,生物醫學預訓練的跨學科特點阻礙了它們在社區中的傳播,一些現有的工作是相互孤立的,沒有全面的比較和討論。需要系統地回顧生物醫學預訓練模型的最新進展和它們的應用,而且規范術語和基準。本文總結了預訓練語言模型在生物醫學領域的最新進展以及它們在生物醫學下游任務中的應用。特別是,本文討論了動機,并提出了現有生物醫學預訓練的分類法。本文詳盡地討論了它們在生物醫學下游任務中的應用。最后,本文說明了各種局限性和未來的趨勢,希望這能為研究界的未來研究提供靈感。
在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。