亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs),如ChatGPT,由于其非凡的對話技巧和智能,在過去幾年中迅速滲透到人們的工作和日常生活中。ChatGPT已成為人類歷史上用戶數量增長最快的軟件,并成為下一代人工智能應用的重要基礎模型。然而,LLMs的生成并非完全可靠,它們經常產生包含事實錯誤、偏見和毒性的內容。鑒于其龐大的用戶數量和廣泛的應用場景,這些不可靠的響應可能會導致許多嚴重的負面影響。本文介紹了我博士研究期間在語言模型可靠性領域的探索性工作,從自動化軟件測試和自然語言處理的角度研究LLMs的正確性、無毒性和公平性。 首先,為了衡量LLMs的正確性,我們提出兩個新的測試框架:FactChecker和LogicAsker,分別用于評估事實知識和邏輯推理的準確性。FactChecker通過從大規模知識庫中檢索事實三元組來構建知識圖譜,然后根據知識圖譜生成各種類型的問題以及預期答案,用來作為測試用例。LogicAsker是一個最小功能測試框架,它首先通過收集邏輯學中的所有基本原理和定律來構建原子技能集合,然后通過將標準邏輯表達式轉換為自然語言來生成推理問題作為測試用例。我們的測試框架可以自動且全面地生成測試用例,并有效地揭示最先進的LLMs(如ChatGPT和LLaMa)的失敗之處。此外,我們還證明了生成的測試用例可以提高LLM的事實正確性和邏輯推理能力。 其次,針對LLMs的無毒性,我們介紹了兩項針對LLMs的紅隊測試工作。首先,我們發現LLMs的保護措施——文本內容審核軟件,在面對用戶有意的擾動時不夠穩健,無法通過審核。我們引入了MTTM,一個用于文本內容審核軟件的蛻變測試框架,其蛻變關系是有毒句子在經過語義保留的擾動后仍應被識別為有毒。實驗結果表明,MTTM可以發現商業內容審核軟件中的錯誤,并提高其可靠性。其次,我們發現所有先前的安全基準以及對齊都僅限于一種語言,例如英語。我們建立了第一個用于LLMs的多語言安全基準XSafety,涵蓋了十種語言中14個常見的安全問題,這些語言跨越了幾個語系,并發現所有LLMs對非英語查詢產生的不安全響應明顯多于英語查詢。此外,我們提出了一種簡單有效的提示方法,通過增強安全對齊的跨語言泛化來提高LLM的多語言安全性。 第三,為了評估LLMs的公平性,我們提出了兩個評估框架BiasAsker和XCulturalBench,分別用于衡量LLMs的社會偏見和文化偏見。我們首先介紹BiasAsker,一個用于識別和衡量對話式AI系統中社會偏見的自動化框架。BiasAsker可以生成不同類型的問題來從5,021個有偏見的屬性角度衡量對841個群體的偏見態度。在10個商業系統和模型上的實驗表明了BiasAsker的有效性。然后,我們確定了LLMs中存在的文化偏見問題,這是由于模型訓練和對齊中主要使用英語數據所致,并引入了XCulturalBench,一個多語言文化相關基準,包含具體(例如節日和歌曲)和抽象(例如價值觀和觀點)的文化對象。實證結果表明,具有代表性的GPT模型存在嚴重的文化偏見問題。我們還表明,在模型開發和部署中采用兩種直接的方法可以顯著緩解LLMs中的文化偏見問題。

付費5元查看完整內容

相關內容

Transformer 模型的崛起顯著推動了機器學習模型的發展。大規模語言模型(LLMs)通過對海量數據進行訓練,并依托強大的計算資源,統一了傳統的自然語言處理(NLP)范式,能夠通過將多種下游任務整合到生成工作流中,來有效處理這些任務。在現實世界的影響方面,LLMs 已經徹底改變了研究人員、開發人員和用戶的可訪問性和可用性。此外,LLMs 極大地降低了人工智能的應用門檻,為應用程序和用戶提供了預訓練的語言理解與指令跟隨能力。因此,強大的 LLMs 為各個領域帶來了新的可能性,包括智能體、智能助手、聊天機器人和搜索引擎。然而,這些模型的廣泛可用性和可訪問性也帶來了潛在的風險,包括惡意使用和隱私問題。使 LLMs 具有價值的自由生成工作流也可能被濫用,從而危及隱私或用于有害目的。盡管已經做出了大量努力以提升 LLMs 的可信度,解決其安全性和隱私問題,但新型攻擊經常被提出,旨在繞過現有的防御機制,并將 LLMs 用于惡意用途。因此,針對 LLMs 的可信度,惡意攻擊者和防御者之間存在持續的博弈,許多重大挑戰仍未被發現。為了全面研究 LLMs 的可信度問題,我們識別了新型的攻擊,集中于信息泄露問題,改進了防御機制以應對各種攻擊,并通過實證評估攻擊在有無防御的情況下的效果。對于已識別的攻擊,我們重點關注向量數據庫中的信息泄露問題,研究嵌入的隱私泄露。除了嵌入信息泄露外,我們還演示了如何通過越獄提示詞攻擊 LLMs,進而恢復私密的訓練數據。在討論了攻擊后,我們提出了新的防御方法,以防止嵌入中的信息泄露。最后,我們實現了一個基準測試,用于實證評估攻擊在有無防御情況下的表現。我們進行了大量實驗,以驗證我們發現的攻擊與防御的有效性。我們的評估基準結果揭示了攻擊假設與防御假設之間未曾察覺的差距。

預訓練語言模型(LMs)基于 Transformer 架構,標志著自然語言處理(NLP)領域變革時代的開始。通過在特定任務數據上微調預訓練的 LMs,可以在廣泛的任務上實現無與倫比的性能[98]。目前,生成式大規模語言模型(LLMs)通過將多種自然語言處理任務整合到一個全面的文本生成框架中,展現了卓越的能力。這些 LLMs,包括 OpenAI 的 GPT-4 [112]、Anthropic 的 Claude 3 和 Meta 的 Llama 3 [3],在理解和生成自然語言方面展現了最先進的表現。因此,盡管沒有額外的微調,這些 LLMs 在預定義任務和現實世界挑戰中依然占據主導地位[129, 33, 12, 112, 113, 68, 21]。除了生成可讀文本,LLMs 還能夠自動化許多跨領域的任務,使其成為編程和藝術設計等應用中不可或缺的工具。此外,LLMs 展現了令人印象深刻的泛化能力,能夠處理未見過的任務。在適當的指令(提示)和示范下,LLMs 甚至能夠理解特定的上下文或處理新任務,而無需進一步的微調[30, 200, 75, 169, 134]。因此,將 LLMs 融入各種應用場景,從科學研究到智能助手,具有廣闊的前景。然而,LLMs 的開放式生成也帶來了內容安全和數據隱私方面的固有脆弱性。在內容安全方面,惡意攻擊者可能會操控 LLMs 的指令,使其輸出有害的響應。提示注入攻擊[160, 121, 97, 144, 96, 52]和越獄攻擊[84, 36, 141, 167]能夠引導 LLMs 輸出攻擊者希望的任何內容。在數據隱私方面,LLMs 可能會泄露其敏感的訓練數據。在提高性能的背后,LLMs 以巨大的模型規模吞噬了海量的訓練數據。即便是 API 級別訪問 LLMs,也可能導致個人身份信息(PII)的意外泄露[84, 99, 60, 19, 202, 163]。安全性和隱私風險引發了廣泛的討論和批評,關于如何合理使用人工智能的議題已成為焦點。作為回應,政府已更新或提出新的關于生成式人工智能的法規。這些新法規,如《歐盟人工智能法案》、通用數據保護條例(GDPR)和《加利福尼亞消費者隱私法案(CCPA)》都強調了人工智能模型的合理使用,以實現社會公益。盡管存在風險,將多種應用整合到 LLMs 中已成為日益增長的趨勢。這些整合賦予 LLMs 有效解決數學問題的工具(如 ChatGPT + Wolfram Alpha)、解釋格式化文件的能力(如 ChatPDF),并通過使用搜索引擎響應用戶查詢以減少幻覺(如新 Bing)。然而,當 LLMs 與外部工具(如搜索引擎)結合時,領域特定的隱私和安全風險也隨之而來。例如,正如[84]中討論的,惡意攻擊者可能會利用新 Bing 將受害者的個人身份信息(PII)與部分數據關聯起來。因此,LLMs 中存在的完整安全性和隱私問題仍然不明確。本論文的最終目標是提升 LLMs 在內容安全和數據隱私方面的可信度。因此,本文的重點集中在以下幾個方面的攻擊、防御和評估:

  1. 我們提出了新類型的攻擊,包括向量數據庫嵌入中的信息泄露和通過越獄提取訓練數據的攻擊。
  2. 我們升級了現有的防御機制,以防止信息泄露問題。
  3. 我們通過實證方法評估現有攻擊在有無防御機制情況下的性能,并討論它們的權衡和局限性。
付費5元查看完整內容

視覺生成模型,尤其是擴散模型,在高質量視覺生成方面展示了令人驚嘆的性能,越來越受到學術界和工業界的關注。代表性模型或工具,如DALLE-3 [1] 和 MidJourney,已經廣泛應用于日常生活,幫助創作藝術作品或圖片。然而,這些強大的工具也帶來了潛在風險,因為它們可能被惡意使用來生成并傳播不安全的內容,如色情和暴力圖片,可能導致嚴重后果。在本文中,我們討論了如何從不同方面使視覺生成模型更加可靠和可控。特別地,我們重點關注擴散模型,因為它們是目前最廣泛使用的視覺生成模型。 首先,我們揭示了擴散模型中存在的潛在風險,表明在訓練過程中,它們可能容易被插入(惡意的)隱形后門,這可能導致不可靠和有害的行為。為此,我們提出了一種新的雙層優化框架來表述訓練過程,可以通過提出的不同算法實例化,分別用于無條件和條件擴散模型。大量實驗表明,后門可以在不影響模型正常性能的情況下有效插入,從而使后門更加隱蔽和穩健。同時,我們實證發現,目前各種防御方法無法緩解提出的隱形后門,增強了該方法在實際應用中的可用性。此外,所提出的隱形后門還可以直接應用于模型水印,用于在黑盒環境中進行模型所有權驗證,進一步增強了該框架的意義。 接下來,我們重點討論文本到圖像的擴散模型的可控生成。我們介紹了MuLan,一種多模態大語言模型(Multimodal-LLM)代理,它可以根據文本提示逐步生成對象。MuLan首先將提示分解為幾個子提示,每個子提示專注于一個對象。每個對象的生成都依賴于先前生成的對象。通過一個視覺語言模型(VLM)檢查器,MuLan可以及時監控生成過程,并在每個生成階段后自適應地修正可能的錯誤。MuLan大大提升了在文本提示中對象屬性和空間關系的生成性能。通過GPT-4V [2] 和人類的評估,大量實驗表明MuLan的卓越性能。此外,我們展示了MuLan可以在生成過程中啟用人機交互,進一步增強生成過程的靈活性和效果。 //lbezone.hkust.edu.hk/bib/9903412#

付費5元查看完整內容

強化學習是一種優化決策的框架,考慮到行動的長期后果。

強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。

在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。

首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。

付費5元查看完整內容

隨著基礎模型(包括大規模視覺語言模型)的最新進展,許多研究者探討了將多模態數據作為視覺問答輸入的結合方法。在醫療領域,視覺問答的一個關鍵應用是自動化醫學報告生成,其中可能提供胸部X光圖像和患者基于文本的癥狀數據,目的是生成相關的醫學報告。然而,很少有研究分析這些模型與單模態微調的大型語言模型(LLM)的性能差異,更少有研究比較這些多模態模型在提供癥狀信息作為輸入時的表現。此外,過去的研究通常使用簡單的評估指標,如n-gram重疊(例如BLEU和ROUGE分數),這些指標對于能夠生成不同句子但具有相同語義意義的生成式基礎模型并不有效。 本文的主要貢獻有兩個。首先,我們比較了多種醫學報告生成方法在胸部X光醫學報告數據集上的表現,包括單模態微調的醫學LLM、沒有癥狀數據的多模態模型和包含癥狀數據的多模態模型。其次,我們引入了四種新的評估指標,用于評估生成醫學報告與參考醫學報告之間的相似性,分別為:單詞對、句子平均、句子對和句子對(生物)。我們的結果表明,針對醫學報告生成的多模態方法遠優于單模態方法,且提供癥狀數據略微提高了生成報告的準確性。我們還發現,我們新提出的句子對評估指標比所有之前的指標更能準確衡量生成報告與參考報告之間的相似性,這一點通過全面的定量和定性案例研究對比得到了證實。 這項研究從根本上推動了醫學報告生成的前沿,進一步增強了使用多模態模型和癥狀輸入的準確性優勢,并引入了幾種更為全面、定制化的評估生成醫學報告的評分指標。

付費5元查看完整內容

近年來,語言模型(Language Models, LMs)已被確立為大多數自然語言任務中最具能力的模型。然而,除了Transformer架構的發明,大多數進展主要依賴于模型和數據規模的擴展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。這種擴展使得這些模型在標準自然語言基準上能夠與人類水平持平甚至超越。然而,盡管這些模型版本不斷迭代,其推理能力、可解釋性和學習能力依然與人類存在差距并較為遜色。自然語言解釋(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神經網絡的語言模型(Bengio et al., 2003)的研究,部分原因是其起步較晚。此外,LMs仍然通過反向傳播進行訓練,這種方式效率較低且與人腦的工作方式根本不同。在本論文中,我展示了使語言模型在自然語言理解和生物學合理性上更具類人特征的研究進展。首先,我研究了一組測試自然語言理解的具有挑戰性的問題集,即代詞解析的難例,如Winograd模式挑戰。我特別提出了通過合成訓練數據集、專用損失函數以及任務重構對語言模型進行代詞解析訓練的改進方法。其次,我利用語言模型在常識推理任務(如代詞解析難例和常識驗證)上生成自然語言解釋。我展示了語言模型可以高效地在不同領域之間轉移自然語言解釋,同時在下游任務中獲得較高準確率。最后,我探索了基于更符合生物學原理的預測編碼訓練方法用于語言模型的訓練,這種方法可能成為超越反向傳播的深度學習未來方向(Millidge et al., 2022)。我展示了這些方法在語言模型訓練中的首次應用,研究了其最佳實現方式、可擴展性,并確定了最佳使用方法,展示了在小型語言模型中與反向傳播具有競爭力的結果。

付費5元查看完整內容

大型語言模型(LLMs),如ChatGPT,憑借其出色的對話能力和智能性,在過去幾年中迅速滲透到人們的工作和日常生活中。ChatGPT已經成為人類歷史上用戶增長最快的軟件,并成為下一代人工智能應用的重要基礎模型。然而,LLMs的生成內容并非完全可靠,它們經常產生包含事實錯誤、偏見和有害性的內容。鑒于其龐大的用戶群體和廣泛的應用場景,這些不可靠的回應可能帶來許多嚴重的負面影響。本文介紹了我在博士研究期間對語言模型可靠性領域的探索性工作,從自動化軟件測試和自然語言處理的角度研究LLMs的準確性、無害性和公平性。首先,為了衡量LLMs的準確性,我們提出了兩個新的測試框架:FactChecker和LogicAsker,分別用于評估事實知識和邏輯推理的準確性。FactChecker通過從大規模知識庫中檢索事實三元組來構建知識圖譜,進而生成各種類型的問題及預期答案,作為測試用例。LogicAsker是一個最小功能測試框架,它通過收集邏輯學中的所有基本原理和定律來構建原子技能集,并將標準的邏輯表達式轉換為自然語言生成推理問題作為測試用例。我們的測試框架可以自動且全面地生成測試用例,并有效揭示最先進的LLMs(如ChatGPT和LLaMa)的缺陷。此外,我們證明了生成的測試用例可以提高LLMs的事實準確性和邏輯推理能力。其次,針對LLMs的無害性,我們介紹了兩項針對LLMs的紅隊測試工作。首先,我們發現LLMs的文本內容審查機制在面對用戶故意擾亂時不夠健全,難以通過審查。為此,我們引入了MTTM,一個用于文本內容審查軟件的變異測試框架,其變異關系是有害句子在經過語義保持的擾動后仍應被識別為有害。實驗結果表明,MTTM可以發現商業內容審查軟件中的漏洞,并提高其可靠性。其次,我們發現現有的安全基準和對齊工作通常僅限于一種語言,如英語。為此,我們建立了第一個多語言安全基準XSafety,涵蓋了10種語言中14個常見的安全問題,跨越了多個語系,并發現所有LLMs在處理非英語查詢時產生的不安全響應顯著多于英語查詢。此外,我們提出了一種簡單有效的提示方法,通過增強跨語言的安全對齊來提高LLMs的多語言安全性。第三,為了評估LLMs的公平性,我們提出了兩個評估框架:BiasAsker和XCulturalBench,分別用于衡量LLMs的社會偏見和文化偏見。首先,我們介紹了BiasAsker,這是一個用于識別和衡量對話式AI系統中社會偏見的自動化框架。BiasAsker可以生成不同類型的問題,從5,021個帶有偏見的屬性角度評估對841個群體的偏見態度。我們在10個商業系統和模型上的實驗表明了BiasAsker的有效性。接著,我們確定了LLMs中的文化偏見問題,主要由于模型訓練和對齊時使用了英語數據,并引入了XCulturalBench,這是一個多語言文化基準,包含具體的文化對象(如節日和歌曲)和抽象的文化對象(如價值觀和觀念)。實驗證據表明,代表性的GPT模型存在嚴重的文化偏見問題。我們還表明,在模型開發和部署中使用兩種直接方法可以顯著緩解LLMs中的文化偏見問題。

付費5元查看完整內容

優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。

付費5元查看完整內容

大型語言模型(LLMs)在幫助人們獲取信息方面越來越重要,從“世界上最大的冰蓋在哪里”這樣簡單的事實性問題到需要獲取實時信息和推理的復雜問題,如“計劃一次邁阿密的度假”。有兩種處理需要事實知識的問題的范式:參數化方法將知識存儲在LLMs的參數中,并通過提示來引出這些知識;非參數化方法將知識檢索外包給外部的非參數化數據存儲。在本論文中,我們旨在研究、比較并增強這兩種范式的能力。 由于LLMs通過在多樣的語料庫上進行預訓練,已經在其參數中積累了大量知識,因此可以在被提示提問時直接生成答案。在論文的第一部分中,我們重點關注利用LLMs參數中包含的事實性知識的參數化方法。我們首先研究通過組合從不同提示中得出的多種預測來提取更多知識的方法。然后,我們校準LLMs,使其在回答超出其知識范圍的問題時變得更加可信。我們發現,即使LLMs完全記住文檔并能夠逐字復述它們,仍然常常無法回答有關這些文檔的問題。為了增強LLMs從文檔中吸收知識的能力,我們提出了在預訓練文檔之前進行問題回答任務教學的預指令調整方法。

參數化方法提供了一個簡單的接口,但它們存在幻覺問題,并且無法訪問實時的外部信息。在論文的第二部分中,我們重點關注通過非參數化數據存儲擴展LLMs的非參數化方法,這通常由一個文檔語料庫和一個檢索器構建。標準的檢索增強生成(RAG)流程包括基于嵌入的檢索器和基于LLM的生成器,通常需要單獨的訓練程序,并且往往受限于檢索器的性能。我們引入了一種將檢索與生成融合在單個變換器中的端到端解決方案,并直接使用注意力機制進行檢索。為了解決需要詳細回答的復雜問題,我們引入了Active RAG,它在生成過程中動態和主動地檢索信息。最后,我們通過比較和調和兩種范式并提供對未來方向的見解來總結我們的研究。

付費5元查看完整內容

文本在我們的日常生活中扮演著至關重要的角色,涵蓋了各種形式,如社交媒體帖子、新聞文章、書籍、報告等。因此,自然語言處理(NLP)受到了廣泛關注。這項技術使我們能夠執行諸如文本分類、實體識別,甚至在對話上下文中生成回復等任務。然而,盡管NLP的應用非常廣泛,它經常需要做出一個關鍵決策:是否信任模型的預測。例如,一個最先進的模型被用來診斷疾病或評估謠言的真實性。在這種情況下,錯誤的預測可能會帶來嚴重的后果,影響個人的健康或損害其聲譽。因此,建立一種可靠的方法來評估NLP模型預測的可信度顯得尤為重要,這也是我們關注的重點——NLP中的不確定性估計。盡管有許多研究涉及不確定性估計或NLP,但這兩個領域的結合卻較為罕見。這是因為大多數NLP研究側重于模型預測性能,而往往忽略了NLP模型預測的可靠性。此外,當前的不確定性估計模型可能并不適用于NLP,因為NLP任務具有獨特的特點,如命名實體識別中需要更細粒度的信息。因此,本論文提出了針對不同NLP任務的不確定性估計新方法,考慮了NLP任務的獨特特點。NLP任務可以分為自然語言理解(NLU)和自然語言生成(NLG,如文本摘要)。在NLU任務中,理解可以從兩個視角進行:全局視角(如文檔級別的文本分類)和局部視角(如句子級別的自然語言推理和標記級別的命名實體識別)。因此,我們研究了三個任務的不確定性估計:文本分類、命名實體識別和文本摘要。此外,由于少樣本文本分類最近備受關注,我們還研究了少樣本文本分類中的不確定性估計。第一個主題是文本分類中的不確定性估計,少有的不確定性模型關注在人力資源參與的情況下提高文本分類的性能。為了填補這一空白,我們的研究重點是通過增強勝出分數的置信度來提高不確定性分數的準確性。我們引入了MSD,一種由三個不同組件組成的新模型:“混合增強”(mix-up)、“自集成”(self-ensembling)和“獨特性分數”(distinctiveness score)。MSD的主要目標是通過減少勝出分數的過度自信問題,同時考慮各種類別的不確定性,來優化不確定性分數的準確性。該模型可以無縫集成到不同的深度神經網絡中。我們在四個真實世界數據集上進行了廣泛的消融實驗,結果顯示出持續的競爭性改進。我們的第二個主題是少樣本文本分類中的不確定性估計(UEFTC),該領域中每個類別只有少數甚至只有一個可用的支持樣本。UEFTC代表了一個未充分研究的領域,由于數據樣本有限,UEFTC模型預測不確定性分數以評估分類錯誤的可能性。然而,傳統的文本分類不確定性估計模型不適用于UEFTC,因為它們需要大量的訓練數據,而UEFTC通常每個類別只有少量支持樣本,甚至只有一個。為了應對這一挑戰,我們提出了基于不確定性關系的對比學習(CLUR)作為UEFTC的解決方案。CLUR展示了在每個類別只有一個支持樣本的情況下有效訓練的獨特能力,通過偽不確定性分數的輔助。CLUR的一個顯著特點是其自動學習這些偽不確定性分數,與之前依賴手動指定的方法不同。我們對CLUR的四種模型結構進行了研究,評估了三種常用對比學習組件在UEFTC中的表現,結果顯示其中兩種組件的效果顯著。我們的第三個主題是序列標注中的不確定性估計。序列標注任務包括對序列中的各個標記進行標注,以命名實體識別(NER)為例。盡管先前的研究在提高NER性能方面取得了顯著進展,但NER中的不確定性估計(UE-NER)領域仍相對未知,但卻至關重要。這個主題關注UE-NER,旨在評估NER預測的不確定性分數。以往的不確定性估計模型往往忽視了NER的兩個獨特屬性:實體之間的相互關系(一個實體的嵌入學習依賴于其他實體)以及實體提取中錯誤跨度預測帶來的挑戰。為了解決這些問題,我們引入了序列標注后驗網絡(SLPN),設計用于在考慮其他標記的不確定性傳播的同時,評估提取實體的不確定性分數。此外,我們制定了一種評價方法,以應對錯誤跨度案例的具體細微差別。我們的第四個主題是關于文本摘要中不確定性估計(UE-TS)的評估可靠性的一個被忽視的問題。文本摘要是自然語言生成(NLG)的一個關鍵任務,特別是在錯誤摘要可能帶來嚴重后果的領域,如醫療保健中。由于錯誤摘要帶來的潛在風險,UE-TS引起了關注。然而,評估UE-TS方法的可靠性引發了關注,因為不確定性模型指標與廣泛的NLG指標之間存在相互依賴關系。為了解決這些問題,我們引入了一個綜合性的UE-TS基準,涵蓋了四個維度的26個NLG指標。該基準評估了兩個大型語言模型和一個預訓練語言模型在兩個數據集上的不確定性估計能力。此外,它還評估了14種常見不確定性估計方法的有效性。我們的研究強調了使用多樣的、不相關的NLG指標和不確定性估計技術以對UE-TS方法進行穩健評估的必要性。

付費5元查看完整內容

//searchworks.stanford.edu/view/14784050

盡管語言模型(LMs)在現實應用中無處不在(例如,網頁搜索,文本自動完成和內容生成),但大多數LMs并沒有針對人類用戶與LMs的交互進行優化,也沒有在這方面進行評估。為了解決這一缺口,本論文專注于設計和評估用于人機交互的LMs。我們首先關注作者在修訂過程中遇到的一個特定需求:在給定周圍環境的情況下提出內容。為了支持這種需求,我們提出了一種訓練方法,使任何預先訓練過的LMs都能完成填空任務,有助于更好地促進人機交互。其次,我們構建了一個平臺,CoAuthor,用于捕獲人機交互的交互痕跡。通過CoAuthor,我們展示了如何收集大規模交互數據集并分析這些痕跡,從而對LM在語言,思想發展和協作方面的能力提供獨特的見解。最后,我們提出了一個新的評估框架,人工智能語言交互評估(HALIE),該框架定義了交互系統的組成部分以及超越寫作任務的人機交互任務的度量標準。最后,我們討論了這個領域的開放性挑戰和未來的發展方向。

在飛速變化的環境中撰寫論文是一種特殊的嘗試。自然語言處理(NLP)領域正在經歷一個不斷變化和創新的時代,本論文旨在捕捉該領域的一個快照,并從這個不斷變化的景觀中研究一種永恒的質量:設計和評估用于人類交互的語言模型(LMs)。自我開始博士研究以來,LMs至少可以說發展迅猛。在2017年,構建LM的最常見方式是選擇一個特定任務,收集一個定制的數據集,設計一個定制的模型,并從頭開始訓練定制的模型,正如我在我第一個項目中所演示的那樣(Lee等人,2019)。到了2023年,即使沒有NLP或編程的先前知識,我們也可以通過API或簡單用戶界面對預訓練的LMs進行提示,快速“構建”并與LMs進行交互,以執行廣泛的任務,正如我在后續項目中所演示的那樣(Lee等人,2022a,b,Bommasani等人,2023)。

然而,盡管近期的語言模型(LMs)具有前所未有的能力和廣泛的應用(Radford等人,2019; Brown等人,2020; Rae等人,2021; Zhang等人,2022; Chowdhery等人,2022; Lieber等人,2021; OpenAI, 2022, 2023),但在NLP領域的大部分現有LM研究主要側重于非交互場景:給定一個輸入文本,模型生成一個輸出文本,只關注輸出的質量。在這種情況下,人類的參與要么被忽視,要么限于特定的目的或形式,如對模型輸出的人類評估(Ribeiro等人,2020; Kiela等人,2021)或像對話那樣的嚴格交互(Paranjape等人,2020; Thoppilan等人,2022; Shuster等人,2022)。幾乎所有的基準測試,即使是那些包含了多樣任務的基準測試(Gehrmann等人,2021; Hendrycks等人,2021; Liang等人,2022),也都采取了這種非交互的視角。與此相反,我的工作的中心論點是將交互置于LM設計和評估的最前沿。以問答任務為例,與其構建一個孤立運作的模型(即,將預定義的問題作為模型輸入,并將模型輸出與靜態基準中的預定義答案進行比較),我更注重交互場景。在這種場景下,用戶參與到一個迭代的過程中,寫下問題,詢問(或查詢)模型,解讀并處理模型輸出,根據輸出調整他們的問題,并隨著他們對模型的了解逐漸適應他們的策略。我在故事寫作上的工作也遵循了類似的哲學(Lee等人,2022a)。我努力開發的LM并不是可以自行生成整個故事的模型(圖1.1a),而是能夠增強和支持我們的寫作過程的模型(圖1.1b),可能通過生成部分故事來讓用戶選擇和調整。這種對LM的交互式使用與Engelbart(1962)、Skagestad(1993, 1996)、Shneiderman和Maes(1997)、Horvitz(1999)、Hassani等人(2020)、Brynjolfsson(2022)、Shneiderman(2022)的觀點相吻合,其最終目標是增強人類能力,而不是自動化它們(即,智能增強)。 對于人機交互(HCI)社區來說,近期的語言模型(LMs)為新穎的交互設計提供了令人興奮的機會。我們開始看到許多應用和原型利用LMs進行快速原型制作和設計新穎的自然語言交互(Calderwood等人,2020;Buschek等人,2021;Wang等人,2021;Chen等人,2021;Chakrabarty等人,2022;Ippolito等人,2022;Valencia等人,2023)。為了研究LMs的生成能力,HCI中最傳統的方法是情境詢問,邀請并訪問用戶(Calderwood等人,2020;Clark等人,2018b;Gero和Chilton,2019;Wu等人,2020, 2022;Yang等人,2019a)。然而,由于情境詢問的時間和資源密集性,它在捕捉LM能力的主觀解釋方面更有效,而在涵蓋多樣化的上下文方面則較為欠缺。 我的研究核心是交互跡線,即在人類用戶和LMs交互過程中展開的事件序列(圖1.1b)。這些跡線包含了各種行為,包括按鍵操作,光標移動,系統查詢,以及通過系統建議進行導航。它們包含豐富的信息,捕獲了人機交互的動態性,提供了對LMs在交互場景中能力的深入了解。例如,通過檢查用戶查詢的頻率,我們可以量化用戶對LMs的依賴程度,以及LM響應的幫助程度。此外,交互跡線還能讓我們了解用戶在與LMs交互時采取的策略,以及交互的時間屬性。最后但同樣重要的是,利用交互跡線可以覆蓋各種上下文,因為設計者可以一次性大規模捕捉人機交互,并將其重復使用并多次回放以便于分析。 我相信,通過利用這些交互跡線,NLP和HCI社區可以設計出更有針對性和以用戶為中心的LM開發和部署方法。 這篇論文包括以下章節: ? 第二章通過提供有關語言模型(LMs)、人機交互和人機交互在寫作中的設計空間的背景,為后續章節建立基礎理解。 ? 第三章深入探討了一個特定的交互環境,即寫作的修訂過程,并關注了大多數LMs無法直接解決的用戶需求。具體來說,我們提出了一種訓練方法,使LMs能夠填補空白(即,文本填充)。 ?** 第四章介紹了CoAuthor,這是一個設計用來捕捉和分析協同寫作中的人機交互的平臺**。該平臺促進了交互跡線的收集,產生了一個豐富且可以重復分析的數據集。通過使用這個數據集,我展示了如何通過檢查這些交互跡線,對LM在語言、創意和協作等方面的能力獲得無比寶貴的見解。 ? 第五章提出了一個新的評估框架,即人工智能基于語言的交互評估(HALIE),它定義了交互系統的基本組成部分,并引入了新的評估指標,用于評估人機交互超越寫作相關任務的性能。這個框架涵蓋了更廣泛的交互場景,使得可以全面理解和評估LM在各種情境下的性能。 ?** 第六章討論了人機交互領域內的開放性挑戰,以激發更深入的研究和創新**。 論文中的一部分工作已經在學術會議上發表。第三章基于Donahue等人的研究(2020),該研究在2020年的計算語言學協會(ACL)上發表。第四章基于Lee等人的材料(2022a),該材料在2022年的人機交互系統會議(CHI)上發表。第五章基于Lee等人的研究(2022b),該研究目前正在審查中。

付費5元查看完整內容
北京阿比特科技有限公司