亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

確保對齊,也就是使模型按照人類的意圖行事[1, 2],已經成為在實際應用中部署大型語言模型(LLMs)之前的關鍵任務。例如,OpenAI在發布GPT-4之前花了六個月的時間進行迭代對齊[3]。然而,實踐者面臨的一個主要挑戰是缺乏明確的指導方針,以評估LLM的輸出是否與社會規范、價值觀和法規相符。這一障礙阻礙了LLMs的系統性迭代和部署。

為了解決這個問題,本文提出了一個全面的調查,探討了評估LLM可信度時需要考慮的關鍵維度。調查涵蓋了LLM可信度的七個主要類別:可靠性、安全性、公平性、抵御誤用的能力、解釋性和推理能力、遵循社會規范以及魯棒性。每個主類別進一步細分為幾個子類別,總共有29個子類別。此外,選擇了8個子類別進行進一步研究,在幾個廣泛使用的LLMs上設計并進行了相應的測量研究。測量結果表明,總的來說,對齊度更高的模型在整體可信度方面表現得更好。然而,對齊的有效性因考慮的不同可信度類別而異。這突顯了進行更細粒度的分析、測試和不斷改進LLM對齊的重要性。

通過闡明LLM可信度的這些關鍵維度,本文旨在為該領域的實踐者提供有價值的見解和指導。理解并解決這些問題對于在各種應用中實現LLMs的可靠和倫理上的正確部署至關重要。

//www.zhuanzhi.ai/paper/0919832bf7f05ed8710edad11dcbf38f

自然語言處理(NLP)的格局隨著大型語言模型(LLMs)的出現而發生了深刻的變革。這些語言模型的特點是參數數量龐大,通常達到數十億,且在大量的數據語料庫上進行訓練[4]。近年來,LLMs的影響確實是革命性的,它們徹底改變了學術研究和各種工業應用。值得注意的是,OpenAI開發的LLMs,包括ChatGPT [5, 6],取得了卓越的成功,其中ChatGPT被認為是迄今為止增長最快的網絡平臺[7]。使當前的大型語言模型(LLMs)變得既可用又受歡迎的關鍵因素之一是對齊技術。對齊是確保LLMs按照人類的價值觀和偏好行事的過程。這一點通過LLM的發展演變和公眾反饋的整合變得明顯。

在過去,早期版本的LLMs,如GPT-3 [8],能夠生成有意義和信息豐富的文本。但是,它們存在許多問題,嚴重影響了它們的可靠性和安全性。例如,這些模型容易生成事實上不正確的文本,包含有錯覺。此外,生成的內容經常展現出偏見,進一步加強刻板印象和社會偏見。而且,LLMs傾向于生成社會上破壞性的內容,包括有毒的語言,這對它們的可靠性和實用性產生了不良影響。此外,它們容易被誤用,導致產生有害的宣傳,這對它們負責任的部署帶來了重大關切。此外,人們發現LLMs容易受到對抗性攻擊,如提示攻擊,進一步損害了它們的性能和倫理完整性。像GPT-3這樣未對齊的LLMs的這些不當行為對其可靠性和受歡迎程度產生了重大影響,尤其是當它們對公眾開放時。為了應對這些挑戰,研究人員和開發人員一直在努力改進對齊技術,使LLMs變得更可靠、更安全,并與人類價值觀更為一致。通過減輕這些問題,可以充分利用LLMs的潛在好處,同時將誤用的風險降到最低

觀察到的LLMs的不穩定行為可以歸因于許多因素。也許最重要的一個是對從互聯網收集的大型訓練語料庫的缺乏監督,這個語料庫包含了與大多數人同意的價值觀不一致的廣泛元素,包括有害內容[9, 10]、兩極化的意見[11, 12, 13]、歧視[14, 15],有時還有非法建議[16, 17]。這些問題現象從不完美的訓練數據傳播到LLMs,結果,LLMs可能被用來再現和生成不可靠的、不道德的和危險的內容。此外,單純地優化訓練和生成文本的目標函數,而不考慮人類價值觀,也是另一個原因。需要注意的是,確定LLMs問題的確切原因仍然是正在進行的研究。為了應對這些挑戰,研究人員提出對齊是朝著開發值得信賴的LLMs的關鍵步驟,確保這些模型能夠有效地為人類用戶提供建設性的好處[1, 18]。對齊的主要目標是確保LLMs生成的輸出與人類用戶的偏好一致[19]。對齊在增強LLMs方面的成功在未對齊的GPT-3和對齊版本ChatGPT的接受度之間形成了鮮明的對比。

后者達到了令人印象深刻的里程碑,在發布僅兩個月內吸引了1億用戶,使其成為歷史上增長最快的平臺。這一成就并不令人驚訝,因為對齊不僅減少了LLMs生成有害輸出的可能性,而且通過更好地遵循人類指示顯著提高了它們的可用性。通過采用對齊技術,LLMs變得更加可靠、安全,并與人類價值觀更加和諧,從而在用戶中建立更大的信任。在LLM開發中仔細整合對齊為這些強大的語言模型的更負責任和建設性的利用鋪平了道路,釋放了它們對各個領域產生積極影響和豐富人類體驗的全部潛力。圖1顯示了這樣一個例子。

然而,盡管對齊是LLMs受歡迎的核心技術,但評估這些模型中對齊的程度以及設計適當的對齊任務仍然是尚未解決的挑戰,目前沒有明確和有原則的指導可供參考。特別地,缺乏既定和統一的討論,涵蓋使LLMs值得信賴的全方位對齊。現有的文獻提出了多種對齊任務的考慮因素,其中一個值得注意的一般指導原則是“HHH" 原則[20],主張對齊應該是有幫助的、誠實的和無害的。此外,[21]中提出了一個與構建LLMs相關的風險分類,包括六個風險:(1) 歧視、排斥和有毒性,(2) 信息危害,(3) 虛假信息危害,(4) 惡意使用,(5) 人機交互危害,以及(6) 自動化、訪問和環境危害。雖然這個分類提供了相關問題的全面覆蓋,但它可以進一步解開每一個維度。

此外,像[22]這樣的現有工作已經對生成AI模型的社會影響進行了調查,包括文本、圖像、視頻和音頻等各種類型。然而,我們的重點特別是在語言模型上,探索關于LLMs的獨特關注點以及使它們值得信賴的對齊策略。此外,[23]以全面的方式評估了LLMs,包括一些值得信賴的類別,但它并沒有單獨解決可信性和對齊問題。據我們所知,一個被廣泛接受的評估LLM對齊的分類法尚未出現,目前的對齊分類法缺乏進行全面評估所需的精細度。

鑒于確保LLMs的可信度和其負責任的部署的重要性,開發一個更為健壯和詳細的對齊評估分類體系顯得至關重要。這樣的分類體系不僅會增強我們對對齊原則的理解,而且還會指導研究者和開發者創建更好地與人類價值觀和偏好對齊的LLMs。在本文中,我們提出了一個更為細致的LLM對齊要求分類體系,它不僅可以幫助從業者解開和理解對齊的維度,還為數據收集努力提供了可行的指導方針,以開發出可取的對齊過程。例如,“有害”內容的概念可以進一步細分為對個人用戶造成的傷害(如情感傷害、冒犯和歧視)、對社會造成的傷害(如創造暴力或危險行為的指導)或對利益相關者造成的傷害(如提供導致錯誤業務決策的誤導信息)。在Anthropic發布的對齊數據[18]中,存在一個在不同考慮因素之間的明顯的不平衡(附錄A的圖46)。例如,盡管“暴力”類別出現的頻率極高,“虐待兒童”和“自殘”在數據中僅僅邊緣出現。這支持了[24]中的論點——對齊技術并不能保證LLM在所有方面都能像人類一樣行事,因為對齊是強烈依賴于數據的。正如我們稍后在測量研究中所看到的(第11節),與模型所有者所聲稱的對齊程度相一致的對齊模型并沒有在所有的考慮類別中觀察到一致的改進。因此,我們有強烈的動機去構建一個框架,以更透明的方式促進LLM可信度的多目標評估。本文的目標有三個。首先,我們深入地調查了可能重要的LLMs的類別,根據我們對文獻和公眾討論的閱讀,為從業者關注以提高LLMs的可信度。其次,我們詳細解釋如何根據上述類別評估LLM的可信度,以及如何相應地構建對齊的評估數據集。此外,我們為廣泛使用的LLMs提供了測量研究,并顯示即使被廣泛認為是良好對齊的LLMs,也可能不滿足一些對齊任務的標準,從而突顯了我們對更細致的對齊評估的建議。第三,我們證明我們構建的評估數據集也可以用來執行對齊,并展示了這種更有針對性的對齊的有效性。

路線圖。本文的組織結構如下。首先,我們在第2節介紹LLMs和對齊的必要背景。然后,在第3節,我們對提議的LLMs對齊分類提供一個高層次的概述。之后,在第4-10節,我們詳細解釋每個單獨的對齊類別。在每一節中,我們針對一個被考慮的類別,為其重要性提供論據,調查文獻中存在的問題和相應的潛在解決方案(如果存在的話),并通過案例研究來說明問題。調查之后,我們在第11節提供了一個指南,介紹如何通過自動化和模板化的問題生成來實驗性地進行LLMs可信度的多目標評估。我們還展示了我們的評估數據生成過程如何轉化為對齊數據的生成器。在第11.10節,我們通過實驗展示了對LLMs進行特定類別對齊的有效性。最后,在第12節,我們通過討論潛在的機會和挑戰來總結本文。

方法概述

圖3為我們提議的LLM對齊分類提供了一個概述。我們有7個主要類別,每個類別進一步細分為更詳細的討論,總共有29個子類別。以下是每個類別的概述:

當前LLM應用

為了說明我們如何確定建議的分類法,我們首先簡要概述了圖4中LLM的當前主要應用,這在很大程度上影響了我們選擇分類法的方式。不用說,考慮到從業者持續地以驚人的速度和創新熱情構建利用LLM的商業和非商業想法,圖4中涵蓋的應用是不盡的。

我們如何確定分類法

我們通過兩個主要因素確定類別和子類別:(1)對LLM應用的影響以及(2)現有文獻。首先,我們考慮如果某個信任度類別未能滿足期望,會對多少LLM應用產生負面影響。負面影響可能包括會傷害多少用戶以及對用戶和社會造成多大的傷害。此外,我們還考慮了關于負責任的人工智能、信息安全、社會科學、人機交互、法理學文獻和道德哲學等的現有文獻。例如,我們認為可靠性是一個主要的關注點,因為幻覺目前是LLM中一個眾所周知的問題,它可以顯著損害其輸出的信任度,幾乎所有的LLM應用(可能除了創意寫作)都會受到事實錯誤答案的負面影響。而根據應用的風險有多高,它可以造成從有趣的胡言亂語到財務或法律災難的一系列傷害。遵循相同的邏輯,我們認為安全性是一個重要的話題,因為它幾乎影響到所有的應用和用戶,不安全的輸出可能會對用戶造成多種心理傷害,對平臺造成公關風險。公平性很重要,因為與普遍共享的人類道德不一致的偏見LLM可能會對用戶產生歧視,降低用戶信任,對部署者產生負面的公眾意見,并違反反歧視法。此外,抵抗誤用實際上是必要的,因為LLM可以多種多樣的方式被利用來故意傷害其他人。同樣地,可解釋性為用戶帶來了更多的透明度,與社會規范保持一致確保了LLM不會引起情感傷害,改進的魯棒性保護了模型免受惡意攻擊者的侵害。子類別下的子類別是基于它們與特定LLM能力和特定關注點的相關性進行分組的。請注意,我們并不聲稱我們的類別集涵蓋了整個LLM信任度空間。事實上,我們的策略是根據我們對文獻和公眾討論的閱讀以及我們的思考,徹底調查我們認為此刻應該解決的問題。我們開始一個接一個地描述LLM對齊分類法中的每一個類別。

結論

在本文中,我們調查了LLM在對齊方面被認為是可信的重要方面。我們提供了一個詳細的分類法,并討論了在這些維度上對齊的挑戰。我們還查閱了文獻,尋找相應的潛在解決方案(如果存在的話)。除了我們提議的分類法,我們還為選定的一組維度提供了詳細的測量研究。我們展示了如何構建一個數據集來自動化LLM對齊度量的評估。我們觀察到,更加對齊的LLM(基于公開聲明的已執行對齊信息)通常表現得更好。但在特定的主題上肯定還有改進的空間。這標志著進行更細粒度的對齊以實現更好的可信度覆蓋的重要性和好處。

付費5元查看完整內容

相關內容

大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

Transformer架構促進了大規模和通用序列模型的發展,這些模型用于自然語言處理和計算機視覺中的預測任務,例如GPT-3和Swin Transformer。雖然最初是為預測問題而設計的,但自然會詢問它們是否適用于順序決策和強化學習問題,這些問題通常受到涉及樣本效率、信用分配和部分可觀察性的長期問題的困擾。近年來,序列模型,特別是Transformer,在強化學習社區引起了越來越多的關注,催生了眾多以顯著的有效性和泛化性為特點的方法。本文綜述提供了一個全面的概述,介紹了近期致力于使用諸如Transformer之類的序列模型解決順序決策任務的工作,通過討論順序決策與序列建模之間的聯系,并根據它們使用Transformer的方式對其進行分類。此外,本文提出了未來研究的各種潛在途徑,旨在提高大型序列模型在順序決策制定中的有效性,包括理論基礎、網絡架構、算法和高效的訓練系統

1.引言

具有大量參數和自回歸數據處理特性的大型序列模型,近期在自然語言處理(NLP)[2]和計算機視覺(CV)[3]的預測任務和(自)監督學習[1]中發揮了重要作用,例如ChatGPT [4] 和Swin Transformer [5]。此外,這些模型,特別是Transformer [6],在過去兩年中在強化學習社區引起了極大的關注,催生了眾多在第5節中概述的方法。另外,大型序列模型在順序決策和強化學習(RL)[7]領域也已經出現,其有效性和泛化性顯著,如Gato [8]和視頻預訓練(VPT)[9]所證實。這些方法暗示著構建通用的大型決策模型的可能性,即能夠利用大量參數來執行數百個或更多順序決策任務的大型序列模型,這與大型序列模型在NLP和CV中的應用方式類似。

這份調研關注了大部分利用(大型)序列模型,主要是Transformer,進行順序決策任務的當前工作,而Sherry等人[10]的報告中可以找到各種其他類型的基礎模型在實際決策環境中的應用。我們對序列模型在順序決策問題中的作用進行了深入的調查,討論了它們的重要性以及像Transformer這樣的序列模型與解決此類問題的關系。在調查當前的工作如何利用序列模型促進順序決策的同時,我們還分析了目前在模型大小、數據和計算方面對大型決策模型的主要瓶頸,并探討了未來在算法和訓練系統方面進行研究以提高性能的潛在途徑。

在這份調研的其余部分,第2節介紹了預測和順序決策問題的構建。第3節將深度強化學習(DRL)介紹為順序決策任務的經典解決方案,并檢查DRL中三個長期存在的挑戰:樣本效率問題、信用分配問題和部分可觀察性問題。第4節建立了序列模型與順序決策之間的聯系,強調了序列建模在第3節提出的三個挑戰方面的促進作用。第5節調查了大部分利用Transformer架構進行順序決策任務的當前工作,并討論了Transformer如何在不同的設置中增強順序決策以及構建大型決策模型的潛力。第6節討論了關于支持訓練大型決策模型的系統支持方面的當前進展和潛在挑戰。第7節從理論基礎、模型架構、算法和訓練系統的角度討論當前的挑戰和潛在研究方向。最后,第8節總結了本次調研的結論,并期望對大型決策模型這一新興主題進行更多的探討。

2. 基于深度RL的序列決策

作為深度神經網絡和強化學習(RL)的結合,深度強化學習(DRL)受到了廣泛關注,并成為解決順序決策任務的熱門范式[7]。近年來,通過一系列值得注意的成就,例如AlphaGo [20]和AlphaStar [21]在圍棋和星際爭霸II游戲中擊敗人類專家,它的高潛力得到了展示。

3. 序列決策視為序列建模問題

幸運的是,第3節提到的挑戰可以通過將順序決策問題視為序列建模問題來解決,然后由序列模型來解決。為了克服這些挑戰,一些研究人員嘗試通過將它們轉化為監督學習問題,特別是序列建模問題,來簡化順序決策任務。模仿學習(IL),如行為克隆(BC)[38]和生成對抗模仿學習(GAIL)[39],通過專家演示的監督來訓練代理,整合了表示學習和轉移學習的進步,例如BC-Z [40]或多模態交互代理(MIA)[41]。然而,IL的性能嚴重依賴于高質量的專家數據,這些數據的獲取成本很高,并且隨著模型大小的增加,與增加的數據需求相沖突。上下顛倒的強化學習(UDRL)[42]是一種新穎的方法,將傳統的強化學習(RL)轉化為純粹的監督學習范式。與基于價值的RL相比,它在學習過程中顛倒了動作和回報的角色。具體來說,它使用未折扣的期望回報作為網絡輸入,作為指令來指導代理的行為。因此,與傳統的基于價值的RL不同,后者學習一個價值模型來評估每個動作的質量并選擇最優的動作,UDRL學習尋找一系列滿足特定期望回報的動作。通過在所有過去的軌跡上對代理進行純粹的SL訓練,UDRL規避了傳統RL中由于函數逼近、自舉和離策略訓練的結合而產生的敏感折扣因子和致命試驗的問題[7,42]。此外,盡管在具有完美馬爾可夫性質的環境中,經典方法仍然更有效,但實驗結果顯示UDRL在非馬爾可夫環境中出人意料地超過了諸如DQN和A2C之類的傳統基線[42]。這些結果表明,UDRL的一般原則不僅限于馬爾可夫環境,表明在更廣泛的背景下解決順序決策問題是一個有前途的方向。

作為一項代表性的工作,決策變換器(Decision Transformer,簡稱DT)[43]將RL問題構建為序列建模問題,這使其能夠利用變換器的簡單性和可擴展性。基于UDRL的概念,DT將一系列狀態、先前的動作和期望的回報輸入到類似GPT的網絡中,并推斷出達到期望回報的動作,其中變換器用作策略模型。與DT和UDRL不同,軌跡變換器(Trajectory Transformer,簡稱TT)[44]將轉換序列完全映射到平移的轉換序列中,包括狀態、動作和即時獎勵,其中變換器作為捕獲環境完整動態的世界模型。盡管DT是一種無模型方法,而TT是一種基于模型的方法,但兩種方法都有一個共同的基礎:將每個時間軌跡視為轉換的連續序列,并使用變換器對其進行建模。基于這個基礎,變換器可以用來推斷未來的狀態、動作和獎勵,從而統一了通常需要在IL、基于模型的RL、無模型的RL或目標條件的RL [44]中的許多組件,例如基于模型方法中的預測動力學模型,演員-評論家(AC)算法[25]中的演員和評論家,以及IL中的行為策略近似。圖2比較了傳統RL、IL、UDRL、DT和TT之間的范式。

**4 結論 **

在這篇綜述中,我們探討了利用序列建模方法解決順序決策任務的當前進展。通過序列建模來解決順序決策問題可以是解決傳統強化學習方法中一些長期存在的問題的有前景的解決方案,包括樣本效率、信用分配和部分可觀察性。此外,序列模型可以在數據效率和可轉移性方面彌合強化學習和離線自我監督學習之間的差距。我們得出結論,大型決策模型的模型架構應在支持多模態、多任務可轉移性和稀疏激活的意識下進行設計,而算法應解決關于數據質量和數量的問題。并且,整體訓練效率應通過并行化進行系統優化。在一系列關于理論基礎、網絡架構、算法設計和訓練系統支持的討論之后,這篇綜述提供了構建大型決策模型的潛在研究方向。我們希望這篇綜述能激發對這個熱門話題的更多研究,并最終賦予更多實際應用更多的能力,如機器人技術、自動駕駛車輛和自動化工業。

付費5元查看完整內容

過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。

首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。

接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。

1. 引言

在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。

但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。

下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。

標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。

付費5元查看完整內容

大型語言模型(如GPT-3、GPT-4、TNLG、T-5等LLM)在標準基準上表現出非常高的性能,這是因為它們的參數數量高、訓練數據集非常大、計算量很大。盡管這些模型中的高參數數量導致了更強的表達能力,但它也可能導致更高的記憶能力,再加上未經驗證的大型網絡抓取數據集,可能會造成多種不同的負面社會和道德影響: 隱私、敏感信息的泄露——即LLM是“泄漏的”,生成有偏見的文本,即。LLM是“狡猾的,產生仇恨或刻板印象的文本-即LLM是“令人毛骨悚然的”。在本次演講中,我將介紹上述問題如何影響LLM的可信性,并重點介紹我們如何測量這些模型的泄漏和記憶。最后,我將討論大型LLM的隱私保護實際意味著什么,以及使大型模型可信的未來研究方向。

付費5元查看完整內容

雖然大規模語言模型工作得非常好,但訓練它們的成本很高,很難解釋它們的預測,而且幾乎不可能隨著時間的推移保持最新。目前還不清楚我們什么時候可以相信他們的預測,而且目前的大型語言模型都不能回答關于當前主題的問題,例如COVID-19,因為用于訓練的語料庫是幾年前創建的。為了開發具有更小、更簡單和更有效的模型的下一代通用語言模型,我們相信信息檢索是一個關鍵組件。在人與人之間以及與世界進行交互時,人類會挖掘許多不同形式的知識,包括世界知識(例如常識、最新的世界事實、熱門新聞)和用戶知識(例如對話記憶、社交互動、額外的上下文(例如位置等)。為了在AI應用程序中結合這種能力,信息檢索提供了模型對可能包含此類知識的文檔集合的訪問(可能很大)。具體來說,完整的系統由一個小型的核心模型組成,可以通過檢索輕松訪問額外的、與任務相關的知識,并與當今最大的語言模型相媲美。在本次演講中,我將首先對檢索增強語言模型進行研究概述。然后,我將分享我們最近的一些工作,包括一個通過添加檢索組件來改進任何語言模型的通用框架,以及一個檢索增強的多模態模型,該模型可以生成質量更好的圖像和標題。最后,我將通過討論我們學到的一些經驗教訓和我們計劃在不久的將來解決的問題來結束這次演講。

付費5元查看完整內容

雖然深度強化學習(RL)在機器學習領域取得了多項引人注目的成功,但由于其通常較差的數據效率和所產生的策略的有限通用性,它未能得到更廣泛的采用。緩解這些限制的一個有希望的方法是,在稱為元強化學習的過程中,將更好的強化學習算法的開發本身視為一個機器學習問題。元強化學習最常在問題環境中進行研究,在給定任務分布的情況下,目標是學習一種策略,該策略能夠從盡可能少的數據的任務分布中適應任何新任務。**本文詳細描述了元強化學習問題的設置及其主要變化。**本文討論了如何在高層次上基于任務分布的存在和每個單獨任務的可用學習預算對元強化學習研究進行聚類。使用這些聚類,綜述了元強化學習算法和應用。最后,提出了使元強化學習成為深度強化學習從業者標準工具箱一部分的道路上的開放問題。

//www.zhuanzhi.ai/paper/bbd26798bcb89638b3308c8dfc2a8e20

**1. 引言****元強化學習(Meta-reinforcement learning, meta-RL)是一種學習強化學習的機器學習(machine learning, ML)方法。**也就是說,元強化學習使用樣本效率低的機器學習來學習樣本效率高的強化學習算法或其組件。因此,元強化學習是元學習[225,91,94]的特殊情況,其學習算法是強化學習算法。元強化學習作為一個機器學習問題已經被研究了很長一段時間[197,199,224,198]。有趣的是,研究也顯示大腦中存在meta-RL的類似物[238]。Meta-RL有潛力克服現有人類設計的RL算法的一些限制。雖然在過去幾年中,深度強化學習取得了重大進展,例如掌握圍棋游戲[209]、平流層氣球導航[21]或機器人在挑戰性地形中的運動[148]等成功故事。RL的采樣效率仍然很低,這限制了它的實際應用。元強化學習可以產生比現有強化學習方法更有效的強化學習算法(組件),甚至可以為以前難以解決的問題提供解決方案。與此同時,提高樣本效率的承諾伴隨著兩個成本。首先,元學習需要比標準學習多得多的數據,因為它訓練整個學習算法(通常跨多個任務)。其次,元學習使學習算法適應元訓練數據,這可能會降低其對其他數據的泛化能力。因此,元學習提供的權衡是提高測試時的樣本效率,代價是訓練時的樣本效率和測試時的通用性。示例應用程序考慮使用機器人廚師進行自動化烹飪的任務。當這樣的機器人部署在某人的廚房時,它必須學習一個特定于廚房的策略,因為每個廚房都有不同的布局和設備。由于在訓練早期的隨機行為,直接在一個新的廚房中從頭開始訓練機器人太耗時,并且有潛在的危險。一種選擇是在單個訓練廚房中對機器人進行預訓練,然后在新的廚房中對其進行微調。然而,這種方法沒有考慮到后續的微調過程。相比之下,元強化學習將在訓練廚房的分布上訓練機器人,以便它可以適應該分布中的任何新廚房。這可能需要學習一些參數以實現更好的微調,或者學習將部署在新廚房中的整個強化學習算法。通過這種方式訓練的機器人既可以更好地利用收集的數據,也可以收集更好的數據,例如,通過關注新廚房的不尋常或具有挑戰性的特征。這種元學習過程需要比簡單的微調方法更多的樣本,但它只需要發生一次,當部署在新的測試廚房時,由此產生的適應過程可以顯著提高樣本效率。這個例子說明,通常情況下,當需要頻繁地進行有效的自適應時,元強化學習可能特別有用,因此元訓練的成本相對較小。這包括但不限于安全關鍵的強化學習領域,在這些領域中,有效的數據收集是必要的,探索新行為的成本過高或危險。在許多情況下,大量的樣本投資低效的前期學習(在監督下,在實驗室中,或在模擬中)是值得的,以實現后續改進的適應行為。

本綜述的目的是提供一個元強化學習的入口,以及對該領域和開放研究領域的現狀的反思。在第2節中,我們定義了元強化學習和它可以應用的不同問題設置,以及兩個示例算法。在第3節中,我們考慮了元強化學習中最普遍的問題設置:少樣本元強化學習。本文的目標是學習能夠快速自適應的RL算法,即在少量的情節中學習任務。這些算法通常是在給定的任務分布上進行訓練的,并且元學習如何有效地適應該分布中的任何任務。圖1展示了一個簡單的例子來說明這個設置。在這里,智能體經過元訓練,以學習如何導航到2D平面上不同的(最初未知的)目標位置。在元測試時,該智能體能夠有效地適應目標位置未知的新任務。在第4節中,我們考慮多樣本的設置。這里的目標是學習通用的RL算法,而不是特定于狹窄的任務分布,類似于目前在實踐中使用的算法。有兩種方式:如上所述的對任務分布進行訓練,或者對單個任務進行訓練,但同時進行元學習和標準強化學習訓練。接下來,第5節介紹了元強化學習的一些應用,如機器人。最后,我們在第6節討論開放問題。這些包括對少樣本元強化學習的更廣泛任務分布的泛化,多樣本元強化學習中的優化挑戰,以及元訓練成本的減少。

付費5元查看完整內容

有效地從很少到沒有數據中學習的能力對于將NLP應用于數據收集成本高或其他困難的任務至關重要。這在學術和實踐上都是一個具有挑戰性的設置——特別是因為訓練中模型通常需要大量標記數據。最近,對未標記數據進行預訓練的進展,帶來了更好的零樣本或少樣本學習的潛力(Devlin et al., 2019; Brown et al., 2020)。特別是在過去的一年里,人們進行了大量的研究,利用大規模語言模型更好地從有限的數據中學習。在本教程中,我們的目標是讓感興趣的NLP研究人員了解最新的和正在進行的使用預訓練的語言模型進行零樣本和少樣本學習的技術。此外,我們的目標是向觀眾揭示新的研究機會,這將有望使我們更接近解決該領域現有的挑戰。

//github.com/allenai/acl2022-zerofewshot-tutorial

付費5元查看完整內容

時序知識圖譜推理是信息檢索和語義搜索的關鍵任務。當TKG頻繁更新時,這是特別具有挑戰性的。該模型必須適應TKG的變化,以便進行有效的訓練和推理,同時保持其對歷史知識的表現。最近的工作通過增加一個時間感知編碼函數來實現TKG補全(TKGC)。然而,使用這些方法在每個時間步驟中直接微調模型并不能解決以下問題:1)災難性遺忘;2)模型不能識別事實的變化(例如,政治派別的變化和婚姻的結束);3)缺乏訓練效率。為了解決這些挑戰,我們提出了時間感知增量嵌入(TIE)框架,該框架結合了TKG表示學習、經驗回放和時間正則化。我們引入一組度量標準來描述模型的不妥協性,并提出一個約束,將刪除的事實與負面標簽相關聯。在Wikidata12k和YAGO11k數據集上的實驗結果表明,本文提出的TIE框架減少了大約10倍的訓練時間,并在提出的指標上有所改進。對于任何傳統的度量方法,它都不會造成性能上的重大損失。廣泛的消融研究揭示了不同評估指標之間的性能權衡,這對于真實世界的TKG應用的決策是至關重要的。

付費5元查看完整內容

GPT-3: Few-Shot Learning with a Giant Language Model

最近的工作表明,通過對大量文本語料庫進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了實質性進展。雖然這種方法在架構中通常與任務無關,但它仍然需要成千上萬個樣例的特定于任務的微調數據集。相比之下,人類通常只通過幾個例子或簡單的指令就能完成一項新的語言任務——這是目前的NLP系統在很大程度上難以做到的。我將討論GPT-3,這是一種具有1750億個參數的自回歸語言模型,它演示了如何擴大語言模型可以極大地改善與任務無關的、少樣本的性能,有時甚至可以達到與先前的最先進的微調方法相媲美的競爭力。GPT-3可以應用于沒有任何漸變更新或微調的任務,與少數樣本演示指定純粹通過文本與模型的交互。我將概述GPT-3是什么以及它是如何工作的,討論我們從這樣一個系統中看到的功能,以及它們如何啟用與語言模型交互的新方式,此外還將關注這些交互帶來的局限性和更廣泛的問題。

//nlp.stanford.edu/seminar/details/melaniesubbiah.shtml

付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容
北京阿比特科技有限公司