亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

神經網絡的端到端優化帶來了人工智能的巨大進展,這些進展有望顛覆我們生活的許多方面。與此同時,端到端的工程方法有助于確保這些人工智能系統保持在用戶和開發者的控制之下。設計目標和威脅模型為基準和指標提供了依據,這些又反過來影響訓練目標和數據,進而影響神經架構和算法。我將討論這一方法的多種實際方法和考慮因素,包括多模態的優勢、評估基于規則的行為、確保廣泛能力模型的挑戰、構建穩健的控制通道和保障措施等內容。 在過去幾年中,人工智能領域已從一個僅僅是令人興奮且充滿潛力的研究領域,發展成了世界上最強大技術公司之間的國際軍備競賽。其資源已增長到天文數字,目前由OpenAI和軟銀宣布的價值5000億美元的數據中心基礎設施合資企業為這一領域設定了新的高點。 我在GPT-3發布幾個月后開始研究生學習,當時關于大型語言模型(LLM)是否能為現實世界帶來經濟價值仍是一個公開的辯論話題。OpenAI的GPT-3 API在當時對除了像Harvey和Jasper這樣的一小部分冒險創業公司外,幾乎對所有人來說只是學術興趣的對象。而今天,辯論的焦點已經轉移到是否任何有經濟價值的勞動在不久的將來將不會被人工智能自動化的問題上。 許多領先的人工智能研究人員認為,由自主AI系統完全取代人類是一種嚴肅的可能性。Geoffrey Hinton甚至預測,未來30年內AI導致人類滅絕的概率為10%到20%。與此同時,許多領域內的人仍然對從狹窄、封閉的基準測試中推斷出來的戲劇性結論持深刻懷疑態度。Yann LeCun自信地宣稱,LLM是“通往人類水平AI的繞行路”,并將有關存在性風險的討論斥為“AI末日主義”。然而,盡管存在如此廣泛的意見分歧,LeCun和Hinton都呼吁在人工智能系統中構建防護欄和更強的可控性,全球各國政府也已成立顧問機構,以跟蹤先進AI的風險和后果。 事實上,雖然很少有人能就確切的預測和政策建議達成一致,但許多人共享建立可信賴AI系統的目標。 當前的AI系統在許多方面仍然存在不足之處,例如決策的可解釋性,或者它們與人類價值觀的一致性。許多問題是社會技術問題,我們甚至尚未達成明確的目標共識。但可信賴性另一個關鍵方面,即AI系統的安全性和可控性,包含了令人興奮且定義清晰的技術問題。圍繞這些問題,研究社區已經識別出了許多有前景的進展方向。通過解決這些問題,我們將能更好地為管理更強大的未來AI系統做好準備,并實現理想的社會和經濟成果。

1.1 安全性與可控性

構建一個可控的AI系統意味著什么?在我看來,主要有三個標準。一個可控的AI系統應當: 1. 遵循用戶指定的目標和提供的上下文 1. 在合理條件下具有穩健的泛化能力 1. 抵抗對其目標進行劫持的企圖

與LLM的早期階段相比,人工智能領域在這些標準上取得了顯著進展,但同時仍有許多工作待完成。

**目標與上下文

用戶可能會指定一些非正式的高層次目標,或是精確的低層次目標。這里所說的“用戶”是廣義的,包括最終消費者、第三方應用開發者和初期研究者。在用戶的明確指示不足時,系統應當依賴相關上下文,例如與用戶的先前互動,來推斷出正確的行動方案。 如今,許多系統在理解明確指令方面做得相當不錯,但在適當整合大量上下文信息方面仍有很長的路要走。當前聊天機器人的“記憶”功能主要依賴關鍵詞或嵌入式搜索,這種方法可能會忽視間接相關的上下文信息,例如隱性偏好或獨特的術語。

**穩健的泛化

一個條件集是否合理,取決于系統設計者構建系統的意圖以及用戶對這些意圖的理解。例如,自動駕駛車輛需要應對各種可能的駕駛條件,聊天機器人必須在長時間、多輪對話中保持連貫性。 AI系統龐大的訓練語料庫賦予了它們在訓練分布內進行泛化的能力,但我們仍然看到在訓練中沒有很好表示的條件下,性能表現極為不均。對于某些應用,確實可以“讓全世界都包含在分布內”,即收集一個涵蓋所有可能部署設置的訓練數據集。但對于許多復雜領域,這種強行推進的方法是不可行的。

**抵抗劫持

未經授權的方可能會試圖修改系統的原始目標,方法包括覆蓋明確的指令或在上下文窗口中插入惡意內容,從而將模型的行為引導向不同的目標。在LLM之前,對抗性機器學習研究主要集中在計算機視覺模型或自動駕駛應用上。研究人員提出了許多不同的攻擊方法,其中許多假設了不切實際的威脅模型,比如攻擊者擁有模型架構和權重的全部知識,但現實中有效的攻擊也廣泛存在于文獻中。研究界的共識是,這方面的工作迄今未能提供有意義的解決方案。 今天,模型提供商通常會將行為限制訓練到模型中,以防生成違反使用政策的內容。然而,這些防護欄往往容易通過“AI越獄”被繞過。雖然新發布的模型現在對常見的越獄攻擊具有更強的抗性,但紅隊競賽表明,任何模型都無法完全抵抗決心強烈的攻擊者。隨著我們繼續為AI系統引入額外的能力,如多語言和視覺識別,可能的攻擊數量呈組合式增長。 本論文的第一章《自監督與語言-圖像預訓練的結合(SLIP)》源于我在與Meta的FAIR研究小組合作期間進行的一系列復制實驗。我們沿襲了OpenAI的CLIP項目的做法,這是一個真正具有突破性的項目,發布于2021年,它將計算機視覺領域引入了網頁規模的數據策劃和預訓練,成為了當前所有視覺和語言模型的第一個共同祖先,包括像DALL-E和Stable Diffusion這樣的文本到圖像模型,以及像GPT-4和Gemini這樣的多模態LLM。在對一部分公開數據進行的小規模實驗中,我們發現,將自監督學習與圖像和標題對比學習相結合,能夠在不同的評估環境和視覺識別任務中,顯著提高圖像表示質量。后來的視覺和語言預訓練方法增加了越來越多的訓練目標,這一趨勢我們雖然無法聲稱是我們開創的,但無疑是我們在早期階段就識別出來的。 在展示這項工作時,我結識了Waymo的應用研究團隊,并在一次夏季研究實習中繼續沿著這個方向深入,探索如何將SLIP等預訓練的視覺表示應用于自動駕駛汽車。第二章《MoST:用于運動預測的多模態場景標記化》呈現了這項研究的成果,我們在其中解決了預測附近道路使用者(如其他汽車、騎行者、行人等)的運動軌跡的問題,這是Waymo在其汽車中部署的模塊化自動駕駛架構的關鍵組成部分。通過將豐富的高維圖像和點云特征與之前運動預測模型所依賴的符號化對象和場景表示結合,我們能夠提高模型預測的準確性和穩健性。如今,Waymo的汽車在路上使用的更先進版本的這種方法,將許多傳感器和感知信號引入了上下文中。 此時,預訓練的規模已遠遠超過了即使是裝備精良的學術研究小組在行業中的資源,我決定在LLM領域探索新的方向。在最初的GPT-4 API發布中,隱藏著一個很少使用的請求參數,叫做“系統消息”,用于向模型傳達更高優先級的指令。我意識到,如果應用開發人員要實際使用這個功能來定制LLM以適應他們的特定用例,那么模型必須可靠地遵守系統消息中指定的任何規則,即使這些規則與用戶指令相沖突。第三章《LLM能遵循簡單規則嗎?》中,我開發了一個評估方法,用于衡量LLM在像玩石頭剪子布這樣的簡單交互場景中,遵循可驗證規則的能力。我們的研究表明,各種簡單而巧妙的用戶消息都能說服即使是最強大的模型違反原始規則。當時,只有一小部分LLM支持系統消息或指令,但即便如此,這些模型也無法始終如一地遵循我們的規則。一年后,幾乎所有模型都聲稱支持系統消息或指令,并且系統提示已成為“編程”LLM應用程序的普遍認可方法。然而,研究界仍然缺乏對系統提示在滿足開發人員和用戶期望的所有角色中的可靠性進行全面評估的方法。在《系統提示魯棒性深入分析》中,我們整理了一個評估套件,衡量系統提示在不同設置中的可靠性。例如,我們設計了一個評估,包含多輪對話,模型需要處理不同數量的需求,如裝飾名字或為場景描述添加特定的修飾語。我們還建立了對不同系統提示、沖突的用戶消息、對抗性攻擊、干擾性無關輸入以及代理工具調用應用程序的系統提示魯棒性評估。我們的結果表明,盡管最大的最新模型能夠更加可靠地遵循系統提示,但它們仍然未能達到傳統編程語言所能提供的可靠性水平。最后,我們還從一組第三方系統提示中收集了演示和偏好數據集,這些提示來自于各種在線來源。我們對這些數據集進行微調,能夠顯著提高模型對系統提示的遵守能力,證明了更系統化的數據收集能夠顯著提高模型表現,甚至超過了用于開發像Qwen和LLama這樣的模型的復雜后期訓練方法。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

持續學習依然是機器學習領域的一項長期挑戰。成功實現持續學習需要不斷吸收新的知識,同時保留仍然有用的舊知識。在本論文中,我們提出了一種連貫的持續學習目標:在每個時間步受到計算資源限制的前提下,最大化無限時域平均回報。這一框架使我們能夠系統性地分析持續學習智能體的設計與評估,超越僅僅依賴準確率保持或可塑性等零散指標的方法。 論文的第一部分聚焦于基礎工具與理論視角的構建,包括:對智能體狀態的信息論建模、智能體容量的量化方法,以及持續學習中穩定性–可塑性權衡的形式化定義。第二部分則提出了多種新算法:一種用于緩解神經網絡可塑性退化的再生式正則化方法;Conformal Sympow——一種基于Transformer的模型,借助學習型門控與數據依賴旋轉機制,實現了高效的長上下文推理;以及一種以多樣性驅動的強化學習方法,使智能體具備對環境擾動的少樣本魯棒性。

綜上,這些工作有助于將持續學習確立為一個有原則、可操作的機器學習子領域,推動理論與實踐的融合。

付費5元查看完整內容

機器學習和人工智能領域在過去十年中取得了顯著進展。得益于計算和算法的進步,以及大數據集的可獲取性,它已經從純粹的學術研究發展到以工業為主導的領域。隨著企業開始在其專有數據集上訓練模型,數據質量的重要性作為一個關鍵因素浮現出來,與傳統的模型架構改進并行。因此,數據驅動的人工智能(Data-Centric AI,簡稱DCAI)開發方法應運而生,側重于通過系統的數據管理(數據收集、標注和策劃)來提升模型性能,而非單純改善模型本身。

本論文旨在通過全面的文獻綜述,探討數據驅動的人工智能(DCAI)這一新興范式,涵蓋DCAI所涉及的廣泛主題。此外,論文展示了三個關鍵子主題的三篇發表論文:第一篇論文提出了一種新的主動學習方法,適用于高度不平衡的數據集,幫助解決工業應用中常見的類別不平衡問題。第二篇論文介紹了MC層歸一化(MC Layer Normalization),這是一種替代常規層歸一化的方法,通過在特征子采樣過程中引入隨機性,能夠在神經網絡中進行不確定性估計。最后,第三篇論文提出了一個名為Softmatcher的視覺提示框架,用于交互式圖像分割。該框架將基礎模型與高效的概率特征匹配過程結合,使得通過視覺提示實現快速、無訓練的圖像分割成為可能。 這三種方法成功集成到多個IBM產品中,為研究在工業環境中的適用性和影響力提供了有力的證據。本論文展示了數據驅動方法的潛力,表明通過持續關注數據質量,可以在較低成本和更短時間內開發出顯著改進的機器學習模型。

付費5元查看完整內容

大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。

大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:

**1.1 論文大綱

  • 第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。

  • 第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。

  • 第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。

付費5元查看完整內容

開發值得決策者信任的機器學習模型對于在實踐中使用這些模型至關重要。算法透明性工具,如可解釋性和不確定性估計,能夠向決策者展示模型的可信度。在本論文中,我們首先探討了從業者在工業界如何使用可解釋性。通過一項訪談研究,我們發現,盡管工程師們越來越多地使用可解釋性方法來測試開發過程中的模型行為,但這些方法在外部利益相關者中采用的情況卻有限。為此,我們為特定決策環境開發了新穎的算法透明性方法,并通過人類主體實驗與真實決策者一起測試這些方法。

我們首先提出DIVINE,一種基于示例的解釋方法,它不僅找到對模型參數有影響的訓練點,而且這些點在輸入空間中具有多樣性。我們展示了我們的解釋如何提高決策者模擬模型決策邊界的能力。接下來,我們討論反事實潛在不確定性解釋(CLUE),這是一種特征重要性解釋方法,識別出如果擾動輸入特征,將會減少模型在給定輸入上的不確定性。我們展示了決策者如何使用我們的解釋來識別模型在未見輸入上的不確定性。 盡管每種方法本身都是成功的,我們更感興趣的是,了解在決策者利用某種形式的決策支持后,結果在何種環境下會有所改善,無論是算法透明性還是模型預測。我們提出了學習決策支持策略的問題,該策略針對給定的輸入,選擇為沒有先驗信息的決策者提供何種形式的支持。利用隨機上下文多臂強盜問題的技術,我們引入THREAD,一種在線算法,用于個性化每個決策者的決策支持策略。我們與真實用戶一起部署THREAD,展示了在線學習個性化策略的過程,并說明了在實踐中學習決策支持策略的細微差別。 我們以個性化決策支持的前景作為本論文的結論,這種支持形式可以包括基于決策者需求的算法透明性。

付費5元查看完整內容

本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。

我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。

支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。

付費5元查看完整內容

深度學習算法,比如那些用于圖像識別的算法,在自動化醫療診斷和指導臨床決策方面大有前途。與此同時,醫學深度學習系統的開發和臨床轉化還面臨著一些重要的挑戰。首先,開發大型且注釋良好的數據集成本很高。其次,醫學圖像判讀有必要識別病灶的微妙關鍵特征,盡管在人群中生理外觀有很大差異。第三,由于域轉移問題,將深度學習算法的性能從一種設置轉移到另一種設置具有挑戰性。第四,深度學習系統的輸出需要是可解釋的,以便臨床醫生能夠理解系統。本文研究了如何應對這些挑戰,從小型數據集構建可泛化和可解釋的深度學習模型。本文研究了將從非醫療源ImageNet學習到的先驗知識遷移到醫療應用對模型性能的影響,特別是當數據集大小不夠時。與直接從ImageNet轉移學習不同,GrayNet被提議作為一個橋梁數據集,在從ImageNet學習到的通用圖像特征上創建一個預先訓練的豐富醫學圖像表示的模型。分析了GrayNet的優點,包括總體性能和跨不同成像掃描儀的泛化,并與使用小數據從頭開始訓練和從ImageNet轉移學習進行了比較。受放射科醫生如何解釋診斷圖像的啟發,還介紹了特定領域的技術,包括窗口設置優化和切片插值,并展示了進一步增強模型性能的方法。引入了一個新的可視化模塊,能夠在訓練過程中生成一個圖像圖譜,并將其顯示為測試過程中所做的模型預測的基礎,以證明模型預測的合理性,并使臨床醫生更容易理解它們。本論文通過三種不同的應用展示了深度學習在醫學圖像判讀方面的潛力,包括人工智能輔助骨齡評估,以提高人類的準確性和可變性,發現以前未識別的模式,在手部x光片中進行骨性別分類,以及處理原始計算機斷層掃描數據,而不需要圖像重建。本論文的貢獻有望促進各種醫療應用中可推廣和可解釋的深度學習算法的發展,從而加速人工智能系統進入臨床實踐。

付費5元查看完整內容

本課程是關于可解釋人工智能(XAI)的,這是機器學習的一個分支領域,為復雜模型提供透明度。現代機器學習嚴重依賴于黑盒模型,如樹集成和深度神經網絡;這些模型提供了最先進的準確性,但它們使理解驅動其預測的特征、概念和數據示例變得困難。因此,用戶、專家和組織很難信任這樣的模型,并且了解我們正在建模的底層過程是具有挑戰性的。 對此,一些人認為,我們應該在高風險應用中依賴內在可解釋的模型,如醫藥和消費金融。其他人主張事后解釋工具,即使是為復雜的模型提供一定程度的透明度。本課程探討了這兩種觀點,我們將討論廣泛的工具,以解決模型如何進行預測的不同問題。我們將涵蓋該領域許多活躍的研究領域,包括特征歸因、反事實解釋、實例解釋和人類- ai合作。 本課程共設10節課(每節3小時),課程結構如下:

介紹與動機 特征重要性:基于刪除的解釋,基于傳播的解釋,評估指標 其他解釋范式:固有可解釋性模型、概念解釋、反事實解釋、實例解釋、神經元解釋 人機協作 工業應用

Lecture 1: Introduction * Lecture 2: Removal-based explanations * Lecture 3: Shapley values * Lecture 4: Propagation and gradient-based explanations * Lecture 5: Evaluating explanation methods * Lecture 6: Inherently interpretable models * Lecture 7: Concept-based explanations, neuron interpretation * Lecture 8: Counterfactual explanations, instance explanations * Lecture 9: Enhancing human-AI collaboration * Lecture 10: Model improvement, applications in industry and healthcare

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容
北京阿比特科技有限公司