亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

觸覺感知在機器人與物理環境交互中扮演著重要角色,這一觀點已被廣泛認可。然而,現有的傳感器中,少有能夠在機器人領域中得到廣泛應用。本文提出了一個將觸覺感知融入機器人學習范式的框架,涵蓋從開發到部署的全過程,并通過ReSkin——一種多功能且可擴展的磁性觸覺傳感器為實例。通過探討ReSkin的設計、集成、策略學習和表示學習,本文旨在為機器人學習中有效的感知系統的實現提供指導。我們首先提出ReSkin——一個低成本、緊湊且多樣化的觸覺感知平臺。我們開發了一種自監督學習技術,使得傳感器具備可替換性,通過適應已學習的模型推廣到新的傳感器實例。接下來,我們在靈巧操作的背景下研究了ReSkin的可擴展性:我們引入了D'Manus,一個廉價、模塊化且堅固的平臺,集成了大面積的ReSkin傳感,旨在滿足機器人學習的大規模數據收集需求。基于ReSkin和D'Manus的開發經驗,我們提出了AnySkin——一種專為機器人學習設計的升級版傳感器,它進一步減少了不同傳感器實例之間的響應差異。AnySkin的集成簡單如同給手機戴上手機殼,無需粘附,并表現出更一致的信號。我們將AnySkin部署在精確操控的策略學習場景中,展示了在補充相機信息后任務性能的提升,并實現了跨傳感器實例的零樣本策略遷移。除了傳感器的設計和部署,我們還探索了包括但不限于ReSkin在內的傳感器的表示學習。傳感數據通常是連續的、序列性的,但大多數現有的序列架構研究(如LSTM和Transformer)主要集中在離散模態,如文本和DNA。為填補這一空白,我們提出了分層狀態空間模型(HiSS),一種概念上簡單的新型連續序列到序列預測(CSP)方法。HiSS通過在時間軸上疊加結構化的狀態空間模型來創建層次結構,并且在現有的序列模型(如因果Transformer、LSTM、S4和Mamba)中表現優異。此外,我們引入了CSP-Bench,一個來自真實感知數據的CSP任務新基準。CSP-Bench旨在解決CSP任務中缺乏真實世界數據集的問題,為從事該領域研究的學者提供了寶貴的資源。最后,我們總結了從ReSkin的開發到部署過程中的經驗教訓,并提出了將觸覺感知帶入主流機器人研究中的潛在方向。

引言

傳感設備在幫助機器人有效理解和響應其周圍環境中起著至關重要的作用。其中,觸覺傳感器尤為重要,因為它們為機器人提供了類似于人類的觸覺感知,使其能夠精確地處理物體、檢測障礙物或危險、調整對物體的握力,并有效操縱環境。盡管這一領域多年來取得了顯著進展,但目前仍缺乏一種普遍適用的機器人觸覺感知解決方案。這主要是由于開發、集成和從觸覺傳感器中學習的復雜多步驟過程——每個步驟都面臨著一系列挑戰。本文通過ReSkin——一種專注于耐用性、可擴展性和適用于機器人學習應用的魯棒性磁性觸覺傳感器,提出了一種應對這些挑戰的方案。

1.1 機器人觸覺傳感器

人類靈活性的關鍵在于觸覺反饋 [77, 78, 79],這一點長期以來激發了對機器人觸覺傳感器的廣泛研究,始于機器人學的早期 [67, 91]。多年來,微型化和快速原型制作加速了基于各種換能技術的觸覺傳感器的發展 [52]。電阻式 [128, 147] 和壓阻式 [12, 129] 傳感器通過材料在兩個電極之間的變形引起電阻的變化來測量施加的壓力。電容式傳感器 [53, 133] 類似地依賴于測量傳感器變形引起的電容變化來捕捉交互特性。最近,使用相機與彈性體材料相結合的光學傳感器 [40, 90, 146, 152] 通過一系列彈性體變形的圖像捕捉物理交互,成為一種高分辨率的觸覺感知替代方案。其他解決方案則使用MEMS設備 [105, 132] 和壓電材料 [36, 159] 作為記錄物理接觸信息的換能機制。然而,這些傳感方案中的許多存在缺陷,阻礙了它們在機器人領域的普及。除了光學傳感器外,每種傳感技術都需要電路與軟性彈性體之間的直接電氣連接。盡管軟性彈性體的集成在一定程度上提升了觸覺傳感器的接觸適應性,這種非預期的耦合增加了成本并使集成過程變得復雜。光學傳感器通過將傳感電子元件(相機)與傳感界面(彈性體)分離,克服了這一難題,但它們需要相機和彈性體之間有清晰的視線,嚴重限制了其形狀因素并增加了設計復雜性。此外,由于彈性體界面的柔軟性,彈性體比相關電子元件老化更快,需要頻繁更換。然而,傳感器的可替換性和一致的傳感響應,這些在軟性傳感器背景下很少被討論。此外,軟性傳感器復雜的制造程序使其難以規模化生產,并增加了傳感器實例間的響應差異。鑒于這些不足,本文的重點是使用磁性彈性體進行觸覺感知 [69, 70]。磁性換能的使用使ReSkin的電路與作為傳感界面的磁性彈性體完全獨立分離。這使我們的傳感器具有低成本、可擴展性和靈活的形狀因素等優勢,能夠適應不同形狀和大小的表面。我們的制造過程簡單且可重復,從而減少了不同磁性彈性體皮膚實例之間的響應差異,最小化了彈性體更換帶來的干擾,強化了其作為通用機器人觸覺傳感器的適用性。

1.2 觸覺感知與機器人手

類似于觸覺感知,人手的多功能性長期以來激勵了許多關于仿人手能力的機器人手研究 [10, 89, 103]。構建這些設備的復雜性導致當代許多解決方案,如Shadow Hand [82, 139] 和Allegro Hand(Wonik Robotics),價格極為昂貴(超過$25,000)、易碎且難以維修。這些缺點與數據驅動機器人的需求相悖,數據驅動機器人依賴大量數據,這反過來要求硬件廉價且能夠應對大規模數據采集的各種挑戰。LEAP Hand [124] 和Trifinger Hand [151] 等解決方案試圖通過創建廉價、通用且易于組裝的機器人手來填補這一空白。然而,盡管觸覺感知被廣泛認為是人類靈活性的核心 [78, 79],但這些解決方案中沒有一個能夠以合理的價格(<$50,000)提供可擴展的觸覺感知集成。D'Manus——一個開源的手部設計,集成了大面積的觸覺傳感,填補了機器人手部觸覺感知領域的這一關鍵空缺。此外,該手完全可以3D打印,具有輔助靈活性的手掌功能,不同于其他設計 [2, 151],還具備其他商業手部設計中沒有的關鍵功能,如內收和外展能力,并且比大多數商用替代品便宜至少10倍。

1.3 深度學習與傳感器

許多現實世界的控制系統,如風力渦輪機狀態監測 [130]、MRI識別 [84] 和慣性里程計 [4, 98],通常通過處理噪聲傳感數據來推斷環境狀態。傳統的傳感器響應建模主要依賴于分析技術來建模原始測量量(如電阻、電容、磁通)與感興趣量(如力、扭矩、慣性測量)之間的關系 [96, 120]。雖然分析建模在將測得的換能量映射為可解釋的量(如力或接觸位置)方面很有用,但它通常復雜且/或需要嚴格的假設,這些假設無法完全模擬傳感器的行為 [61]。有限元分析等計算技術 [97] 盡管有效,但速度極慢,限制了傳感器在實時環境中的應用。快速原型和制造技術的進步加快了傳感器開發的速度和多樣性,同時也催生了對間接建模技術的需求,這些技術能夠實現這些傳感器的實時部署。機器學習為解決這一問題提供了一種可行的方案,通過無需明確建模驅動換能機制的復雜物理現象來實現隱式傳感器建模 [32, 75]。盡管在視覺和語言方面的深度學習研究展示了跨任務的強大能力 [1, 41],在傳感數據上的有效機器學習模型仍然寥寥無幾 [86, 154]。盡管某些深度學習解決方案在傳感數據上顯示了令人鼓舞的結果,但它們仍然是針對特定傳感器的研究 [71, 153]。傳感學習中存在的兩難局面導致了這一現象:缺乏統一、標記化的傳感數據集,進而導致缺乏處理傳感數據的神經架構研究,從而缺乏對傳感系統能力的理解,而這本應促使更多數據的收集。為解決這一問題,我們提出了一個兩部分的解決方案:CSP-Bench——一個由六個連續序列預測任務組成的基準數據集,以及分層狀態空間模型(HiSS)——一種擅長對連續傳感數據進行序列推理的神經架構,基于在結構化狀態空間模型(如S4和Mamba)中引入時間層次。我們借鑒了視覺和語言領域的成功案例 [85],這些研究展示了在基于學習的推理中,審慎的神經架構選擇和歸納偏差的重要性。我們展示了在跨三種不同傳感器的六項傳感預測任務中,HiSS相較于傳統序列建模架構(如因果Transformer、LSTM、S4和Mamba)表現出色。

1.4 多模態策略學習

隨著機器人學家解決機器人在非結構化環境中操作的問題,特別是隨著深度學習的興起,機器人學習成為一種極具前景的解決方案。集成了最前沿的神經架構 [68, 117, 142] 與密度估計 [30, 93] 和模仿學習算法的技術,使得抓取 [161]、操作關節物體 [42, 107] 以及雙手操作 [162] 的能力得以實現。然而,與本章的持續主題保持一致,集成觸覺感知的機器人學習模型顯著稀缺。對需要對與環境的物理交互進行推理的復雜精確技能學習的分析大多局限于模擬 [28, 92],幾乎沒有討論如何將這些策略遷移到現實世界。替代方法通常涉及復雜、不現實的攝像機設置,以規避缺乏觸覺感知的問題 [3, 5]。本文對融合視覺和觸覺傳感數據的多模態策略學習進行了控制研究,并交叉驗證了所有可用模態在學習有效機器人策略中的重要性和有效性。

1.5 論文大綱

本文其余部分的結構如下:第二章介紹ReSkin——一種磁性觸覺皮膚,它的能力以及學習傳感器模型的潛力;第三章介紹D'Manus——一種開源的集成大面積感知的靈巧手設計;第四章介紹升級版的自粘式傳感器皮膚設計,并展示其在策略學習中的可替換性;第五章討論了一個新的基準數據集和一種針對觸覺及其他傳感數據的序列建模的新型學習架構。我們在第六章總結了主要經驗教訓并探討了未來的研究方向。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

現代機器學習模型的脆弱性引起了學術界和公眾的廣泛關注。在本論文中,我們將系統研究幾種機器學習模型的理解與改進,包括平滑模型和通用表征網絡。我們特別關注表征魯棒性的研究,將其定義為給定網絡在隱含空間中的“魯棒性”(或廣義上的可信屬性)。對于通用表征網絡,這對應于表征空間本身,而對于平滑模型,我們將網絡的logits視為目標空間。表征魯棒性是許多可信賴AI領域的基礎,例如公平性和魯棒性。

在本論文中,我們發現隨機平滑的可證魯棒性是以類別不公平性為代價的。我們進一步分析了改進基礎模型訓練過程的方法及其局限性。對于通用的非平滑表征模型,我們發現自監督對比學習與監督的鄰域成分分析之間存在聯系,這自然地使我們提出了一個可以實現更高準確性和魯棒性的通用框架。此外,我們意識到當前基礎表征模型的評估實踐涉及在各種現實任務上進行大量實驗,這既耗費計算資源又容易導致測試集泄漏。為此,我們提出了一種更輕量級、保護隱私且健全的評估框架,通過利用合成數據來評估視覺和語言模型。

**1.1 研究動機

深度神經網絡對人眼難以察覺的對抗性擾動的脆弱性,自從開創性工作[170, 7]發表以來,已經引起了機器學習領域廣泛的關注。這一問題在多個機器學習領域中都是一個重要的關注點,從計算機視覺[170]到語音識別[17],無不如此。特別是在安全關鍵的應用中,如自動駕駛汽車和監控系統,幾乎無法容忍任何錯誤決策。因此,深度神經網絡中對抗樣本的存在,促使了對魯棒性量化的研究,以及旨在增強這種魯棒性的訓練算法的設計[42, 47, 95]。在本論文中,我們旨在理解和改進現代機器學習模型的表征魯棒性。

**1.1.1 機器學習模型的表征魯棒性

表征魯棒性指的是神經網絡模型中隱含空間的可靠性。這一概念在機器學習中尤為重要,因為網絡的隱藏層應該從輸入數據中捕捉到復雜的模式。在本論文中,我們將表征魯棒性定義為這些隱藏表示在面對不同輸入或擾動時,能夠維持理想的可信屬性的能力。理想的可信屬性可能包括準確性、公平性、對抗性魯棒性等。對于一個通用的表征網絡 Φ(?)\Phi(\cdot)Φ(?),隱含空間的自然選擇是表征網絡的輸出空間。這些構建的空間通過表征學習被專門訓練用于編碼關于輸入數據的關鍵信息,使網絡能夠通過一個簡單的任務特定下游網絡執行分類、回歸或生成等各種任務。另一方面,在平滑模型的背景下,平滑濾波器應用于整個基礎網絡

。因此,我們將直接將網絡的

視為評估表征魯棒性的目標空間。在這種情況下,我們特別感興趣的是基礎網絡和平滑網絡之間的不同表現。 研究表征魯棒性對于推動機器學習領域的發展至關重要,原因有以下幾點。首先,正如將在論文的后續章節中討論的那樣,對每個組件(如表征網絡、平滑操作符等)的深入理解有助于我們更加謹慎和意識到這些操作可能產生的副作用。這種理解也將為改進這些網絡設計奠定基礎。其次,隨著機器學習社區逐漸將重點轉向任務無關的預訓練和任務特定的微調,魯棒的表征變得越來越重要。在安全關鍵的應用中,由于脆弱表征導致的錯誤預測可能會產生嚴重后果。從這個角度來看,表征魯棒性是許多可信賴AI領域的基礎,因為預訓練的表征網絡將對任何基于它的機器學習系統的整體可信賴性產生貢獻。通過研究和增強表征魯棒性,可以構建更具彈性的AI系統,并防止錯誤的傳播。

付費5元查看完整內容

大型基礎模型在實現人工智能領域的最新突破中發揮了核心作用。通過同時將數據集和模型規模擴展到前所未有的水平,這些基礎模型在蛋白質結構預測、圖像/視頻生成、代碼生成、聊天機器人等許多領域表現出色。然而,它們的計算和內存成本也急劇增長,使得這些基礎模型在實際應用中的部署變得困難,尤其是在資源受限的邊緣設備上。此外,巨大的訓練成本也顯著阻礙了新基礎模型的發展,并引發了對巨大能源消耗和二氧化碳排放的擔憂。為了解決這些問題,構建有效的模型加速技術對于縮小計算供需之間的差距至關重要。 本論文將涵蓋模型加速的三個重要方面。首先,我們將討論高效表示學習,包括用于高分辨率視覺的EfficientViT(一種新的視覺Transformer架構)和用于條件圖像生成的條件感知神經網絡(一個新的控制模塊)。其次,我們將介紹硬件感知的加速技術,以創建針對不同硬件平臺和效率限制的專用神經網絡。第三,我們將介紹TinyTL,這是一種內存高效的遷移學習技術,用于實現設備上的模型定制。通過我們的設計,我們可以顯著提高深度神經網絡在硬件上的效率,而不損失準確性,使它們更易于訪問并降低其服務成本。例如,我們的模型在A100 GPU上實現了48.9倍的吞吐量提升,同時在零樣本實例分割性能上略微優于最新的模型。在條件圖像生成方面,我們的方法實現了52倍的計算成本降低,而性能沒有下降。

大型基礎模型在許多人工智能領域(包括自然語言處理[1], [2]、計算機視覺[3]–[5]、科學領域的AI應用[6]等)引發了革命性的變化。通過擴大模型規模并在網絡規模的數據集上訓練,這些基礎模型展示了驚人的少樣本/零樣本學習能力,能夠解決復雜的任務。這些卓越的表現引發了在實際應用中使用這些基礎模型的熱潮,將人工智能引入了我們的工作和日常生活。 然而,由于模型規模和計算成本的增加,這些基礎模型的訓練和推理成本非常高昂。例如,GPT-3[7]模型擁有1750億個參數,僅存儲它就已經超出了目前最強大的GPU(如NVIDIA H100 GPU)的容量。這對在云平臺上提供這些模型服務或在邊緣設備上部署它們提出了巨大挑戰。此外,高昂的訓練成本還導致了巨大的能源消耗和二氧化碳排放,引發了對這些AI基礎模型的可持續性問題的擔憂。 在本論文中,我們旨在研究模型加速技術,以提高深度神經網絡的效率,從而應對這一挑戰。我們的方法從三個方面加速深度神經網絡。首先,我們將討論高效的表示學習,旨在構建高效的構建模塊/神經網絡架構,從原始數據中提取有用信息。其次,我們將討論硬件感知的加速方法,旨在為不同的硬件平臺和效率約束定制專用的神經網絡,以獲得精度和硬件效率之間的最佳平衡。第三,我們將討論高效的模型定制,允許內存高效的設備端學習,以提供定制化的AI服務而不犧牲隱私。我們總結了本論文的主要內容如下:

**1.1 論文大綱

  • 第2章 描述了高效表示學習的技術。內容基于[8]和[9]。首先,Transformer架構是當前大型基礎模型的核心組件。然而,Transformer架構在處理長序列時表現不佳,因為其計算成本隨著輸入序列長度的增加而呈二次增長。我們提出了EfficientViT,這是一種用于高分辨率視覺的新型視覺Transformer架構。它通過僅使用硬件高效的操作,達到了全局感受野和強大的容量。EfficientViT在不同的硬件平臺上提供了顯著的性能提升。其次,添加控制是將圖像/視頻生成模型轉化為人類生產工具的關鍵步驟。我們提出了條件感知神經網絡(CAN),這是一種為圖像生成模型添加控制的新方法。與以往的條件控制方法并行,CAN通過動態操控神經網絡的權重來控制圖像生成過程。CAN在擴散Transformer模型中持續帶來顯著改進。

  • 第3章 介紹了硬件感知的AutoML技術,以有效地為不同的硬件平臺和效率約束定制專用的深度神經網絡。內容基于[10]和[11]。不同的硬件平臺具有不同的屬性(例如并行度、緩存大小、帶寬等)。針對不同的目標硬件平臺和不同的效率約束,我們需要定制化的神經網絡以實現性能與效率之間的最佳平衡。然而,手動為每個案例定制神經網絡是不可擴展的。因此,我們提出了硬件感知的AutoML技術來應對這一挑戰。我們的方法在不同的硬件平臺上提供了顯著的加速,包括手機、CPU、GPU、FPGA等。此外,我們的方法在多個低功耗計算機視覺挑戰賽中獲得了第一名。

  • 第4章 介紹了TinyTL[12],一種用于內存高效的設備端學習技術。TinyTL凍結了權重,只學習內存高效的偏置模塊,因此不需要存儲中間激活。為了保持適應能力,我們引入了一種新的內存高效偏置模塊,即輕量殘差模塊,通過學習小的殘差特征圖來優化特征提取器,僅增加了3.8%的內存開銷。廣泛的實驗表明,TinyTL在與微調整個網絡相比僅有微小的準確性損失的情況下,顯著節省了內存。

付費5元查看完整內容

在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。

付費5元查看完整內容

優化和機器學習是當今決策領域的兩個主要領域。近年來,數據的日益豐富促進了這兩個領域交叉點的進展,從而催生了更好的決策支持工具。優化通過改進傳統機器學習模型的訓練方法顯著提升了這些模型的性能,而機器學習則通過準確的預測能力改進了許多優化算法,從而實現了更優的決策。

然而,將優化理論與現代機器學習方法(如神經網絡和核函數)相結合面臨兩大主要挑戰。首先,這些模型不滿足優化理論中的基本凸性假設。其次,這些模型主要用于具有大量參數和高維數據的任務,因此需要高度高效且可擴展的算法。這種對效率的關注限制了對離散變量和優化中典型的一般約束的考慮。本論文介紹了應對這些挑戰的新算法。

本文分為四章,涵蓋嚴格的理論、計算工具和多樣化的應用。在第一章中,我們將穩健優化的最新工具擴展到非凸和非凹的環境中,從而使得生成對輸入擾動具有魯棒性的神經網絡成為可能。在第二章中,我們開發了一個整體的深度學習框架,通過適當修改損失函數,共同優化神經網絡的魯棒性、穩定性和稀疏性。在第三章中,我們介紹了TabText,這是一種靈活的方法論,它利用大語言模型的力量從表格數據中預測患者流動。最后,在第四章中,我們提出了一種基于數據驅動的方法,通過稀疏化核方法解決多階段隨機優化問題。

付費5元查看完整內容

生成式人工智能旨在制定特定類型的數據分布,以便能夠生成模仿底層分布的真實樣本的新數據實例。值得一提的是,在計算機視覺中,生成模型和判別模型是兩大主要類別。后者旨在基于特定數據實例準確預測類別、對象位置、分割等,而前者探索和制造復雜的數據流形。有人可能會爭論,由于旨在模擬現實世界中無限制領域的巨大復雜性的數據,計算機視覺中的生成式人工智能需要更加先進。然而,即使是最復雜的網絡設計,也很難準確地制定我們自然世界中的確切數據分布,因此還有很大的改進空間。 隨著最近生成式人工智能技術的突破,現在的研究人員和工程師創建了開始處理現實世界需求的高性能生成解決方案作為商業產品,幸運的是,這篇論文也參與其中。在這篇論文中,作者旨在通過探索最佳可能的視覺表征形式(即神經隱式嵌入、頻域表征、基于變換器的表征),以盡可能捕獲更多的視覺信息,進一步推動生成式人工智能的性能。毫無疑問,數據表征是生成式人工智能的一個關鍵前提,因為它揭示了模型能力的上限。此外,從一個更廣泛但不那么精確的角度來看,生成建模的目標——模擬精確的數據分布,也可以視為一種表征學習。在論文的最后部分,作者還探討了超越視覺表征的主題,向更一般的跨模態表征進發,適應多種類型的數據模態,這是朝著更具挑戰性的目標邁進的啟發式步驟:通用人工智能。

這篇論文始于UltraSR,探索適合圖像超分辨率的隱式神經視覺表征,通過任意上采樣比例合成圖像細節。UltraSR的核心思想將隱式神經表征與可學習的周期性編碼相結合,以連續函數的形式在高頻流形中制定視覺細節。當UltraSR探索神經視覺表征時,Spectral Hint GAN(SH-GAN)采取了不同的路線,深入涉及頻域中的視覺特征進行圖像完成。SH-GAN提出了一個新穎的頻譜網絡模塊:Spectral Hint Unit(SHU),以及兩種新策略:異構過濾和高斯分割。SH-GAN因以下原因超越了以往的圖像完成方法:通過基于StyleGAN的共調制框架有效地填充低頻圖像結構,以及通過SHU有效地填充高頻圖像紋理。最近在文本到圖像(T2I)擴散模型的進展激發我們探索新的工作Prompt-Free Diffusion,在這項工作中,我們用SeeCoder代替CLIP文本編碼器來捕獲視覺線索,從T2I系統中移除了提示的需要。SeeCoder自動提取各種視覺線索,包括但不限于語義、紋理、背景等,并將它們傳遞給擴散模型。我們的合成結果既高質量又緊密跟隨SeeCoder編碼的參考視覺線索。與Prompt-Free Diffusion并行,我們提出了Versatile Diffusion,這是第一個提出統一的多模態多流擴散管道的工作,均勻處理多種跨模態任務,生成圖像、文本和變體。Versatile Diffusion具有更廣泛的范圍,我們的目標是將不同模態的表征合并到一個生成網絡中,向通用生成式人工智能的大膽一步邁進。

總之,所有工作都提供了有關數據表征的寶貴見解,其中UltraSR、SH-GAN和Prompt-Free Diffusion積極探索了三種方案下的最佳視覺表征:隱式神經表征、頻域表征和基于變換器的表征。在最后一部分,Versatile Diffusion探索了圖像、文本和圖文跨模態的統一表征和生成。UltraSR在所有比例上的DIV2K數據集上比基線模型高出0.05 dB。SH-GAN在FFHQ數據集上達到FID 3.41,在Places2數據集上達到7.10,獲得了大規模自由形式圖像完成任務中的新最佳水平。Prompt-Free Diffusion和SeeCoder完成了以驚人質量完成流行的示例-based圖像生成任務。Versatile Diffusion在Coco2014數據集上的CLIP相似度為0.269和0.858;FID為11.20和4.57,測量文本到圖像和圖像變化,超越了所有方面的基線Stable Diffusion。

付費5元查看完整內容

人工智能(AI)的進步正在快速改變我們的世界,系統現在在從游戲玩耍到科學發現等領域匹敵甚至超越了人類的能力。這一進展的大部分可以追溯到機器學習(ML),特別是深度學習以及其在數據中發現有意義的模式和表示的能力。然而,AI中的真正智能需要不僅僅是原始的預測能力;它需要一種有原則的方法來在不確定性下做決策。這凸顯了概率機器學習的必要性,它通過概率論和貝葉斯推理提供了一種系統的框架來推理未知。

高斯過程(GPs)是一種典型的概率模型,具有靈活性、數據效率和良好校準的不確定性估計。它們對許多順序決策算法至關重要,特別是貝葉斯優化(BO),它已經成為優化昂貴和復雜的黑盒目標函數的不可或缺的工具。盡管已經投入了大量的努力來提高GPs的可擴展性,但在實踐中,與神經網絡(NNs)相比,性能差距仍然存在,主要是因為GPs缺乏表示學習能力。這是GPs的其他自然不足之一,它阻礙了BO解決關鍵的現實世界優化挑戰的能力。

這篇論文旨在在概率方法中釋放深度學習的潛力,并相互借鑒深度學習的概率觀點。其中的貢獻包括改進近似方法,以彌合GPs和NNs之間的差距,提供了一種新的BO公式,可以無縫地容納深度學習方法,以解決復雜的優化問題,以及對圖像風格轉移的一類強大的深度生成模型進行概率解釋。通過豐富深度學習和概率ML之間的相互作用,這篇論文推動了AI的基礎,并促進了更有能力和可靠的自動決策系統的發展。

付費5元查看完整內容

動態穩定移動操縱器的使用正從受控研究實驗室擴展到真實世界。然而,自主操縱技能仍然專門用于單一任務,并且只能處理對象物理屬性的有限變化,這阻礙了機器人在非結構化人類環境中的部署。本論文關注于動態穩定移動操縱器的整體運動規劃和控制,以及為控制器提供實時適應由于與物體交互而引起的機器人動力學變化。

動態穩定移動操縱器,即配備機器人手臂的積極平衡移動機器人,在為人類設計的環境中工作潛力非常大。然而,它們的靈活性和順應性需要高控制復雜性。傳統的控制策略將移動和操縱問題分別處理,需要額外的啟發式方法來實現整體協調。此外,基于逆動力學的控制器不考慮系統未來的演變,這對平衡控制至關重要。另一方面,在本論文中,我們提出了一種基于模型預測控制(MPC)的整體運動規劃和控制公式。我們的方法利用了完整的機器人動力學,并共同優化平衡、基座追蹤、末端執行器追蹤和環境交互。我們在一個球平衡操縱器的廣泛實驗中驗證了所提出的整體MPC控制器。

當機器人動力學不準確或操縱新物體時,模型不確定性可能嚴重影響MPC的性能和通用性。為了解決這個問題,我們提出了兩種在線適應方案,用于MPC系統動力學中的物體參數,我們在一個球平衡操縱器的開門和舉起物體任務中展示了這一點。盡管我們最初將外部環境建模為線性系統,但對于更復雜的操縱任務或機器人動力學中的不確定性,需要更具描述性的表示。因此,我們提出將模型誤差近似為三角函數基函數的線性組合。假設當機器人執行類似操縱任務時,動力學的基本結構不會發生顯著變化,我們從相關實驗中收集的數據學習基函數的超參數,例如,讓機器人打開具有不同剛度系數的門。執行新任務時,基函數的超參數保持不變,而線性參數在線適應。我們在仿真和硬件實驗中測試了得到的多任務學習MPC控制器,并與其他自適應MPC控制器進行了廣泛比較。

最后,為了在參數不確定性下獲得更好的跟蹤性能,我們將機器人操縱器自適應控制中導出的控制Lyapunov函數(CLF)約束納入最優控制問題的不等式集合中。因此,我們獲得了一種結合了CLFs和MPC優勢的自適應控制器,在機器人與未知物體交互時提供了改進的性能,并減少了對MPC預測范圍調整的依賴。我們通過與幾個基線的比較展示了所提方法的優勢,并在一個四足機器人搬運磚塊和拖拽重箱的硬件測試中驗證了它。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。

//searchworks.stanford.edu/view/14053711

付費5元查看完整內容

計算機視覺(Computer Vision)是一門多學科科學,致力于讓機器具備“看”的能力。 這個問題是很具有挑戰性的,因為我們從現實的視覺世界中觀察到了巨大的復雜性和外觀的變化。迄今為止,機器學習技術提供了最有有效的方法來設計具有人類圖像理解能力的系統。今天為大家再來了劍橋大學Alex Kendall的博士論文-計算機視覺深度學習中的幾何結構與不確定性。

針對一些核心計算機視覺問題,包括語義分割,實例分割,深度預測,定位,立體視覺和視頻場景理解等等問題,論文中的介紹了一些端到端深度學習架構。這些的框架優于傳統方法,并在許多具有挑戰性的計算機視覺問題上具有很不錯的效果。

論文目錄:

  1. 介紹(Introduction)
  2. 場景理解(Scene Understanding )
  3. 本地化(Localisation)
  4. 立體視覺(Stereo Vision)
  5. 運動場景(Motion)
  6. 結論(Conclusions)
付費5元查看完整內容
北京阿比特科技有限公司