亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

來源|麻省理工學院新聞辦公室 編輯|專知翻譯整理

?研究人員發現一些計算機視覺系統處理圖像的方式與人類通過眼角看到的方式之間存在相似之處

也許計算機視覺和人類視覺有更多的共同點?

麻省理工學院的研究表明,某種類型的強大計算機視覺模型感知視覺表示的方式類似于人類使用周邊視覺的方式。這些模型被稱為對抗性魯棒模型,旨在克服添加到圖像數據中的細微噪聲

研究人員發現,這些模型學習轉換圖像的方式類似于人類外圍處理中涉及的某些元素。但由于機器沒有視覺外圍,計算機視覺模型的工作很少集中在外圍處理上,資深作者、大腦、思維和機器中心的博士后 Arturo Deza 說。

“這似乎是周邊視覺,以及正在進行的紋理表示,已被證明對人類視覺非常有用。所以,我們的想法是,也許對機器也有一些用途,”核心作者、電氣工程和計算機科學系的研究生 Anne Harrington 說。

結果表明,設計一個包含某種形式的外圍處理的機器學習模型可以使模型能夠自動學習對圖像數據中的一些細微操作具有魯棒性的視覺表示。Deza 補充說,這項工作還可以幫助闡明人類外圍處理的目標,這些目標仍然沒有得到很好的理解。

該研究成果在國際頂會(ICLR 2022)上發表(如下)。
Finding Biological Plausibility for Adversarially Robust Features via Metameric Tasks】:最近的工作表明,深度神經網絡 (DNN) 訓練數據集中的特征約束驅動了對抗性噪聲的魯棒性(Ilyas 等人,2019 年)。通過圖像處理,這種對抗性魯棒網絡學習的表示也被證明比非魯棒網絡在人類感知上更一致(Santurkar 等人,2019 年,Engstrom 等人,2019 年)。盡管看起來更接近人類視覺感知,但尚不清楚穩健 DNN 表示中的約束是否與人類視覺中發現的生物約束相匹配。人類視覺似乎依賴于外圍基于紋理/摘要的統計表示,這已被證明可以解釋諸如擁擠 (Balas et al., 2009) 和視覺搜索任務 (Rosenholtz et al., 2012) 等現象。為了了解對抗性魯棒優化/表示與人類視覺相比如何,我們使用類似于 Freeman & Simoncelli, 2011, Wallis et al., 2016 和 Deza et al., 2019 的 metamer 任務進行了心理物理學實驗,我們評估了人類的表現如何觀察者可以區分為匹配對抗性魯棒表示而合成的圖像與非魯棒表示和周邊視覺的紋理合成模型(Texforms a la Long et al., 2018)。我們發現,隨著刺激在外圍呈現得更遠,魯棒表示和紋理模型圖像的可辨別性降低到接近機會的表現。此外,魯棒和紋理模型圖像的性能在參與者中顯示出相似的趨勢,而在非魯棒表示上的性能在整個視野中變化很小。這些結果共同表明(1)對抗性魯棒表示比非魯棒表示更好地捕獲外圍計算,以及(2)魯棒表示捕獲外圍計算,類似于當前最先進的紋理外圍視覺模型。更廣泛地說,我們的研究結果支持這樣一種觀點,即局部紋理摘要統計表示可能會推動人類對對抗性擾動的不變性,并且在 DNN 中加入此類表示可能會產生有用的屬性,如對抗性魯棒性。這些結果共同表明(1)對抗性魯棒表示比非魯棒表示更好地捕獲外圍計算,以及(2)魯棒表示捕獲外圍計算,類似于當前最先進的紋理外圍視覺模型。更廣泛地說,我們的研究結果支持這樣一種觀點,即局部紋理摘要統計表示可能會推動人類對對抗性擾動的不變性,并且在 DNN 中加入此類表示可能會產生有用的屬性,如對抗性魯棒性。這些結果共同表明(1)對抗性魯棒表示比非魯棒表示更好地捕獲外圍計算,以及(2)魯棒表示捕獲外圍計算,類似于當前最先進的紋理外圍視覺模型。更廣泛地說,我們的研究結果支持這樣一種觀點,即局部紋理摘要統計表示可能會推動人類對對抗性擾動的不變性,并且在 DNN 中加入此類表示可能會產生有用的屬性,如對抗性魯棒性。

雙重視覺
 人類和計算機視覺系統都具有所謂的中心凹視覺,用于檢查高度詳細的物體。人類還擁有周邊視覺,用于組織廣闊的空間場景。Deza 說,典型的計算機視覺方法試圖模擬中央凹視覺——這是機器識別物體的方式——并且傾向于忽略周邊視覺。

但是中央凹計算機視覺系統容易受到攻擊者添加到圖像數據中的對抗性噪聲的影響。在對抗性攻擊中,惡意代理會巧妙地修改圖像,因此每個像素都發生了非常細微的變化——人類不會注意到差異,但噪音足以欺騙機器。例如,一張圖像對人類來說可能看起來像一輛汽車,但如果它受到對抗性噪聲的影響,計算機視覺模型可能會自信地將其誤分類為蛋糕,這可能會對自動駕駛汽車產生嚴重影響。

為了克服這個漏洞,研究人員進行了所謂的對抗性訓練,他們創建了經過對抗性噪聲操縱的圖像,將它們輸入神經網絡,然后通過重新標記數據并重新訓練模型來糾正其錯誤。

“僅僅進行額外的重新標記和訓練過程似乎就與人類處理產生了很多感知上的一致性,”Deza 說。

他和 Harrington 想知道這些經過對抗訓練的網絡是否健壯,因為它們編碼的對象表示類似于人類周邊視覺。因此,他們設計了一系列心理物理人體實驗來檢驗他們的假設。

檢測時間
 他們從一組圖像開始,并使用三種不同的計算機視覺模型從噪聲中合成這些圖像的表示:一個“正常”機器學習模型,一個經過訓練具有對抗魯棒性的模型,一個專門設計用于解釋了人類外圍處理的某些方面,稱為 Texforms。

該團隊在一系列實驗中使用了這些生成的圖像,參與者被要求區分原始圖像和每個模型合成的表示。一些實驗還讓人類區分來自相同模型的不同對隨機合成圖像。

參與者將他們的眼睛集中在屏幕的中心,而圖像則在屏幕的遠端,在他們周圍的不同位置閃爍。在一個實驗中,參與者必須在一系列圖像中識別出奇怪的圖像,這些圖像一次只閃爍幾毫秒,而在另一個實驗中,他們必須匹配在他們的中央凹處呈現的圖像,兩個候選模板圖像放置在他們的外圍。

 在實驗中,參與者將他們的眼睛集中在屏幕的中心,而圖像則在屏幕的另一邊閃爍,在他們周圍的不同位置,就像這些動畫 gif 一樣。在一項實驗中,參與者必須在一系列圖像中識別出奇怪的圖像,這些圖像一次只閃爍幾毫秒。由研究人員提供。

 在這個實驗中,研究人員讓人類將中心模板與兩個外圍模板之一進行匹配,而他們的眼睛不會從屏幕中心移開。由研究人員提供。

當合成圖像顯示在遠處時,參與者在很大程度上無法區分對抗性魯棒模型或 Texform 模型的原始圖像。標準機器學習模型并非如此。

然而,最引人注目的結果可能是人類所犯的錯誤模式(作為刺激在外圍的位置的函數)在所有使用來自 Texform 模型的刺激的實驗條件和對抗性穩健的模型。這些結果表明,對抗性穩健模型確實捕捉到了人類外圍處理的某些方面,Deza 解釋說。

研究人員還計算了特定的機器學習實驗和圖像質量評估指標,以研究每個模型合成的圖像之間的相似性。他們發現對抗性魯棒模型和 Texforms 模型生成的模型最相似,這表明這些模型計算相似的圖像轉換。

“我們正在闡明人類和機器如何犯同樣類型的錯誤,以及為什么會犯這種錯誤,”Deza 說。為什么會發生對抗性魯棒性?是否存在我們尚未在大腦中發現的機器對抗魯棒性的生物學等效物?”

Deza希望這些結果能激發該領域的更多工作,并鼓勵計算機視覺研究人員考慮構建更多受生物啟發的模型。

這些結果可用于設計具有某種模擬視覺外圍的計算機視覺系統,可以使其對對抗性噪聲具有自動魯棒性。這項工作還可以為機器的開發提供信息,這些機器能夠通過使用人類外圍處理的某些方面來創建更準確的視覺表示。

“我們甚至可以通過嘗試從人工神經網絡中獲取某些屬性來了解人類視覺,”Harrington 補充道。

以前的工作已經展示了如何隔離圖像的“穩健”部分,在這些圖像上的訓練模型使它們不太容易受到對抗性失敗的影響。達姆施塔特工業大學心理學研究所和認知科學中心的感知教授托馬斯沃利斯解釋說,這些強大的圖像看起來像是真實圖像的加擾版本。

“為什么這些強大的圖像看起來像它們的樣子?Harrington 和 Deza 使用仔細的人類行為實驗來表明,人們看到這些圖像與外圍原始照片之間差異的能力在質量上與從受生物啟發的人類外圍信息處理模型生成的圖像相似,”Wallis 說,誰沒有參與這項研究。“Harrington 和 Deza 提出,學習忽略外圍一些視覺輸入變化的相同機制可能是為什么穩健的圖像看起來像它們的樣子,以及為什么對穩健的圖像進行訓練會降低對抗敏感性。這個有趣的假設值得進一步研究,并且可以代表生物和機器智能研究之間協同作用的另一個例子。”

這項工作得到了麻省理工學院大腦、思想和機器中心和洛克希德馬丁公司的部分支持。

付費5元查看完整內容

相關內容

計算機視覺是一門研究如何使機器“看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數據中獲取‘信息’的人工智能系統。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

來源| 麻省理工學院
編輯| 專知翻譯整理

揭開機器學習系統的神秘面紗

麻省理工學院的研究人員創造了一種技術,可以用自然語言自動描述單個神經元在神經網絡中的作用。

01 研究成果在頂級會議【ICLR 2022】發表

標題 Natural Language Descriptions of Deep Visual Features

作者 Evan Hernandez, Sarah Schwettmann, David Bau, Teona Bagashvili, Antonio Torralba, Jacob Andreas

摘要 深度網絡中的一些神經元專門識別輸入的高度特定的感知、結構或語義特征。在計算機視覺中,存在用于識別對顏色、紋理和對象類別等單個概念類別作出反應的神經元的技術。但是這些技術的范圍有限,只能標記任何網絡中的一小部分神經元和行為。是否有可能對神經元級計算進行更豐富的表征?我們引入了一個程序(稱為 MILAN,用于神經元的互信息引導語言注釋),該程序使用開放式、組合式自然語言描述自動標記神經元。給定一個神經元,MILAN 通過搜索一個自然語言字符串來生成一個描述,該字符串使與神經元處于活動狀態的圖像區域的逐點互信息最大化。MILAN 生成細粒度的描述,捕捉學習特征中的分類、關系和邏輯結構。這些描述在各種模型架構和任務中與人工生成的特征描述高度一致,有助于理解和控制學習模型。我們重點介紹自然語言神經元描述的三種應用。首先,我們使用 MILAN 進行分析,表征視覺模型中對屬性、類別和關系信息有選擇性的神經元的分布和重要性。其次,我們使用 MILAN 進行審計,在旨在掩蓋這些特征的數據集上訓練的模型中顯示對受保護類別(如種族和性別)敏感的神經元。最后,我們使用 MILAN 進行編輯。

02 成果解讀

神經網絡有時被稱為黑盒,因為盡管它們可以在某些任務上勝過人類,但即使是設計它們的研究人員也常常不了解它們如何或為什么工作得這么好。但是,如果在實驗室外使用神經網絡,也許可以對有助于診斷心臟病的醫學圖像進行分類,了解該模型的工作原理有助于研究人員預測其在實踐中的表現。

麻省理工學院的研究人員現在已經開發出一種方法,可以揭示黑盒神經網絡的內部工作原理。以人腦為模型,神經網絡被排列成處理數據的互連節點或“神經元”層。新系統可以自動生成對這些單個神經元的描述,以英語或其他自然語言生成。

例如,在經過訓練以識別圖像中動物的神經網絡中,他們的方法可能將某個神經元描述為檢測狐貍的耳朵。與其他方法相比,他們的可擴展技術能夠為單個神經元生成更準確和更具體的描述。

在新論文中,該團隊表明,這種方法可用于審核神經網絡以確定它學到了什么,甚至可以通過識別然后關閉無用或不正確的神經元來編輯網絡。

“我們想創建一種方法,讓機器學習從業者可以為這個系統提供他們的模型,它會從模型神經元的角度,用語言告訴他們它所知道的關于該模型的一切。這可以幫助您回答基本問題,“我的模型是否知道一些我沒想到它會知道的東西?” 麻省理工學院計算機科學與人工智能實驗室 (CSAIL) 的研究生和主要作者 Evan Hernandez 說的論文。

合著者包括 CSAIL 的博士后 Sarah Schwettmann;David Bau,剛從 CSAIL 畢業的東北大學計算機科學助理教授;Teona Bagashvili,CSAIL 的前訪問學生;Antonio Torralba,Delta Electronics 電氣工程和計算機科學教授,CSAIL 成員;和資深作者 Jacob Andreas,CSAIL 的 X 聯盟助理教授。

03 自動生成描述

大多數幫助機器學習從業者了解模型如何工作的現有技術要么描述整個神經網絡,要么要求研究人員識別他們認為單個神經元可能關注的概念。

Hernandez 和他的合作者開發的系統被稱為 MILAN(神經元的互信息引導語言注釋),改進了這些方法,因為它不需要預先列出概念,并且可以自動生成網絡中所有神經元的自然語言描述. 這一點尤其重要,因為一個神經網絡可以包含數十萬個單獨的神經元。

MILAN 生成針對計算機視覺任務(如對象識別和圖像合成)訓練的神經網絡中的神經元的描述。為了描述給定的神經元,系統首先檢查該神經元在數千張圖像上的行為,以找到該神經元最活躍的一組圖像區域。接下來,它為每個神經元選擇一種自然語言描述,以最大化圖像區域和描述之間稱為逐點互信息的量。這鼓勵了描述每個神經元在更大網絡中的獨特作用。

“在經過訓練對圖像進行分類的神經網絡中,將有大量不同的神經元來檢測狗。但是有很多不同類型的狗和狗的很多不同部位。因此,即使“狗”可能是對許多這些神經元的準確描述,它的信息量也不是很大。我們想要對神經元正在做什么非常具體的描述。這不僅僅是狗;這是德國牧羊犬耳朵的左側,”Hernandez說。

該團隊將 MILAN 與其他模型進行了比較,發現它生成了更豐富、更準確的描述,但研究人員更感興趣的是了解它如何幫助回答有關計算機視覺模型的特定問題。

04 分析、審查和編輯神經網絡

首先,他們使用 MILAN 來分析哪些神經元在神經網絡中最重要。他們為每個神經元生成描述,并根據描述中的單詞對它們進行排序。他們慢慢地從網絡中移除神經元,看看它的準確性如何變化,并發現在描述中包含兩個非常不同的詞(例如花瓶和化石)的神經元對網絡不太重要。

他們還使用 MILAN 來審核模型,看看他們是否學到了一些意想不到的東西。研究人員采用在人臉模糊的數據集上訓練的圖像分類模型,運行 MILAN,并計算有多少神經元仍然對人臉敏感。

“以這種方式模糊面部確實減少了對面部敏感的神經元數量,但遠未消除它們。事實上,我們假設其中一些面部神經元對特定的人口群體非常敏感,這非常令人驚訝。這些模型以前從未見過人臉,但它們內部卻發生了各種面部處理,”Hernandez 說。

在第三個實驗中,該團隊使用 MILAN 通過查找和刪除檢測數據中不良相關性的神經元來編輯神經網絡,這導致網絡在表現出相關性問題的輸入上的準確性提高了 5%。

雖然研究人員對 MILAN 在這三個應用程序中的表現印象深刻,但該模型有時給出的描述仍然過于模糊,或者當它不知道它應該識別的概念時會做出錯誤的猜測。

他們計劃在未來的工作中解決這些限制。他們還希望繼續增強 MILAN 能夠生成的描述的豐富性。他們希望將 MILAN 應用于其他類型的神經網絡,并用它來描述神經元組的作用,因為神經元協同工作以產生輸出。

“這是一種自下而上的可解釋性方法。目標是使用自然語言生成功能的開放式組合描述。我們希望利用人類語言的表達能力來生成對神經元所做的更自然和豐富的描述。能夠將這種方法推廣到不同類型的模型是我最興奮的事情,”Schwettmann 說。

“對任何可解釋人工智能技術的最終測試是它是否可以幫助研究人員和用戶就何時以及如何部署人工智能系統做出更好的決策,”安德烈亞斯說。“我們距離能夠以一般方式做到這一點還有很長的路要走。但我樂觀地認為,米蘭——以及更廣泛地使用語言作為解釋工具——將成為工具箱中有用的一部分。”

這項工作的部分資金來自 MIT-IBM Watson AI Lab 和 SystemsThatLearn@CSAIL 計劃。

付費5元查看完整內容

來源| 麻省理工學院
編輯| 專知翻譯整理

如何幫助人類理解機器人?
 麻省理工學院和哈佛大學的研究人員建議,將認知科學和教育心理學的理論應用于人機交互領域,可以幫助人類為其機器人合作者建立更準確的心理模型,從而提高合作工作空間的性能并提高安全性。

HRI2022:Revisiting Human-Robot Teaching and Learning Through the Lens of Human Concept Learning Theory(從人類概念學習的角度重新審視人機教學)

研究人機交互的科學家往往專注于從機器人的角度理解人類的意圖,因此機器人學會更有效地與人合作。但人機交互是雙向的,人類也需要學習機器人的行為方式。

由于數十年的認知科學和教育心理學研究,科學家們對人類如何學習新概念有了很好的掌握。因此,麻省理工學院和哈佛大學的研究人員合作,將完善的人類概念學習理論應用于人機交互的挑戰。

他們檢查了過去的研究,重點是人類試圖教機器人新行為。研究人員發現了這些研究可以將兩種互補的認知科學理論中的元素納入他們的方法的機會。他們使用這些作品中的例子來展示這些理論如何幫助人類更快、更準確、更靈活地形成機器人的概念模型,從而提高他們對機器人行為的理解。

為機器人建立更準確的心智模型的人類通常是更好的合作者,當人類和機器人在制造和醫療保健等高風險情況下一起工作時,這一點尤其重要,Serena Booth 說,她是互動機器人小組的研究生。計算機科學與人工智能實驗室(CSAIL),該論文的主要作者。

“無論我們是否試圖幫助人們建立機器人的概念模型,他們無論如何都會建立它們。這些概念模型可能是錯誤的。這會使人們處于嚴重的危險之中。重要的是,我們盡我們所能為那個人提供他們可以建立的最佳心理模型,”Booth說。

Booth 和她的導師 Julie Shah 與哈佛大學的研究人員合作,共同撰寫了這篇論文。Julie Shah是麻省理工學院航空航天學教授,也是交互式機器人小組的負責人。Elena Glassman是哈佛大學John A. Paulson工程與應用科學學院的計算機科學助理教授,在學習理論和人機交互方面具有專業知識,是這個項目的主要顧問。哈佛大學的合著者還包括研究生Sanjana Sharma和研究助理Sarah Chung。這項研究在IEEE人機交互會議上發表。

01 理論方法

研究人員使用兩個關鍵理論分析了 35 篇關于人機教學的研究論文。“類比遷移理論”表明人類通過類比學習。當一個人與一個新的領域或概念進行交互時,他們會隱含地尋找他們可以用來理解新實體的熟悉的東西。

什么是人類概念學習? 人類概念學習的認知理論解釋了人類如何理解復雜的高維現象并對未揭示的事實和未來做出預測——因此,這些理論可用于幫助人類了解機器人在世界上的行為方式。我們著眼于兩個互補的理論,類比轉移理論和學習的變異理論,以告知界面如何最好地調解人類學習機器人行為的實踐。

變異理論支持人類將核心知識與表面或附帶細節區分開來,類比遷移理論支持人類將知識轉移到新概念或新現象。變異理論規定了方差和不變性的有序序列,以幫助人類將核心行為與表面或附帶的細節區分開來,而類比轉移理論則通過將新的和未知的概念與熟悉的實體對齊來規定知識轉移。這些理論共同為人機交互界面和算法提供了設計指導,即關于機器人行為的選擇、順序和呈現。

“學習的變異理論”認為,策略變異可以揭示一個人可能難以辨別的概念。它表明人類在與新概念交互時會經歷一個四步過程:重復、對比、概括和變化。

Booth說,雖然許多研究論文包含了一種理論的部分要素,但這很可能是偶然的。如果研究人員在工作開始時就參考了這些理論,他們可能能夠設計出更有效的實驗。

例如,在教人類與機器人互動時,研究人員經常向人們展示機器人執行相同任務的許多示例。但是為了讓人們建立一個準確的機器人心智模型,變異理論表明他們需要看到機器人在不同環境中執行任務的一系列示例,并且他們還需要看到它犯錯。

“這在人機交互文獻中非常罕見,因為它違反直覺,但人們還需要看到負面例子來理解機器人不是什么,”Booth說。

這些認知科學理論也可以改進物理機器人設計。Booth 解釋說,如果機械臂類似于人類手臂,但運動方式與人類運動不同,那么人們將難以建立機器人的準確心智模型。正如類比轉移理論所建議的那樣,由于人們將他們所知道的——人類手臂——映射到機器人手臂,如果運動不匹配,人們可能會感到困惑并且難以學習與機器人互動。

02 增強解釋

Booth和她的合作者還研究了人類概念學習理論如何改進解釋,以幫助人們建立對不熟悉的新機器人的信任。

“在可解釋性方面,我們有一個非常大的確認偏差問題。通常沒有關于解釋是什么以及人們應該如何使用它的標準。作為研究人員,我們經常設計一種解釋方法,它對我們來說看起來不錯,然后我們將其發布,”她說。

相反,他們建議研究人員使用人類概念學習的理論來思考人們將如何使用解釋,這些解釋通常由機器人生成,以清楚地傳達他們用來做出決策的政策。Booth說,通過提供幫助用戶理解解釋方法的含義、何時使用以及不適用的地方的課程,他們將對機器人的行為有更深入的理解。

根據他們的分析,他們就如何改進人機教學研究提出了一些建議。一方面,他們建議研究人員通過指導人們在學習使用新機器人時進行適當的比較來結合類比轉移理論。Booth說,提供指導可以確保人們使用合適的類比,這樣他們就不會對機器人的行為感到驚訝或困惑。

他們還建議,包括機器人行為的正面和負面例子,并讓用戶了解機器人“策略”中參數的戰略變化如何影響其行為,最終跨越戰略變化的環境,可以幫助人類更好更快地學習。機器人的策略是一個數學函數,它為機器人可以采取的每個動作分配概率。

“多年來,我們一直在進行用戶研究,但我們一直根據自己的直覺從臀部拍攝,以了解什么對向人類展示有幫助或無用。下一步將更加嚴格地將這項工作建立在人類認知理論的基礎上,”Glassman說。

既然使用認知科學理論的初步文獻綜述已經完成,Booth計劃通過重建她研究的一些實驗來測試他們的建議,看看這些理論是否真的能改善人類學習。

?這項工作得到了美國國家科學基金會的部分支持。

03 成果在【ACM/IEEE International Conference on Human-Robot Interaction (HRI) 2022】發表

標題
 Revisiting Human-Robot Teaching and Learning Through the Lens of Human Concept Learning

作者 Serena Booth,Sanjana Sharma,Sarah Chung,Julie Shah,Elena L. Glassman

摘要 在與機器人交互時,人類會形成概念模型(質量參差不齊)來捕捉機器人的行為方式。這些概念模型只是通過觀察機器人或與機器人互動而形成的,無論有沒有有意識的思考。一些方法選擇和呈現機器人行為以改進人類概念模型的形成;然而,這些方法和更廣泛的 HRI 尚未參考人類概念學習的認知理論。這些經過驗證的理論提供了具體的設計指導,以支持人類更快、更準確、更靈活地開發概念模型。具體而言,類比遷移理論和學習變異理論已成功應用于其他領域,并為 HRI 社區提供了關于機器人行為選擇和呈現的新見解。運用這些理論,我們回顧并分析了 35 部先前在人機教學中的作品,并評估這些作品如何融入或省略這些理論的設計含義。從這篇綜述中,我們發現了算法和界面的新機會,可以幫助人類更輕松地學習機器人行為的概念模型,這反過來又可以幫助人類成為更有效的機器人教師和合作者。

paper //www.slbooth.com/HRI_2022_HCL_for_HRI.pdf ?

付費5元查看完整內容

近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。

//searchworks.stanford.edu/view/13876455

付費5元查看完整內容
北京阿比特科技有限公司