亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

無人駕駛飛行器 (UAV) 在過去十年中受到無人機硬件和監管框架的快速創新推動,被設想用于為未來社會多種服務應用。從下一代無線網絡的角度來看,無人機不僅有望充當被動蜂窩連接用戶的角色,而且還可以作為無人機輔助網絡的一部分,作為連接的主動推動者。用例范圍從貨物的“最后一英里”交付、客運、基礎設施檢查、環境監測和測量到智能農業的推動者。它們快速靈活的部署使它們在地面通信基礎設施不堪重負或被破壞的情況下特別有用,例如在自然災害和搜救情況下。在擴展永久性網絡基礎設施不可行或經濟上不可行的偏遠地區,無人機可以為目前沒有移動互聯網的世界一半人口提供移動互聯網接入。

圖 1.1 無人機提供通信服務和支撐固定基礎設施的應用示例。

圖 1.2 無人機分類。

無人機在所有潛在應用場景中的決定性優勢是它們的移動性。為了充分利用它們的能力,靈活高效的路徑規劃方法是必要的。本論文的重點是探索機器學習 (ML),特別是強化學習 (RL),作為解決無人機移動管理挑戰的一類有前途的解決方案。隨著近年來RL與神經網絡相結合的研究進展,deep RL是為數不多的能夠直接解決通信場景下無人機控制與部署復雜任務的框架之一,因為這些問題通常是NP-hard優化問題,且受到非凸性的嚴重影響。此外,深度 RL 提供了以直接方式平衡無人機輔助網絡的多個目標的可能性,它在先驗或模型信息的可用性方面非常靈活,而深度 RL 推理在計算上是高效的。

中小型無人機路徑規劃的一個關鍵限制是它們的最大活動任務時間受到機載電池能量密度的限制。當用作向地面用戶提供數據服務的空中基站 (BS) 時,自主無人機需要共同優化其飛行時間和系統的通信性能目標。論文的第一部分探討了使用深度 Q 學習來控制空中 BS,該 BS 從地面用戶那里收集數據,同時集成專用著陸點,無人機可以在著陸點著陸,從而在繼續為用戶服務的同時在其軌跡上節省能源。深度 Q 學習允許無人機在沒有任何關于環境或任務的明確信息的情況下找到有效的軌跡。

圖 3.1 空中 BS 移動決策是根據無人機的當前狀態做出的,即位置和電池電量。 UAV 完全不知道環境的先驗知識,即不知道著陸點(LS)的存在或位置、用戶位置、信道模型或最終 UAV 著陸位置。雖然 LS 提供了節能的可能性,但 UAV BS 可能不得不為某些用戶犧牲一些 QoS。

雖然 RL 范式為解決無人機輔助網絡中的優化問題提供了許多優勢,但仍然存在一些實際挑戰,尤其是在無人機可以學習的訓練數據需求的背景下。在現實世界中收集訓練數據是一個昂貴且耗時的過程,而在傳統的 RL 方法中,如果任務參數發生變化,則需要重復冗長的訓練過程,例如無人機的電池容量。在本論文中,我們通過提出一種深度 RL 算法來解決這個問題,該算法將訓練擴展到來自分布式物聯網 (IoT) 設備的無人機數據收集任務的隨機實例,如果任務參數發生變化,則無需重新訓練。與傳統方法相比,結果是一個復雜得多的問題,因為需要同時找到數千個任務實例的解決方案。這可以通過利用任務密集城市環境的智能處理地圖信息來實現。我們將此設置擴展到協作多無人機案例,其中出現機群協作的額外挑戰,以及大型、復雜和現實的城市環境挑戰。

圖 4.7 同一智能體適應設備數量和設備位置差異以及飛行時間限制的圖示,顯示了曼哈頓場景中已使用和可用的飛行時間以及收集和可用的總數據。

圖 5.8 軌跡圖說明傳播條件的變化對已經訓練好的智能體的影響。圖 5.8a 顯示了在智能體訓練時使用路徑損耗指數的原始行為。圖 5.8b 顯示了相同智能體在其他情況不變的情況下,路徑損耗指數略低。

論文的以下部分探討了無人機輔助通信和機器人技術,這是兩個通常不相交的研究界。 RL 范式的固有靈活性為提出可在多個無人機路徑規劃實例中工作的解決方案提供了機會,例如物聯網數據收集和覆蓋路徑規劃 (CPP),這是一個經典的機器人問題。最后,在本文的最后一部分,研究了基于模型輔助學習框架的另一種解決RL算法訓練數據需求挑戰的方法。在這種方法中,UAV首先學習真實環境的模型,然后利用學習的模型生成模擬訓練數據,大大減少了對昂貴的真實世界數據的需求

付費5元查看完整內容

相關內容

摘要

物聯網 (IoT) 和網絡物理系統的指數級增長導致了復雜的環境,其中包括各種相互交互和與用戶交互的設備。此外,人工智能的快速發展使這些設備能夠通過使用強化學習 (RL) 等技術自主修改其行為。因此,需要在網絡邊緣建立一個具有全局環境視圖的智能監控系統,以自主預測最佳設備動作。然而,很明顯,確保此類環境中的安全至關重要。為此,我們為物聯網環境開發了一個受約束的 RL 框架,該框架使用深度 Q 學習確定與用戶定義的目標或所需功能相關的最佳設備操作。我們在網絡邊緣使用基于異常的入侵檢測來動態生成安全策略來約束框架中的 RL 智能體。我們通過操縱 RL 框架中對安全和不安全利益狀態空間的探索來分析物聯網環境中“安全/保障”和“功能”之間所需的平衡。我們實例化了用于測試智能家居環境中應用層控制的框架,以及網絡層控制,包括速率控制和路由等網絡功能,用于基于 SDN 的環境。

1 引言

物聯網 (IoT) 與網絡物理系統相結合的部署導致了復雜的環境,其中包括各種設備相互交互以及通過在手機、平板電腦和臺式機等計算平臺上運行的應用程序與用戶交互。物聯網設備通信協議的發展,如 6LowPAN、CoAp 和 Zigbee,以及人工智能的進步,使得互連這些不同的物聯網設備并實現智能自主物聯網系統成為可能。然而,基于物聯網的智能系統需要設備、應用程序、用戶和邊緣之間的互連和互操作。如此復雜的物聯網設備和應用程序相互動態交互的環境很容易出現安全/安全問題[1]-[3]。另一個問題是,就功能而言,每個應用程序都有特定的個人目標。但是,在選擇要執行的操作時,應用程序不會考慮物聯網設備部署環境的全局視圖。這種缺乏意識可能導致在用戶需求或目標方面不是全局最優的決策和行動。顯然,需要“智能”監控系統來確保安全并最大限度地利用所有設備和應用程序及其交互的全局視圖來最大化功能。

真正的“智能”系統需要環境中的物聯網設備智能地協同工作,以支持用戶使用隱藏在連接這些設備的網絡中的信息和智能以“安全”和“最佳”方式執行他們的活動,幾乎不需要用戶管理,并且可以根據歷史和實時數據做出明智的決策。網絡邊緣是部署此類智能監控系統的理想場所,因為它可以訪問學習所需的實時和歷史數據,以及運行強大的機器學習方法所需的強大計算和存儲能力。隨著邊緣計算的最新進展,用于開發我們的框架的霧計算范式 [4],[5] 在安全性、隱私性、可擴展性、可靠性、速度和效率方面提供了優于傳統分布式和云計算的優勢。最重要的是,軟件定義網絡(SDN)、零信任安全架構和網絡功能虛擬化(NFV)在大型現代企業和5G網絡中的出現和成功部署,為構建“智能”網絡控制器提供了可能利用機器學習 (ML) 技術來學習優化和安全流量工程的策略。

隨著人工智能的快速發展,強化學習 (DRL) 已成為使這些設備能夠自主修改其行為的強大工具。將 DRL 應用于 IoT 和 SDN 環境是一個有利可圖的概念。但是,任何以優化為單一目標的機器學習智能應用都不會考慮由于環境參數而達到的不安全狀態。以前的工作集中在構建基于應用層 RL 的解決方案,以優化具有特定目標的物聯網環境,如能源管理 [6],[7]、最佳資源分配 [8]、能源價格最小化 [9] 等。類似的方法已經被用于優化網絡層功能,例如 SDN 環境中的路由,例如路由 [10]-[13] 和速率控制/負載平衡 [14]、[15]。如前所述,這些 RL 框架的缺點是它們專注于優化某些目標,但沒有考慮環境的安全性。

1.1 研究問題

需要部署在網絡邊緣的自主控制系統,能夠支持應用程序/用戶,通過在應用程序和網絡層提供最佳設備操作,在所需功能方面為用戶最大化 QoS,同時保持安全并保護受監控的物聯網環境

1.2 挑戰

我們解決此類研究問題的方法是基于 DRL 技術的使用,該技術受到安全策略使用的限制。然而,為復雜的物聯網環境設計這種方法需要解決幾個挑戰:

  • 1.安全策略取決于在環境中檢測到的入侵類型,這些環境通常具有各種感染源、階段和載體,如惡意軟件、基于網絡的攻擊、惡意內部人員、旁道攻擊、良性用戶妥協、僵尸網絡攻擊等。由于攻擊面迅速增長并隨環境而變化,因此挑戰在于能夠動態指定合適的安全策略。
  • 2.RL 框架通過“自由”探索其環境(狀態空間)來學習,以找到最佳策略。挑戰在于建立一個強化學習框架,其中智能體受這些安全策略“約束”,但同時可以“自由探索”,以便在物聯網生態系統中學習“最佳”和“安全”行動。因此,一個挑戰是在智能體探索中確定“不安全狀態空間”方面的“約束”和“安全狀態空間”方面的“自由”之間的正確權衡。
  • 3.所有 RL 框架都在環境或環境本身的模型(模擬)上工作。為物聯網環境構建模型具有挑戰性,因為噪聲、用戶錯誤、故障等變量的固有分布不穩定。完全無模型的方法需要實際經驗才能進行訓練,這使得探索更加危險。
  • 4.RL 框架應該是靈活的,可以以最少的人力適用于不同的環境。因此,理想情況下,RL 框架不僅應該從他們的經驗中學習最優策略,即狀態-動作對獎勵,還應該了解模型本身或更具體的狀態轉換概率。
  • 5.由于設備、用戶、環境特定功能等方面的差異,為一個 IoT 環境學習的策略通常不能直接應用于其他 IoT 環境。因此,挑戰是在一個環境中使用從學習策略獲得的知識并將它們應用到不同環境的語境。
  • 6.在此類環境中,安全性的單點故障是中央 SDN 控制器本身,它可以通過網絡層攻擊(如 DoS、DDoS、BruteForce 和基于 Web 的攻擊)受到損害。因此,一個挑戰是學習 SDN 邊緣控制器以及應用層邊緣控制器的最佳策略。這需要學習針對核心網絡功能(如路由、速率控制等)的安全約束優化策略。

1.3 解決方案

為了解決上述研究問題,我們設計了一個包含三個主要組件的架構:E-Spion、Jarvis 和 Jarvis-SDN。從 E-Spion 日志中學習到的安全和安全策略用于構建 Jarvis DRL 框架的模型或狀態轉換概率,如圖 1.1 所示。形式上,Jarvis 和 Jarvis-SDN 可以定義為基于 Dyna-Q 框架 [16] 的基于模型的 RL 框架,其中:(i) 從 E-Spion 學習安全/安保策略方面的環境模型,以及 (ii) 學習模型的最優策略由 RL 代理從模擬經驗中學習。我們提供了有關以下三個組件中的每一個的更多詳細信息。

圖 1.1 學習架構的高級概述

1.3.1 E-Spion:基于邊緣的物聯網環境入侵檢測

E-Spion 是用于物聯網設備的基于異常的系統級入侵檢測系統 (IDS)。它使用系統級信息(例如運行過程參數及其系統調用)以自主、高效和可擴展的方式根據物聯網設備的“行為”對其進行分析。然后使用這些配置文件來檢測指示入侵的異常行為。我們的 IDS 的模塊化設計以及獨特的設備邊緣拆分架構允許在物聯網設備上以最小的開銷進行有效的攻擊檢測。我們的設備配置文件使用三種類型的設備日志(每層一個)構建在三層中,這些日志從三種類型的信息中獲取:運行進程名稱、運行進程參數和這些進程進行的系統調用。由于這些日志類型中的每一種都有不同的記錄、存儲和分析開銷,因此我們維護了三個獨立的模塊來處理每種類型的設備日志,即 PWM、PBM 和 SBM。這些模塊可以根據設備/網絡要求(資源消耗、相關風險等)以不同的配置值(記錄間隔、睡眠時間等)同時運行。模塊使用通用模塊管理器相互交互,以提高整體檢測效率,提供更細粒度的入侵警報,并減少設備上的開銷。通過搜索異常行為,可以從 E-Spion 日志中提取環境的安全和安全策略。

1.3.2 Jarvis:一個為物聯網環境量身定制的受限DRL框架

通過觀察具體的 IoT 環境,Jarvis 首先根據設備狀態和動作動態構建模擬環境。受安全策略約束的代理可以在特定時間段的多個情節中遍歷模擬環境,并根據用戶提供的功能需求找到最佳的安全動作。深度 Q 學習網絡 (DQN) 用于確定每個環境狀態和時間實例的最高獎勵(質量)動作。 Q 學習方法非常適合這樣的環境/生態系統,在這種環境/生態系統中,對于每個狀態-動作對,我們可以根據用戶目標在一段時間內通過累積獎勵來確定其質量。我們使用深度神經網絡 (DNN) 訓練代理以最大化累積獎勵,從而生成最佳質量函數。圖 1.2 顯示了框架的高級輪廓。需要注意的是,Jarvis 框架中使用的安全策略可以從 E-Spion 日志中動態獲取,也可以通過離線可用的 IDS 系統的其他攻擊簽名獲取。

圖1.2 JarvisRL框架

1.3.3 Jarvis-SDN:用于SDN環境的受限DRL框架

Jarvis-SDN 基于用于 Jarvis 的類似 RL 框架,但在網絡層而不是應用層運行。 RL 框架的目標是優化網絡控制。盡管網絡控制有很多方面,但在本論文中,我們重點關注網絡成功運行所需的兩個核心網絡功能組件: 1. 路由:確定從節點 A 到 B 的數據包傳輸路徑,以最大限度地減少延遲和 2. 速率控制:確定為節點 A 和 B 之間的每個網絡會話分配多少帶寬或優先級以滿足用戶 SLA。然后將安全約束作為風險指標編碼到 Jarvis-SDN 優化標準中,以保護網絡控制器免受 DoS、DDoS、Brute-Force 和基于 Web 的攻擊,同時學習最佳網絡策略。例如,在路由方面,理想情況下,可疑的網絡流(可能是 DDoS 攻擊)應該通過網絡上運行 DDoS IDS/IPS 的節點進行路由。在速率控制方面,在IDS/IPS能夠做出準確推斷之前,應該對惡意流進行節流。

1.4 論文大綱

本論文的其余部分安排如下。首先,在第 2 章中,我們回顧了為 IoT 設計的 IDS/IPS 系統,并開發了 E-Spion,這是一個專門用于 IoT 環境的基于主機的 IDS。在第 3 章中,我們定義了 Jarvis 模型,用于物聯網智能家居環境中的應用層控制。在第 4 章和第 5 章中,我們分別定義了 Jarvis-SDN 模型,用于 SDN 環境中的網絡層速率控制和路由。

我們的 DRL 模型 Jarvis 用于應用層控制和 Jarvis-SDN 用于網絡控制的實例化需要解決一個關鍵挑戰,即大規模應用這些技術。純離線 RL 模型會隨著模擬環境的質量下降而隨規模下降。另一方面,出于顯而易見的原因,以純在線方式學習安全策略是不可行的。這是將 RL 模型應用于現實世界環境的一個基本問題。在第6 章中,我們更詳細地討論了這一挑戰,并使用生成對抗網絡 (GAN) 提供了解決這一挑戰的方法,該網絡基于在離線環境中通過在線環境中的真實探索來增強探索的方法。最后,在第7章中,我們提供了一個結論和未來工作的途徑。

圖6.1 武裝部隊的軟件定義聯盟 (SDC)

付費5元查看完整內容

澳大利亞皇家海軍 (RAN) 最近推出了一項開發和使用機器人、自主系統和人工智能 (RAS-AI) 的戰略,該戰略將通過一項運動計劃來實施。蘭德澳大利亞研究團隊正在通過建立證據基礎來支持 RAN 的這項工作,以幫助識別和塑造基礎活動。本報告概述了近期和長期(到 2040 年)海上 RAS-AI 技術的現狀和軌跡,并對近期、中期和長期可能執行的任務進行了高級審查根據相關的技術和非技術推動因素。

本報告并沒有研究人工智能在海上行動中更廣泛的整合,而是關注支撐無人平臺的任務和技術的進步,包括無人空中、水面和水下航行器。除了概述近期和長期 RAS-AI 任務的關鍵技術推動因素外,該報告還指出了在 RAS-AI 能力發展中應考慮的三個關鍵原則:(1)關注多種技術(新系統和“遺留”系統),而不是單一的技術解決方案; (2) 考慮國防和商業 RAS-AI 系統的互補性進展; (3) 監測非技術因素,例如不斷發展的監管、法律、政策和道德框架,這些框架可能會顯著影響未來的技術采用路徑

研究問題

  • RAS-AI 技術和任務在海洋領域的前景如何?
  • 到 2040 年,海上領域的 RAS-AI 技術和任務的可能軌跡是什么?
  • 哪些可能的技術推動因素會塑造未來海上區域的 RAS-AI 任務?

主要發現

  • 快速發展的技術環境使 RAS-AI 任務在海洋領域得以擴展
    • 無人駕駛飛行器 (UAV) 任務的跨度有所增長,特別是因為無人機的覆蓋范圍、適應性和生存能力不斷增加(盡管仍然相對有限)。
    • 由于通信、有效載荷和模塊化的進步,越來越多地使用無人水面航行器(USV)來支持海軍任務已經成為可能,盡管限制包括依賴載人平臺的遠程控制以及與其他車輛的有限集成。
    • 無人水下航行器 (UUV) 任務已經擴大,因為其在更深的深度、更遠的距離以及先進的傳感器和有效載荷下運行的能力越來越強。然而,水下通信、網絡和深水導航的有限耐力和未解決的障礙仍然對 UUV 任務施加了限制。
  • 在所有平臺上,海上 RAS-AI 任務可能會在短期內擴大,這得益于幾個關鍵技術領域的進步
    • 在自治、集群、互操作性、安全通信和信息交換、生存能力、推進和能源管理以及先進傳感和多任務平臺開發等領域取得了進展。
  • 從長遠來看,技術和非技術障礙可能會限制某些 RAS-AI 任務
    • 長期 RAS-AI 任務可能包括在有爭議的環境中部署以及在進攻性自主和動力應用中的部署,盡管后者可能會受到道德、法律和監管障礙的嚴重限制。
    • 長期任務和技術前景的特點是存在很大的不確定性,可能需要通過后續研究探索更多種類的具有潛在破壞性的未來 RAS-AI 任務、技術和戰術。
付費5元查看完整內容

摘要

在過去的幾年里,深度學習和醫學的交叉點取得了快速的進展,特別是在醫學圖像的理解方面。在這篇論文中,我描述了三個關鍵方向,它們為醫學圖像理解的深度學習技術的發展帶來了挑戰和機遇首先,討論了專家級醫學圖像理解算法的開發,重點是遷移學習和自我監督學習算法,旨在在低標記醫學數據設置中工作。其次,討論了高質量數據集的設計和管理及其在推進算法開發中的作用,重點是使用有限手動注釋的高質量標簽。第三,討論了醫學圖像算法的真實世界評估,以及系統分析臨床相關分布變化下的性能的研究。總之,本論文總結了每個方向的關鍵貢獻和見解,以及跨醫學專業的關鍵應用

圖:CheXpert 任務是預測來自多視圖胸片的不同觀察結果的概率。

圖:對比學習最大化同一胸部 X 射線圖像的不同增強所生成嵌入的一致性。

引言

未來幾年,人工智能 (AI) 有望重塑醫學。人工智能系統將常規用于早期檢測疾病、改善預后并提供更成功的個性化治療計劃,同時節省時間和降低成本。在不久的將來,可以讀取胸部 X 光片或組織病理學切片的算法將為醫生管理工作清單,為無需亞專業培訓的臨床醫生提供決策支持,并為人工智能驅動的遠程醫療服務提供支持。在醫院之外,人工智能技術將用于持續監測數百萬患者的健康狀況,并以前所未有的規模將患者安排就診和跟進。

近年來,深度學習是一種人工智能形式,其中神經網絡直接從原始數據中學習模式,在圖像分類方面取得了顯著成功[128]。因此,醫學 AI 研究在嚴重依賴圖像理解的專業領域蓬勃發展,例如放射學、病理學和眼科 [137]。過去幾年,算法的進步和數據集的創建推動了這一進步。在算法方面,卷積神經網絡架構和訓練程序的改進使醫學成像應用取得了進展。此外,這些算法的成功得益于對用于醫學成像的大型標簽數據集的管理。一些 AI 工具已經從測試轉向部署,清除了監管障礙并贏得了行政支持 [20]。批準公共保險報銷費用的醫療保險和醫療補助服務中心通過允許一些用于醫學圖像診斷的人工智能工具的首批報銷,促進了人工智能在臨床環境中的采用 [69]。然而,在回顧性數據集上成功理解醫學圖像的深度學習算法的數量與轉化為臨床實踐的數量之間仍然存在很大差距 [116]。

本論文提出,廣泛部署用于醫學圖像理解的深度學習算法存在三個關鍵技術挑戰。該領域面臨的第一個挑戰是,當前算法的開發側重于解決需要大量干凈數據的狹窄任務,而不是解決醫學中常見的具有噪聲或有限標簽數據的更廣泛任務。該領域面臨的第二個挑戰是用于訓練和驗證模型的數據集是小型、嘈雜和同質的,而不是大型、高質量和異構的。該領域面臨的第三個挑戰是,當前的研究在訓練算法的數據集分布的背景下驗證算法,而臨床部署需要在臨床相關的分布變化下評估算法性能。

論文結構

本論文涵蓋了算法、數據集和研究方向的進步、挑戰和機遇

算法

在過去的幾年里,深度學習算法的一些初步成果可以達到醫學專家水平,做出臨床上重要的診斷,包括放射學、心臟病學、皮膚病學、眼科和病理學[139]。在第 2 章中,我描述了一種用于檢測胸部 X 射線疾病的算法開發,我們證明該算法的性能可以與專業放射科醫生相媲美。在第 3 章中,我描述了一種算法開發,該算法在專業心臟病專家的水平上通過心電圖檢測異常心律。在這兩種情況下,我還描述了使訓練端到端深度學習算法成為可能的大型數據集的集合。這些章節一起描述了胸部 X 射線判讀和心律失常檢測任務的專家級表現的首次展示。

算法開發的主要實際挑戰之一是它們依賴于手動、耗時的數據注釋。特別是對于需要大量注釋專業知識的生物醫學任務,開發監督深度學習算法所需的大規模數據標記尤其具有挑戰性。對于醫學成像,使用預訓練 ImageNet [55] 模型的遷移學習一直是在有限的標記數據設置中開發算法的標準方法 [180]。在第 4 章中,我描述了對 ImageNet 架構的性能和效率以及胸部 X 光解讀權重的首次系統研究。在第 5 章和第 6 章中,我還描述了自我監督對比學習如何實現醫學訓練模型的范式轉變,其中相對少量的注釋可以訓練高度準確的模型。這些章節描述了遷移學習和自我監督學習如何解決醫療環境中有限標記數據的算法挑戰。

數據集

大型、高質量的數據集在推動深度學習算法的應用和進步方面發揮著關鍵作用。在醫學領域,數據集管理需要與醫院管理員建立合作伙伴關系,建立安全處理和去識別數據的框架,以及數據組織和注釋的策略。在第 7 章中,我描述了胸部 X 射線照片數據集的管理和合成轉換,旨在評估 X 射線照片的算法性能,以在真實臨床環境中進行基準穩健性測試。在第 8 章中,我描述了包含組織微陣列載玻片的數據集的管理和注釋,以及來自癌癥病例的臨床和細胞遺傳學數據,以發現預后生物標志物。

對于醫學影像數據集,標注通常需要人工標注,成本高且難以獲得,而通過自動化方法獲取的標簽可能會產生噪音。在監督計算機視覺模型解讀醫學圖像的背景下,從自由文本放射學報告中高質量地自動提取醫學狀況至關重要。在第 9 章和第 10 章中,我描述了構建高質量放射學報告標記器的過程,這些標記器可以解決噪音和專家注釋的有限可用性。

研究

雖然醫學圖像解讀中的大多數基礎工作已經在訓練它們的相同數據集分布上評估算法,但這些算法的部署需要了解它們在臨床相關分布變化下的性能。在第 11 章中,我以胸部 X 光解讀為例,描述了在存在未標記或訓練期間存在的疾病的情況下,對深度學習模型性能的系統評估。在第 12 章中,我描述了對不同胸部 X 光模型的系統研究,該模型應用于未經任何微調的智能手機胸部 X 光照片和外部數據集。

總體而言,本論文展示了深度學習醫學圖像解讀的進展,結合了以下方面的進步:(1)在大小標記數據集背景下的算法,(2)通過臨床知情管理和標記的數據集,(3)和研究系統地評估算法在臨床相關分布變化下的性能。

圖:實驗裝置概述

圖:測試了 8 種不同的胸部 X 光模型,應用于 (1) 胸部 X 光的智能手機照片和 (2) 沒有任何微調的外部數據集時的診斷性能。所有模型都由不同的團隊開發并提交給 CheXpert 挑戰賽,并在沒有進一步調整的情況下重新應用于測試數據集。

付費5元查看完整內容

無人機行業現在正處于黃金時期,它的增長有望呈指數級增長,盡管人道主義救援人員已經使用這種技術10年了,但市場的擴大和技術的發展正在推動越來越多的組織裝備這種設備。

無人駕駛飛行器 (UAV),也稱為遙控飛機或“無人機”,是通過遙控或自主飛行的小型飛機。本報告重點關注非武裝民用無人機和無人機的使用。未來的報告可以探討無人水下航行器和地面無人機的影響和發展。

瑞士地雷行動基金會在其報告《人道主義行動中的無人機》(2016 年)4 中確定了六類無人機在人道主義行動中的用途:測繪;將基本產品運送到偏遠或難以到達的地點;搜救(SAR);支持損害評估;提高態勢感知能力;監測變化(例如城市和營地的增長、農業使用或道路或基礎設施的建設)。這份報告將闡明人工智能驅動的無人機如何改進和修改這些用途。

付費5元查看完整內容

集群系統中的網絡流調度

當前,集群系統的部署和使用非常廣泛。在集群系統中,一個任務通常分為多 個處理階段順序執行,而在各處理階段之間需要通過內部網絡來傳輸數據和中間 結果。已有測量工作表明,數據傳輸時間占整個任務運行時間的比重很大,因此 優化集群系統中的數據傳輸時間對于加速任務、提升應用性能非常重要。網絡流 調度是優化數據傳輸時間的有效方法,主要指為數據流設定傳輸順序以及分配帶 寬。在小規模集群系統中,網絡內部容易做到無阻塞,流調度主要在邊緣鏈路上;而在大規模集群系統中,網絡內部也可能成為瓶頸,流調度也應作用于網絡內部。由于集群系統應用種類繁多,通信模式各不相同,因此內部網絡中既存在獨 立的單流也存在并發的流束。相應地,網絡流調度既包括單流調度也包括流束調 度。根據以上分類,本文分別在小規模與大規模集群系統中針對單流調度和流束 調度的問題進行了研究:

(1) 提出了穩定的單流調度策略。針對小規模與大規模集群系統都存在的調度 策略不穩定問題,本文設計了穩定的單流調度策略 BASRPT,并且針對小規模和 大規模集群系統分別設計了兩個版本。BASRPT 同時考慮流的剩余大小和所在隊 列的隊長,優先傳輸長隊列中的短流,既能夠控制隊長又能夠縮短流完成時間。仿 真結果表明,BASRPT 能夠維持隊列長度穩定并取得較低的流完成時間。

(2) 提出了已知部分信息的流束調度策略。針對小規模集群系統中部分流束信 息可知的場景,本文設計了已知部分信息的流束調度策略 IICS。IICS 借助流束中 已到達子流信息對剩余傳輸時間進行預測,并基于預測值近似實現最小剩余時間 優先。仿真結果表明,IICS 能夠取得與信息完全可知的策略接近的流束完成時間。

(3) 提出了網絡內部瓶頸感知的流束調度策略。針對大規模集群系統中的網絡 內部瓶頸約束,本文設計了分布式網絡內瓶頸感知的流束調度策略 DBA。DBA 在 所有鏈路的帶寬約束下,通過各節點演化的方式近似實現了全網范圍的最小剩余 時間優先策略。仿真結果表明,DBA 具有優越的流束完成時間性能和高吞吐量。

(4) 提出了光電路交換網絡中的流束調度策略。針對大規模集群系統中光電路 交換技術的快速發展,本文設計了光電路交換網絡中優化流束完成時間的調度策 略 GMRTF。GMRTF 同時結合了電路調度與流束調度,將同一電路上的子流適當 分組,組內不切換電路,組間采用最小剩余時間優先策略。大量仿真實驗驗證了 在光電路交換網絡中 GMRTF 能夠顯著降低流束完成時間并提高吞吐量。

付費5元查看完整內容

8月5日,ACM SIGKDD 2021 正式公布了最佳博士論文獎,Runner Up獎、新星獎、研究時間檢驗獎、應用數據科學時間檢驗獎、創新獎和服務獎。

其中斯坦福大學的Aditya Grover獲得最佳博士論文獎,UIUC 的Shweta Jain獲得Runner Up 獎

SIGKDD 博士論文獎

論文標題: Learning to Represent and Reason Under Limited Supervision 標題:在有限監督條件下的學習表征和推理 作者:Aditya Grover 機構:Facebook AI研究院

論文摘要:

自然智能體,如人類,擅長構建世界的表征,并使用這些表征來有效地進行推理和做決策。即使在有限的監督下,這種高級推理能力也可以發展起來。與此形成鮮明對比的是,基于機器學習 (ML) 的智能體在獲得大規模標注數據集或模擬器的條件下取得主要進展,如目標識別和玩游戲等。

本論文由三部分組成。首先,論文建立了基礎的學習概率生成模型,目標是模擬所有可用的數據,即使在監督受限的環境中,也能夠為智能體提供一個自然的學習目標。論文討論了很多使用這些模型進行高維學習和推理所需要的取舍(trade-off),包括選擇特定的學習目標、優化流程和模型參數等。

基于這些結果,研究者開發了新算法來提高模型的性能,并在用未標記的數據集進行訓練時降低偏置。之后,研究者將這些模型擴展到關系數據領域,用來學習這些數據的表征。這一過程是無監督的,研究者探索并展示了模型在分類和序列決策中的性能。最后,論文介紹了這些模型在加速科學研究的兩個實際應用:1.學習壓縮感知的數據相關先驗;2.優化電池充電的實驗設計。這些案例說明, 智能體能夠克服現實世界中高維推理和決策問題的關鍵監督瓶頸。

本文分為三個主題部分。第1部分研究了概率生成建模的統計和計算基礎。

在第二章,我們提供必要的背景設置的問題和回顧一些關鍵的工作。

在第三章中,我們討論了生成模型的兩種中心學習范式: 最大似然估計和對抗學習。

在第四章,我們提出了一個模型不可知的算法,以提高任何現有生成模型的性能。本章以[Gro+19a]為基礎,以我們在[GE18]中的早期工作為基礎。

在第五章中,我們提出了另一種模型無關的算法,以解決融合多個未標記數據源訓練生成模型時的潛在數據集偏差問題。

第二部分深入研究了概率生成模型的使用,用于在關系域上表示和推理,其中數據點偏離了獨立和同分布(i.i.d)假設。

在第六章中,我們提出了一個用于學習圖節點表示的潛在變量生成模型。

在第七章中,我們提出了一種結合生成目標和對比目標的多智能體系統中智能體策略學習表示的算法。

第三部分討論了在科學發現和可持續發展的現實世界中運應用概率方法的使用。

在第八章中,我們提出了一個生成建模框架,用于統計壓縮感知中的學習獲取和恢復過程。

在第九章中,我們提出了一種最優的實驗設計方法,適用于設計空間大和實驗時間密集的領域。作為一個案例研究,我們使用它來優化電池充電協議。

在第10章中,我們總結了本論文的主要貢獻和未來的研究方向。

作者介紹:

Aditya Grover是Facebook AI核心機器學習團隊的一位研究者,同時也是UCLA計算機系的一名助理教授。

Aditya的主要研究方向是用于概率建模的機器學習,無監督表征學習,以及序列決策,這些研究已用于物理學、氣候變化等領域。Aditya于2020年畢業于斯坦福大學,獲得博士學位,并在谷歌大腦、微軟研究院、OpenAI等機構完成了實習。

//aditya-grover.github.io/

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容

論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

導師:Pieter Abbeel and Sergey Levine

網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

論文摘要:

在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。

付費5元查看完整內容
北京阿比特科技有限公司