下一代物聯網 (NG-IoT) 應用的出現為第六代 (6G) 移動網絡帶來了一些挑戰,例如大規模連接、增加的網絡容量和極低的延遲。為了應對上述挑戰,超密集網絡已被廣泛認為是一種可能的解決方案。然而,基站 (BS) 的密集部署并不總是可行或具有成本效益的。無人機基站 (DBS) 可以促進網絡擴展并有效滿足 NG-IoT 的需求。此外,由于它們的靈活性,它們可以在緊急情況下提供按需連接或解決網絡流量的臨時增加。然而,由于能量儲備有限以及空對地鏈路中信號質量下降的增加,DBS 的最佳布置并不是一項簡單的任務。為此,群體智能方法可以成為確定 DBS 在三維 (3D) 空間中的最佳位置的有吸引力的解決方案。
在這項工作中,我們探索了著名的群體智能方法,即布谷鳥搜索 (CS)、象群優化 (EHO)、灰狼優化 (GWO)、帝王蝶優化 (MBO)、Salp 群算法 (SSA) 和粒子群優化 (PSO) 并研究它們在解決上述問題中的性能和效率。特別是,我們研究了在存在不同群體智能方法的情況下三種場景的性能。此外,我們進行了非參數統計檢驗,即弗里德曼和威爾科克森檢驗,以比較不同的方法。
這項工作部分得到了國家重點研發計劃項目 2020YFB1807602 的支持,部分得到了國家自然科學基金項目 61901231、62071223、62031012、61931011 和 CAST 青年精英科學家資助計劃的支持。中國博士后科學基金2020M671480和江蘇省博士后科學基金2020Z295,部分由工業和信息化部電磁頻譜空間動態認知系統重點實驗室開放項目KF20202102,在國家重點科學儀器設備研制項目61827801號。
由于其廣泛的應用感知和靈活的部署,無人駕駛飛行器(UAV)群支持的邊緣計算被認為在第六代無線通信網絡中很有前景。然而,現有的大部分工作都集中在由單個或小型無人機支持的邊緣計算上,這與無人機群支持的邊緣計算有很大不同。為了促進無人機群邊緣計算的實際應用,本文介紹了最先進的研究。說明了潛在的應用程序、體系結構和實施注意事項。此外,還討論了無人機群支持邊緣計算的有前景的支持技術。此外,我們概述了挑戰和未解決的問題,以闡明未來的研究方向。
近年來,無人機在軍事、農業、商業和公共服務等領域得到廣泛應用。此外,受自然界中野生動物成群結隊行為的啟發,預計在實際應用中,越來越多的無人機以編隊或成群的形式出現,包括2015年美國發起的低成本集群技術項目,2016 年范堡羅航展叢林狼無人機展出,2017 年中國電子科技集團公司 119 架無人機成功群飛[1]。此外,預計到 2025 年,無人機將具備完全的自主集群能力,這將為無人機群提供強大的能力 [2]。
圖1:無人機群控邊緣計算集成網絡的潛在應用場景
除了無人機技術,邊緣計算也很有前景,因為它可以顯著提高有限能量和計算受限的移動設備計算能力。然而,傳統的地面邊緣計算網絡無法在自然災害等緊急情況下工作。最近,邊緣計算(MEC)技術與無人機網絡的集成引起了極大的關注[1]。無人機可以被視為用戶/中繼/MEC-服務器,通過適當地利用網絡邊緣的計算資源來減少處理延遲并提高利用效率,并且可以顯著提高無人機使能的邊緣計算網絡的性能。與傳統的單機和小型無人機賦能的邊緣計算網絡相比,無人機群賦能的邊緣計算網絡可以處理更復雜的任務,例如貨物運輸、地球監測、精準農業和大規模軍事部署,將在支持未來人類活動方面獲得廣泛普及。可以預見,基于無人機群的邊緣計算將為我們迎接即將到來的“無人機互聯網 (IoD)”[2],[3] 時代提供強有力的支持。這項有前途的技術具有許多吸引人的優勢,如下所示。
顯著提高的任務執行能力:UAV swarm 為多點協作 (CoMP) 技術開辟了新的機會,使計算資源能夠在大量 UAV 之間共享。通過設計網絡級資源共享方案,使任務可以并行有效地處理,無人機群支持的邊緣計算網絡可以顯著提高任務執行能力[1],[3]。
增強卸載安全性:由于靈活的空中CoMP,可以將多個單天線無人機組合成一個虛擬的多天線系統,從而可以顯著提高所需接收端的信號接收質量。甚至更少的傳輸功率[3]。因此,可以保證無人機群支持的邊緣計算網絡中的物理層安全卸載任務。
高容錯性:借助機載傳感器和有效的身份驗證機制,無人機群系統可以具有高容錯性[4]。例如,如果幾架無人機離開一個集群,仍然可以維持操作,其余無人機形成重建的飛行網絡。
有用的 UAV 到 UAV 通信:最后但同樣重要的是,類似于地面設備到設備 (D2D) 通信,UAV 到 UAV 通信可以廣泛用于群內空中無線網絡中,用于數據傳輸、中繼、自主飛行、聚集等[5]。因此,它將帶來能源效率、頻譜效率和擴大空中覆蓋范圍的好處。此外,可以減輕回程鏈路的負擔,從而降低傳輸延遲。
圖2:無人機群體邊緣計算的兩種范式。
無人機群支持邊緣計算的研究和開發仍處于起步階段,相關研究非常有限[4]、[6]、[7]。 [4] 中的作者通過通信和計算資源的聯合優化研究了一組三維分布式無人機的響應延遲最小化問題。為了避免惡意啟用無人機群的邊緣計算系統,[6] 中的作者研究了無人機群的準確檢測和定位。 [7] 中進一步研究了服務驅動的協作 MEC 模型,以支持無人機群中的計算密集型和延遲關鍵型服務。為了提供全面的理解和促進深入的研究,在本文中,我們概述了無人機群支持的邊緣計算。強調了一些關鍵的實施問題,并討論了有前途的技術。此外,我們闡明了無人機群支持的邊緣計算網絡中的挑戰,并概述了開放的研究問題。
圖5:無人機對地面和無人機對無人機的嚴重干擾。
第2節介紹了主要的應用場景和基本的基礎架構范式。第3節詳細說明了關鍵的實施注意事項。第4節介紹了實現無人機群邊緣計算的有前景的技術。第5節概述了未來研究的挑戰和未解決的問題。第6節總結。
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。
主題: Deep Learning for Community Detection: Progress, Challenges and Opportunities
摘要: 由于社區代表著相似的觀點,相似的功能,相似的目的等,因此社區檢測對于科學查詢和數據分析而言都是重要且極為有用的工具。 但是,隨著深度學習技術顯示出以令人印象深刻的性能處理高維圖形數據的能力日益增強,諸如頻譜聚類和統計推斷之類的經典社區檢測方法正在逐漸被淘汰。 因此,及時對通過深度學習進行社區檢測的進展進行調查。 該領域分為該領域的三個廣泛的研究流-深度神經網絡,深度圖嵌入和圖神經網絡,總結了每個流中各種框架,模型和算法的貢獻以及當前尚未解決的挑戰和 未來的研究機會尚待探索。
第19屆智能體及多智能體系統國際會議(International Joint Conference on Autonomous Agents and Multi-Agent Systems, AAMAS-2020)近日在線舉行。智能體及多智能體系統國際會議(AAMAS) 是多智能體系統領域最具影響力的會議之一,由非營利組織IFAAMAS主辦。今年,AAMAS-2020共收到808篇論文投稿,錄用186篇。
我們回顧了在無模型和基于模型的強化學習設置中的殘差算法。我們提出了雙向目標網絡技術來穩定殘差算法,生成一個在DeepMind控制套件基準測試中顯著優于普通DDPG的DDPG的殘差版本。此外,我們發現殘差算法是解決基于模型規劃中分布不匹配問題的有效方法。與現有的TD(k)方法相比,我們基于殘差的方法對模型的假設更弱,并產生了更大的性能提升。
深度神經網絡的發展,為人們的日常生活產生了巨大的影響。機器學習幾乎在日常生活的每一個方面都提供了比人類更合理的建議。然而,盡管取得了這些成就,神經網絡的設計和訓練仍然是具有挑戰性和不可預測的過程。為了降低普通用戶的技術門檻,自動化超參數優化(HPO)已成為學術界和工業界的熱門話題。本文對HPO中最基本的主題進行了綜述。第一部分介紹了與模型訓練和結構相關的關鍵超參數,并討論了它們的重要性和定義值范圍的方法。然后,研究了主要的優化算法及其適用性,包括它們的效率和準確性,特別是對于深度學習網絡。本研究接下來將回顧HPO的主要服務和工具包,比較它們對最先進的搜索算法的支持、與主要深度學習框架的可行性以及用戶設計的新模塊的可擴展性。本文總結了HPO在深度學習中存在的問題,優化算法的比較,以及在計算資源有限的情況下進行模型評估的突出方法。
題目: Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
摘要: 細粒度動作識別數據集表現出環境偏差,其中多個視頻序列是從有限數量的環境中捕獲的。在一個環境中訓練一個模型,然后部署到另一個環境中,由于不可避免的領域轉換,會導致性能下降。無監督域適應(UDA)方法經常用于源域和目標域之間的對抗訓練。然而,這些方法并沒有探索視頻在每個領域的多模態性質。在這個工作我們利用模式的通信作為UDA self-supervised對齊的方法除了敵對的對齊(圖1),我們測試我們的方法在三個廚房從大規模的數據集,EPIC-Kitchens,使用兩種方法通常用于行為識別:RGB和光學流。結果表明,多模態的自監督比單純的訓練平均提高了2.4%。然后我們將對抗訓練與多模態自我監督相結合,結果表明我們的方法比其他的UDA方法高3%。
題目
深度殘差強化學習,Deep Residual Reinforcement Learning
關鍵字
強化學習,殘差算法,機器學習
簡介
我們在無模型和基于模型的強化學習設置中重新研究殘差算法。 我們建議使用雙向目標網絡技術來穩定殘差算法,從而產生DDPG的殘差版本,該版本明顯優于DeepMind Control Suite基準測試中的原始DDPG。 此外,我們發現殘差算法是解決基于模型的規劃中分布不匹配問題的有效方法。 與現有的TD(k)方法相比,我們的基于殘差的方法對模型的假設更弱,并且性能提升更大。
作者
Shangtong Zhang, Wendelin Boehmer, Shimon Whiteson,來自牛津大學
Recently, deep multiagent reinforcement learning (MARL) has become a highly active research area as many real-world problems can be inherently viewed as multiagent systems. A particularly interesting and widely applicable class of problems is the partially observable cooperative multiagent setting, in which a team of agents learns to coordinate their behaviors conditioning on their private observations and commonly shared global reward signals. One natural solution is to resort to the centralized training and decentralized execution paradigm. During centralized training, one key challenge is the multiagent credit assignment: how to allocate the global rewards for individual agent policies for better coordination towards maximizing system-level's benefits. In this paper, we propose a new method called Q-value Path Decomposition (QPD) to decompose the system's global Q-values into individual agents' Q-values. Unlike previous works which restrict the representation relation of the individual Q-values and the global one, we leverage the integrated gradient attribution technique into deep MARL to directly decompose global Q-values along trajectory paths to assign credits for agents. We evaluate QPD on the challenging StarCraft II micromanagement tasks and show that QPD achieves the state-of-the-art performance in both homogeneous and heterogeneous multiagent scenarios compared with existing cooperative MARL algorithms.
論文題目: Definitions, methods, and applications in interpretable machine learning
論文摘要:
機器學習模型在學習復雜模式方面取得了巨大的成功,這些模式使機器能夠對未觀察到的數據做出預測。除了使用模型進行預測外,解釋模型所學內容的能力正受到越來越多的關注。然而,這種關注的增加導致了對可解釋性概念的相當大的混淆。特別是,目前還不清楚所提出的各種解釋方法是如何相互聯系的,以及可以用什么共同的概念來評價這些方法。我們的目標是通過定義機器學習環境中的可解釋性,并引入預測、描述和相關(PDR)框架來討論解釋性,從而解決這些問題。PDR框架為評估提供了3個主要的需求:預測準確性、描述準確性和相關性,以及相對于人類受眾判斷的相關性。此外,為了幫助管理大量的解釋方法,我們將現有的技術分為基于模型的和特定的類別,包括稀疏性、模塊化性和可模擬性。為了證明從業者如何使用PDR框架來評估和理解解釋,我們提供了大量的實際例子。這些例子突出了人類觀眾在討論可解釋性時常常被低估的作用。最后,基于我們的框架工作,我們討論了現有方法的局限性和未來工作的方向。我們希望這項工作將提供一個共同的詞匯,使從業者和研究人員更容易地討論和選擇全面的解釋方法。
論文作者:
W. James Murdoch是加州大學伯克利分校研究生,研究興趣為可解釋性,機器學習,自然語言處理和因果推理。
Chandan Singh在伯克利攻讀博士學位,研究計算系統,研究范圍是機器學習、可解釋性、計算神經科學。