國防科大最新《深度學習視覺語音分析》綜述論文,值得關注!
視覺語音,即語音的視覺領域,因其在公共安全、醫療、軍事防御、影視娛樂等領域的廣泛應用而受到越來越多的關注。深度學習技術作為一種強大的人工智能策略,廣泛地推動了視覺語音學習的發展。在過去的五年中,許多基于深度學習的方法被提出來解決這一領域的各種問題,特別是視覺語音的自動識別和生成。為了進一步推動視覺語音的研究,本文對視覺語音分析中的深度學習方法進行了綜述。我們涵蓋了視覺語音的不同方面,包括基本問題、挑戰、基準數據集、現有方法的分類和最先進的性能。此外,我們還指出了現有研究的不足,并對未來的研究方向進行了探討。
人類的語言本質上是雙峰的: 視覺和聽覺。視覺語言是指語言的視覺領域,即在說話[1]時自然產生的嘴唇、舌頭、牙齒、下顎等面部肌肉的運動,而音頻語言是指說話者發出的聲學波形。語言感知本質上是雙峰的,正如幾十年前著名的McGurk效應[2]所表明的那樣,人類的語言感知不僅依賴于聽覺信息,還依賴于像嘴唇運動這樣的視覺線索。因此,毫無疑問,視覺語言有助于人類的語言感知,特別是對于聽力受損或聽力困難的人,或當聽覺信息被破壞時。
自動視覺語音分析(VSA)作為計算機視覺和多媒體領域的一個基礎性和挑戰性課題,近年來受到越來越多的關注,因為它在各種應用中發揮著重要的作用,其中許多應用是新興的。VSA包括兩個基本的密切相關的形式雙重問題: 視覺語音識別(VSR)或唇讀,視覺語音生成(VSG)或唇序列生成。由于近年來深度學習的蓬勃發展,這一領域已經取得了重大進展。典型的學術界和實際應用包括多模態語音識別和增強、說話人識別和驗證[3]、醫療救助、安全、取證、視頻壓縮、娛樂、人機交互、情感理解等[4,5]。 舉一些應用實例,在語音識別和增強中,可以將視覺語音作為互補信號處理,以提高當前音頻語音識別和分離在各種不利聲學條件下的準確性和魯棒性[6,7,8,9]。在醫學領域,解決VSR任務也可以幫助聽力受損的[10]和聲帶病變的人。在公安領域,VSA可用于人臉偽造檢測[11]和活體檢測[12]。在人機交互中,視覺語音可以作為一種新型的交互信息,提高交互的多樣性和魯棒性[13,14]。在娛樂領域,VSG技術在虛擬游戲中個性化的3D說話頭像生成[15],以及在電影后期如視覺配音[16]中實現高保真真實感的說話視頻生成等方面發揮著至關重要的作用。此外,VSR可以用來轉錄無聲電影檔案。
VSA的核心是視覺語音表示學習和序列建模。在傳統VSA方法為主的時代,視覺語音的淺層表示如visemes[17,18]、口型幾何描述符[19]、線性變換特征[20]、統計表示[21]、序列建模如高斯過程動力學模型[22]、隱馬爾可夫模型(hmm)[23]、決策樹模型[24]被廣泛應用于解決VSA任務。自從深度神經網絡(DNNs)[25]在圖像分類任務中取得重大突破以來,大多數計算機視覺和自然語言問題都明確地集中在深度學習方法上,包括VSA。2016年,基于深度學習的VSA方法[26,27]的表現大大超過了傳統方法,使VSA進入了深度學習時代。同時,大規模VSA數據集的出現[27,28,29,30,31]推動了基于深度學習的VSA研究的進一步發展。在本文中,我們主要研究基于深度學習的VSA方法。VSA技術從2016年到現在的里程碑如圖1所示,包括具有代表性的深度VSR和VSG方法以及相關的視聽數據集。
圖1 從2016年到現在視覺語音分析的時間里程碑,包括代表性的VSR和VSG方法,以及視聽數據集。手工制作的特征工程方法一直占據著VSA的主導地位,直到2016年相關深度網絡的引入才發生了轉變。
盡管在過去的幾年中,深度學習帶來了一些有希望的進展,但VSA技術仍處于早期階段,無法滿足實際應用的要求。這當然不是由于研究人員的努力不足,因為已經有許多關于VSA的優秀工作[6,28,32,33,34,35]。因此,系統地回顧該領域的最新發展,識別阻礙其發展的主要挑戰和開放問題,并確定有希望的未來方向是非常重要的。然而,VSA研究的大部分仍然相當分散,沒有這樣的系統性綜述。
本綜述的主要目的是全面概述當前基于深度學習的VSA方法,特別是VSR和VSG及其相關應用、主要挑戰、基準數據集、方法和最先進(SOTA)結果,以及現有的差距和未來的研究方向。我們把VSR和VSG綜合起來進行概述,主要有三個原因。首先,VSR和VSG作為VSA中最基本的問題,涵蓋了視覺語音分析的大部分方面。其他與VSA相關的任務,如語音增強、說話人驗證、人臉偽造檢測等,都可以看作VSR和VSG的擴展應用。第二,由于VSR和VSG是形式化對偶的,并且相互促進,因此二元學習[36]和生成式對抗學習[37]在現有的許多VSA著作中被廣泛采用[32,38,39,40,41]。因此,我們打算提供一個側面的視角,讓讀者了解VSR和VSG的演變。第三,VSR和VSG具有共同的核心技術要點,如視覺語音表示學習方法和上下文序列建模方法。我們希望這將有助于讀者對這些方法的跨任務可轉移性有一個可理解的理解。
現在我們可以總結我們在本文中的主要貢獻。
據我們所知,這是第一個系統全面地回顧了視覺語音分析的深度學習方法的綜述論文,涵蓋了兩個基本問題,即視覺語音識別和視覺語音生成。
針對每個問題總結了問題定義、主要挑戰、基準數據集和測試協議,值得注意的是,還確定了不同VSA問題之間的關系。
我們提出了一個分類法來對主要方法進行分組。此外,還分析了代表性方法的性能比較、優缺點及其內在聯系。
提供了該領域的開放問題和有前途的方向。
【導讀】三維物體檢測是自動駕駛感知系統的重要組成部分,它可以智能預測自動駕駛車輛附近關鍵三維物體的位置、大小和類別。香港中文大學發布了最新《自動駕駛三維物體檢測》綜述論文,32頁pdf涵蓋367篇文獻全面概述基于激光雷達、基于相機和多模態的物體檢測進展,非常值得關注!
近年來,自動駕駛因其具有減輕駕駛員負擔和提高駕駛安全性的潛力而受到越來越多的關注。在現代自動駕駛流程中,感知系統是不可或缺的組成部分,其目的是準確估計周圍環境的狀態,為預測和規劃提供可靠的觀測數據。三維物體檢測是感知系統的重要組成部分,它可以智能預測自動駕駛車輛附近關鍵三維物體的位置、大小和類別。本文綜述了自動駕駛三維物體檢測的研究進展。首先,我們介紹了三維物體檢測的背景,并討論了這項任務所面臨的挑戰。其次,從模型和傳感器輸入等方面全面綜述了三維物體檢測的研究進展,包括基于激光雷達、基于相機和多模態的檢測方法。我們還對每一類方法的潛力和挑戰進行了深入分析。此外,我們還系統地研究了三維物體檢測在駕駛系統中的應用。最后,對三維物體檢測方法進行了性能分析,并進一步總結了近年來的研究趨勢,展望了該領域的未來發展方向。
項目地址://github.com/PointsCoder/Awesome-3D-Object-Detection-for-Autonomous-Driving
**近年來,自動駕駛技術取得了飛速發展,其目標是讓車輛智能感知周圍環境,無需或無需人為努力就能安全地行駛。自動駕駛技術被廣泛應用于許多場景,包括自動駕駛卡車、機器人出租車、配送機器人等,能夠減少人為失誤,提高道路安全。汽車感知是自動駕駛系統的核心組成部分,通過感知輸入幫助自動駕駛車輛了解周圍環境。感知系統一般采用攝像機采集的多模態數據圖像、激光雷達掃描的點云、高清地圖等)作為輸入,預測道路關鍵要素的幾何和語義信息。高質量的感知結果為后續的軌跡預測和路徑規劃提供可靠的觀測數據。
自動駕駛場景中的3D對象檢測示例
為了全面了解駕駛環境,感知系統可以涉及到很多視覺任務,如目標檢測與跟蹤、車道檢測、語義和實例分割等。在這些感知任務中,三維物體檢測是汽車感知系統中不可或缺的任務之一。三維物體檢測的目的是預測關鍵物體在三維空間中的位置、大小和類別,如汽車、行人、騎自行車的人等。與僅在圖像上生成二維邊界框而忽略目標與自身距離信息的目標檢測相比,三維物體檢測關注的是目標在真實三維坐標系中的定位與識別。三維物體檢測在現實坐標中預測的幾何信息可以直接用于測量自駕車與關鍵物體之間的距離,從而進一步幫助規劃駕駛路線和避免碰撞。
自動駕駛三維物體檢測的層次分類法
隨著計算機視覺和機器人技術中深度學習技術的發展,三維物體檢測方法得到了迅速的發展。這些方法一直試圖從特定的角度來解決3D物體檢測問題,如從特定的感官類型檢測、數據表示等,但缺乏與其他類別方法的系統比較。因此,綜合分析所有類型的三維物體檢測方法的優缺點是可取的,可以為研究社區提供一些有趣的發現。為此,我們提出對自動駕駛應用中的三維物體檢測方法進行全面的綜述,并對不同類型的方法進行深入的分析和系統的比較。與現有研究相比[5,139,215],本文廣泛涵蓋了這一領域的最新進展,如從距離圖像中檢測三維目標、自/半/弱監督三維目標檢測、端到端駕駛系統中的三維檢測等。以往的研究只關注點云[88,73,338]、單眼圖像[297,165]和多模態輸入[284]的檢測,而本文系統地研究了所有感官類型和大多數應用場景下的三維物體檢測方法。這項工作的主要貢獻可歸納如下:
本文從不同的角度對三維物體檢測方法進行了全面的綜述,包括來自不同傳感器輸入的檢測(基于激光雷達、基于相機和多模態檢測)、來自時間序列的檢測、標簽高效檢測,以及三維物體檢測在駕駛系統中的應用。
我們從結構和層次上對三維物體檢測方法進行了總結,并對這些方法進行了系統的分析,對不同類別的方法的潛力和挑戰提出了有價值的見解。
我們對三維物體檢測方法進行了全面的性能和速度分析,找出了多年來的研究趨勢,并對未來的三維物體檢測方向提出了有見地的看法。
本文的結構安排如下。首先,我們在第2節中介紹了三維物體檢測的問題定義、數據集和評估指標。然后,我們回顧和分析了基于LiDAR傳感器(第3節)、攝像頭(第4節)和多感官輸入融合(第5節)的三維物體檢測方法。接下來,我們介紹了第6節中利用時間數據的檢測方法和第7節中使用較少的標簽的檢測方法。隨后我們在第8節討論了三維物體檢測在驅動系統中的應用。最后,在第9部分,我們對三維物體檢測的速度和性能進行了分析,并對研究趨勢進行了探討,并對未來的發展方向進行了展望。圖1顯示了一個層次結構的分類法。我們還在這里提供了一個不斷更新的項目頁面。
基于激光雷達的三維物體檢測方法概述
一種通用的基于點的檢測框架包括基于點的骨干網和預測頭。基于點的主干由多個塊組成,用于點云采樣和特征學習,預測頭直接從候選點估計出三維邊界框。
單階段錨定方法利用圖像特征和預定義的3D錨定框來預測三維物體參數。單階段無錨方法直接從圖像像素預測三維物體參數。兩階段檢測方法首先由二維檢測器生成二維包圍盒,然后根據二維RoI特征預測三維物體參數,將二維檢測提升到三維空間。
早期融合方法在點云特征通過基于激光雷達的三維物體檢測器之前,利用圖像信息進行增強。在區域知識融合中,首先對圖像進行二維檢測,生成二維邊界框。然后將二維方框擠壓到視錐中,選擇合適的點云區域,用于后續的基于激光雷達的三維目標檢測。在點級知識融合中,首先對圖像進行語義分割,然后將分割結果從圖像像素轉移到點上,作為附加在每個點上的附加特征。最后將增強后的點云通過激光雷達探測器進行三維物體檢測。
元宇宙是當下熱門話題。區塊鏈技術在元宇宙究竟有何作用?最近來自韓國的學者發布了《人工智能區塊鏈》綜述論文,全面闡述探索區塊鏈在元宇宙的建立和發展中的作用,值得關注
自Facebook于2021年10月正式更名為Metaverse以來,Metaverse已經成為社交網絡和三維虛擬世界的新常態。這個元宇宙旨在利用許多相關技術為用戶帶來3D沉浸式和個性化的體驗。盡管有很多關注和好處,但元宇宙中的一個自然問題是如何保護用戶的數字內容和數據。在這方面,區塊鏈是一個很有希望的解決方案,因為它具有去中心化、不可變性和透明性的特點。**為了更好地理解區塊鏈在元宇宙中的作用,我們的目標是對區塊鏈在元宇宙中的應用進行廣泛的調研。**我們首先對區塊鏈和元宇宙進行了初步介紹,并強調了將區塊鏈用于元宇宙背后的動機。接下來,我們將從技術角度廣泛討論基于區塊鏈的元宇宙方法,如數據采集、數據存儲、數據共享、數據互操作性和數據隱私保護等。對于每個透視圖,我們首先討論元宇宙的技術挑戰,然后強調區塊鏈可以如何提供幫助。此外,我們還研究了區塊鏈對元宇宙中關鍵支持技術的影響,包括物聯網、數字孿生、多感官和沉浸式應用、人工智能和大數據。我們還介紹了一些主要項目,以展示區塊鏈在元宇宙應用程序和服務中的作用。最后,我們提出了一些有前景的方向,以推動進一步的研究創新和發展,以在未來的元宇宙中使用區塊鏈。
引言
元宇宙是數字進化的下一個階段,它可以以驚人的水平革新數字應用,并將服務領域擴展到標準的在線訪問系統之外。在過去的幾十年里,服務數字化已經成為提高商業、娛樂、教育或任何其他可以與在線訪問相結合的系統效率的趨勢。通過遠程數據中心和云平臺的數字系統和在線存儲/處理設施,這些服務和系統得到了最大限度的改進。隨著服務訪問的效率、性能和質量達到其最大潛力,視角已經轉向消費者體驗。因此,對改善服務體驗、增加互動能力的需求不斷增加,服務供應商也熱衷于將現有的服務標準提升到下一個水平。事實上,消費者對數字界面的觸覺和沉浸感的需求,只有在新興的虛擬現實(VR)、增強現實(AR)、混合現實(MR)和擴展現實(XR)[1]技術中才能實現。元宇宙是將所有這些相關技術合并到一起的解決方案。這一概念為它的消費者創造了一個模擬的數字化環境,可以作為身臨其境的虛擬世界。用戶可以通過他們的數字化身與這個虛擬生態系統進行交互,遵循二元性原則[2]。具體來說,化身是用戶的虛擬化身,在元宇宙中具有與在現實世界中的合法權利相同的法律權威; 這使得虛擬角色可以在虛擬域中進行任何交易,并限制拒絕任何承諾的行為。任何擁有支持VR/ AR的沉浸式設備的人都可以獲得訪問權限,例如在最低功能[3]下的耳機或玻璃。相反,像Teslasuit或Holosuit這樣的全身觸覺緊身衣,能夠跟蹤動作、提取觸覺反饋以及先進的生物識別技術,將身臨其境的體驗發揮到極致。
盡管元宇宙正在開發中,并打算擴大社交媒體的能力范圍,但它對其他工業、商業、社會、教育、醫療、軍事和政府部門的潛力是巨大的。缺乏身臨其境的體驗是在線遠程訪問和控制系統的一個眾所周知的缺點。特別是在控制監控和數據采集(SCADA)或基于可編程邏輯控制器(PLC)的遠程自動化系統[4]、服裝、商業地產或建筑感知、理解醫學/工程/或建筑教育中的三維(3D)可視化等方面,遙控無人駕駛的航空/海軍/或地面船只,體驗二維以外的數字娛樂是需要更多創新的領域。盡管AR和VR技術為這些領域提供了獨立的解決方案,但缺乏一個一體化的平臺或環境來組合這些工具。元宇宙向世界提供了這個數字生態系統,并廣泛開放了不可估量的可能性范圍。數字孿生(DTs)的概念使機器或車輛的遠程操作和控制具有更好的可視化和協調性,有利于工業和軍事部門[5]。三維可視化正在引導更好的準確性和上下文的理解,這有利于教育和娛樂應用。此外,基于AR的遠程機器人控制、基于AR的遠程手術等新指令也可以通過元宇宙平臺[6]實現。此外,加密貨幣[7]、數字生物識別技術[8]、可解釋人工智能(XAI)[9]等概念在現實世界中實施時面臨不可避免的挑戰;與現有系統的集成、兼容性、互操作性、法律和倫理差異等問題。由于元宇宙是一個新構建的世界,在設計階段實施這些策略將允許用戶在安全和隱私方面得到更多的保證,并增強服務體驗。
雖然元宇宙是作為未來數字擴張的靈丹妙藥而產生的,但它也存在著挑戰和實際問題。最關鍵的問題是缺乏可服務的數字基礎設施,以提供有保障的服務和具有屬性處理和網絡能力的應用程序。即使存在這樣的基礎設施,提供設想規格所需的接入技術也只有在新興的5G移動技術中才可行,而5G移動技術仍處于試驗階段,尚未在全球部署。在啟動元宇宙之前,需要理解和標準化虛擬世界和物理世界之間的兼容性和互操作性。很明顯,考慮到它與社交媒體主干的潛力和可擴展性,即使在元宇宙引擎上擁有強大的處理能力,資源可能也不足以滿足需求。因此,必須采用最優的處理和操作策略,以降低處理、存儲、網絡和財務方面的成本。這種策略只有通過基于自動化人工智能的方法才能實現,需要更多的同化和研究。因為要想進入元宇宙,至少需要戴上耳機或AR眼鏡,個人投資越高,它就會成為一種特權服務,而不是對所有人開放的系統。此外,用戶的安全和隱私是必要的方面,在現實世界中可能存在的某些隱私法律可能在虛擬領域中不起作用,而在現實世界中突出的生物特征可以在數字領域中復制。因此,在實用主義環境中部署元宇宙需要更多的研究和適當的標準化。
XR顯然是元宇宙開發所需的一項技術,當前的AR和MR技術應該改進到提倡虛擬實體完全集成到超現實的水平,并提高其無所不在的程度。如前所述,人工智能在自動化元宇宙生態系統、將完全控制權交給數字治理方面發揮著關鍵作用。人工智能的參與將進一步確保生產消費者的數字資產和內容安全,這是受他們的化身限制的。現有的計算視覺處理應通過AI集成來增強3D圖像處理,同時可以改進圖像/視頻/3D渲染技術來加速視覺數據和遙測數據的查詢處理。應該在設計階段采用XAI實踐,以確保兼容性的全局遵從性。由于現有的基于云計算的存儲和處理基礎設施缺乏托管元空間應用所需的網絡能力,邊緣計算是一種新興的范式,必須啟動它,因為它的近似性質,可以提高訪問容量以及上下文和位置感知功能。此外,還可以使用網絡切片來組織和構造[2]中給出的八個使能器之間的元宇宙程序。
與比特幣一起推出的區塊鏈,因其獨特的能力形成共享經濟而出名,并奠定了現有數字貨幣市場的基礎。區塊鏈被認為是一項突破性的安全和隱私保護技術[10]。簡單地說,區塊鏈是一個分類帳,存儲已提交的交易,以方便在商業網絡中追蹤數字資產并確保其安全。這些交易或記錄被存儲為塊,使用加密措施或精確的哈希機制連接在一起,確保分類賬的不可變性,并在不安全的環境中支持安全的共享能力。區塊鏈最顯著的特點是,它能夠在不需要集中權限[11]的情況下,對分散的分類賬內容進行操作。由于區塊鏈采用工作證明作為共識機制,該方法本身認為更安全,更適合電商平臺。在元宇宙的背景下,區塊鏈是相關的推動者,旨在對數字生態系統實施問責制。對區塊鏈的需求迫在眉睫,保護所有元空間用戶擁有的數字內容是其主要目的。元宇宙生態系統依賴于區塊鏈來計算其內容和交易,以確保用戶的完整性、隱私和聲譽。
** 區塊鏈在元宇宙中應用**
將區塊鏈和AI融合在一起進行元宇宙開發的想法在[11]中作為一項綜述提出。本文通過由數據層、網絡層、共識層、激勵層、契約層和應用層組成的分層體系結構,討論了元宇宙和區塊鏈之間的潛在關聯。雖然作者提出了四個支持區塊鏈的應用,但他們主要關注區塊鏈的商業應用。區塊鏈和AI對元宇宙的貢獻在[13]中提出,其中對處理和重用高質量/豐富數據、穩定分散網絡、數據隱私和處理經濟相關數據進行了簡要討論。此外,有很多研究[14]-[16]都將區塊鏈作為元宇宙的必要條件,但沒有進行嚴格的討論。表一強調了本文的貢獻。據我們所知,還沒有一項研究討論了區塊鏈在元宇宙應用中的應用。因此,我們的研究提出了區塊鏈集成將提高其效率的元宇宙的各種潛在應用,以及區塊鏈對實現技術的影響。 **本綜述的主要貢獻如下: **
首先,我們簡要介紹了區塊鏈和元宇宙,然后介紹了在元宇宙中集成區塊鏈的動機。
其次,我們討論了區塊鏈的應用,以解決元宇宙的幾個技術方面所面臨的挑戰,包括數據采集、數據存儲、數據共享、數據互操作性和數據隱私保護。
第三,我們討論了區塊鏈對元空間中的一些關鍵實現技術的影響,如物聯網、數字孿生、多感官XR和全息臨場呈現、人工智能和大數據。
第四,我們討論了一些有趣的項目,如Decentraland、Sandbox、axi Infinity和Illuvium,它們在元宇宙中利用了區塊鏈。
最后,我們總結了本文的一些潛在的未來研究方向。
摘要
在過去的幾十年里,人工智能技術迅猛發展,改變了每個人的日常生活,深刻改變了人類社會的進程。開發人工智能的目的是通過減少勞動、增加生活便利、促進社會公益來造福人類。然而,最近的研究和人工智能應用表明,人工智能可能會對人類造成意外傷害,例如,在安全關鍵的情況下做出不可靠的決定,或通過無意中歧視一個或多個群體而破壞公平。因此,值得信賴的人工智能最近受到越來越多的關注,人們需要避免人工智能可能給人們帶來的負面影響,以便人們能夠充分信任人工智能技術,與人工智能技術和諧相處。近年來,人們對可信人工智能進行了大量的研究。在本次綜述中,我們從計算的角度對值得信賴的人工智能進行了全面的評述,幫助讀者了解實現值得信賴的人工智能的最新技術。值得信賴的人工智能是一個大而復雜的課題,涉及方方面面。在這項工作中,我們關注實現值得信賴的人工智能的六個最關鍵方面: (i) 安全性和健壯性,(ii) 非歧視和公平,(iii) 可解釋性,(iv) 隱私,(v) 問責性和可審計性,和(vi) 環境福祉。對于每個維度,我們根據一個分類回顧了最近的相關技術,并總結了它們在真實系統中的應用。我們還討論了不同維度之間的協調和沖突互動,并討論了值得信賴的人工智能在未來研究的潛在方面。
引言
人工智能(AI)是一門研究和發展模擬、擴展和拓展人類智能的理論、方法、技術和應用系統的科學,為現代人類社會帶來了革命性的影響。從微觀角度來看,人工智能在我們生活的許多方面發揮著不可替代的作用。現代生活充滿了與人工智能應用的互動: 從用人臉識別解鎖手機,與語音助手交談,到購買電子商務平臺推薦的產品; 從宏觀角度看,人工智能創造了巨大的經濟成果。世界經濟論壇的《2020年就業前景報告》[136]預測,人工智能將在5年內創造5800萬個新就業崗位。到2030年,人工智能預計將產生13萬億美元的額外經濟利潤,對全球GDP的年增長率貢獻1.2%[54]。然而,隨著其快速而令人印象深刻的發展,人工智能系統也暴露了其不值得信任的一面。例如,安全至關重要的人工智能系統在對抗攻擊時很脆弱。無人駕駛汽車的深度圖像識別系統可能無法識別被惡意攻擊者修改的路標[345],對乘客安全構成極大威脅。此外,人工智能算法可能會導致偏見和不公平。在線人工智能聊天機器人可能會產生不雅、種族主義和性別歧視的內容[335],冒犯用戶,并產生負面社會影響。此外,人工智能系統還存在泄露用戶隱私和商業秘密的風險。黑客可以利用人工智能模型產生的特征向量來重構私人輸入數據,如指紋[25],從而泄露用戶的敏感信息。這些漏洞會使現有的人工智能系統無法使用,并可能造成嚴重的經濟和安全后果。對于人工智能來說,要想在一個領域取得進步、得到更廣泛的應用并創造更多的經濟價值,對誠信的擔憂已經成為一個巨大的障礙。因此,如何構建可信的人工智能系統成為學術界和業界關注的焦點。
近年來,出現了大量關于可信人工智能的文獻。隨著構建可信人工智能的需求日益增長,總結已有成果并探討未來可能的研究方向勢在必行。在本次綜述中,我們提供了值得信賴的人工智能的全面概述,以幫助新手對什么使人工智能系統值得信賴有一個基本的了解,并幫助老兵跟蹤該領域的最新進展。我們澄清了可信人工智能的定義,并介紹了可信人工智能的六個關鍵維度。對于每個維度,我們給出了它的概念和分類,并回顧了有代表性的算法。我們還介紹了不同維度之間可能的互動,并討論了值得信賴的人工智能尚未引起足夠關注的其他潛在問題。除了定義和概念,我們的綜述還關注實現可信人工智能每個維度的具體計算解決方案。這一視角有別于現有的一些相關工作,如政府指南[307],建議如何以法律法規的形式建立一個值得信賴的人工智能系統,或綜述[51,318],從高層次、非技術的角度討論值得信賴的人工智能的實現。
根據歐盟(EU)最近提供的人工智能倫理指南[307],一個值得信賴的人工智能系統應符合四項倫理原則: 尊重人類自主、防止傷害、公平和可解釋性。基于這四個原則,人工智能研究人員、實踐者和政府提出了值得信賴的人工智能的各個具體維度[51,307,318]。在這項調查中,我們重點關注已經被廣泛研究的六個重要和相關的維度。如圖1所示,它們是安全性和穩健性、非歧視性和公平性、可解釋性、隱私性、可審計性和可問責性,以及環境福祉。
余下論文綜述組織如下。在第2節中,我們明確了值得信賴的AI的定義,并提供了值得信賴的AI的各種定義,幫助讀者理解來自計算機科學、社會學、法律、商業等不同學科的研究人員是如何定義值得信賴的AI系統的。然后,我們將值得信賴的人工智能與倫理人工智能和負責任的人工智能等幾個相關概念區分開來。在第3節中,我們詳細介紹了安全性和穩健性的維度,這要求人工智能系統對輸入的噪聲擾動具有穩健性,并能夠做出安全的決策。近年來,大量研究表明,人工智能系統,尤其是那些采用深度學習模型的系統,可能對有意或無意的輸入擾動非常敏感,對安全至關重要的應用構成巨大風險。例如,如前所述,自動駕駛汽車可能會被改變的路標欺騙。此外,垃圾郵件檢測模型可能會被設計良好的文本[30]郵件欺騙。因此,垃圾郵件發送者可以利用這個弱點,使他們的電子郵件不受檢測系統的影響,這將導致糟糕的用戶體驗。已經證明,人工智能算法可以通過提供的訓練例子學習人類的歧視,并做出不公平的決定。例如,一些人臉識別算法難以識別非洲裔美國人的面孔[280]或將其誤分類為大猩猩[168]。此外,語音聽寫軟件在識別男性聲音時通常比識別女性聲音表現得更好[277]。
在第4節中,我們介紹了非歧視和公平的維度,在這個維度中,人工智能系統被期望避免對某些群體或個人的不公平偏見。在第5節中,我們討論了可解釋性的維度,這表明AI的決策機制系統應該能夠向利益相關者解釋(他們應該能夠理解解釋)。例如,人工智能技術已經被用于根據患者的癥狀和身體特征進行疾病診斷[289]。在這種情況下,黑箱決策是不可接受的。推理過程應該對醫生和患者透明,以確保診斷的每個細節都是準確的。
研究人員發現,一些人工智能算法可以存儲和暴露用戶的個人信息。例如,在人類會話語料庫上訓練的對話模型可以記住敏感信息,如信用卡號碼,這些信息可以通過與模型交互而得到[164]。在第6節中,我們提出了隱私的維度,這需要一個人工智能系統來避免泄露任何私人信息。在第7節中,我們描述了可審計性和問責性的維度,該維度期望人工智能系統由第三方評估,并在必要時為人工智能故障分配責任,特別是在關鍵應用中[307]。最近,人工智能系統對環境的影響引起了人們的關注,因為一些大型人工智能系統消耗了大量的能源。作為一項主流的人工智能技術,深度學習正在朝著追求更大的模型和更多的參數的方向發展。因此,會消耗更多的存儲和計算資源。一項研究[312]表明,訓練BERT模型[110]需要排放大約1400磅二氧化碳,這與跨美國的往返飛行相當。因此,人工智能系統應該是可持續的和環境友好的。
在第8節中,我們回顧了環境福利的維度。在第9節中,我們將討論不同維度之間的相互作用。最近的研究表明,值得信賴的AI的不同維度之間存在一致性和沖突[307,333]。例如,深度神經網絡的魯棒性和可解釋性緊密相連,魯棒模型往往更具有可解釋性[122,322],反之亦然[255]。此外,研究表明,在某些情況下,健壯性和隱私之間存在權衡。例如,對抗性防御方法會使模型更容易受到成員推理攻擊,增加了訓練數據泄漏的風險[308]。
除了上述六個維度,值得信賴的人工智能還有更多的維度,如人工代理和監督、可信性等。盡管這些額外的維度與本文中考慮的6個維度一樣重要,但它們還處于開發的早期階段,相關文獻非常有限,特別是對于計算方法而言。因此,在第10節中,我們將討論值得信賴的人工智能的這些方面,作為未來需要專門研究的方向。
摘要: 語音信息處理技術在深度學習的推動下發展迅速,其中語音合成和轉換技術相結合能實現實時高保真的指定對象、內容的語音輸出,在人機交互、泛娛樂等領域具有廣泛的應用前景。文中旨在對基于深度學習的語音合成與轉換技術進行綜述。首先,簡要回顧了語音合成和轉換技術的發展歷程;接著,列舉了在語音合成、轉換領域的常見公開數據集以便研究者開展相關探索;然后,討論了從文本到語音模型,包括在風格、韻律、速度等方面進行改進的經典和前沿的模型、算法,并分別對比評述了其效果與發展潛力;進一步針對語音轉換進行綜述,歸納總結了轉換方法與優化思路;最后,總結了語音合成與轉換的應用與挑戰,并根據其在模型、應用和規范方面所面臨的問題,展望了未來在模型壓縮、少樣本學習和偽造檢測方面的發展方向。
引言
深度學習已經實現了廣泛的應用,并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展,但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態,即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法,并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類,并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集,以及它們的評估指標。最后,分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。
//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1
概述
機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外,DL的主要優點是它以分層的形式表示,即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來,并在多個應用中顯示出令人印象深刻的結果,如視覺數據處理、自然語言處理(NLP)、語音和音頻處理,以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。
我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面,以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此,上面提到的各種媒體形式都與模態有關,而這些多模態的共同表示可以定義為multimodal[47]。然而,對人類的全部方面進行建模是不夠的。單模態工作更好的地方,方法的進展需要在一個模式。多模態學習表明,當多種感官參與信息處理時,我們能更好地理解和分析。本文著重討論了各種各樣的模態,本文從MMDL的角度探討了多種模態,包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。
人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL,快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域,如自動駕駛汽車、圖像處理、醫療診斷和預測預測等,表現得與人類相似,甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.
在本研究中,我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組,并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用,并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外,還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后,針對每一組應用分別提出了有待解決的研究問題,并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究,并有助于更好地理解這一特定領域尚未解決的問題。
摘要: 圖像描述生成結合了計算機視覺和自然語言處理2個研究領域,不僅要求完備的圖像語義理解,還要求復雜的自然語言表達,是進一步研究符合人類感知的視覺智能的關鍵任務.對圖像描述生成的研究進展做了回顧.首先,歸納分析了當前基于深度學習的圖像描述生成方法涉及的5個關鍵技術,包括整體架構、學習策略、特征映射、語言模型和注意機制.然后,按照發展進程將現有的圖像描述生成方法分為4大類,即基于模板的方法、基于檢索的方法、基于編碼器-解碼器架構的方法和基于復合架構的方法,并闡述了各類方法的基本概念、代表性方法和研究現狀,重點討論了基于編碼器-解碼器架構的各種方法及其創新思路,如多模態空間、視覺空間、語義空間、注意機制、模型優化等.接著,從實驗的角度給出圖像描述生成的常用數據集和評估措施,并在2個基準數據集上比較了一些典型方法的性能.最后,以提升圖像描述的準確性、完整性、新穎性、多樣性為依據,展示了圖像描述生成的未來發展趨勢.
隨著互聯網與信息技術的發展,多媒體數據呈現 爆炸性增長的趨勢,從各種信息源(如網絡、新聞、 相機等)上可獲得的圖像數據越來越多.由于圖像數 據具有海量特性和非結構化特性,如何快速有效的組 織、存儲和檢索圖像,成為重要的研究課題,而完備 的圖像語義理解則是其中的關鍵問題[1].盡管從信息 源上獲取的大多數圖像并沒有對應的語義描述,但人 類仍然能夠在很大程度上理解它們.也就是說,人類 很容易就能完成涉及復雜視覺識別以及場景理解的 各種任務、涉及自然語言交流的各種任務以及 2 種模 態之間的轉換任務.例如,只需快速瀏覽圖像就足以 讓人指出并描述關于視覺場景的大量細節,而這對于 機器來說目前仍然是難以完成的任務.為了實現圖像 數據的結構化和半結構化,從語義上更完備地理解圖 像數據,從而進一步研究更符合人類感知的視覺智 能,迫切需要機器能夠為給定圖像自動地生成自然語 言描述.
計算機視覺研究如何理解圖像和視頻,而自然語 言處理研究如何分析和生成文本.盡管這 2 個領域的 研究都采用類似的人工智能和機器學習方法,但在很 長一段時間里它們都是各自發展而很少交叉.近幾 年,結合視覺和語言的跨模態問題受到了廣泛關 注.事實上,許多日常生活中的任務都具有這種跨模 態的特性.例如,看報紙時解釋圖片的上下文信息, 聽報告時為理解講話而搭配圖表,網頁上提供大量結 合視覺信息和自然語言的數據(帶標簽的照片、新聞 里的圖片視頻、具有多模態性質的社交媒體)等.為 完成結合視覺和語言的任務并充分利用多模態數據, 計算機視覺和自然語言處理 2 個領域的聯系越來越 緊密. 在這個新的視覺和語言交叉的研究領域中,圖像 描述生成是個重要的任務,該任務包括獲取圖像信 息、分析其視覺內容、生成文本描述以說明圖像中的 顯著物體和行為等步驟[2-5].圖 1 給出了幾個根據圖 像內容生成描述語句的實例.
人體姿態估計的目的是通過圖像、視頻等輸入數據定位人體部位,構建人體表征(如人體骨架)。在過去的十年中,它受到了越來越多的關注,并被廣泛應用于人機交互、運動分析、增強現實和虛擬現實等領域。盡管最近開發的基于深度學習的解決方案在人體姿態估計方面取得了很高的性能,但由于訓練數據不足、深度模糊和遮擋,仍然存在挑戰。本綜述論文的目的是通過對基于輸入數據和推理的解決方案進行系統的分析和比較,對最近基于深度學習的二維和三維姿態估計解決方案進行全面的回顧。這項綜述涵蓋了自2014年以來的240多篇研究論文。此外,還包括了二維和三維人體姿態估計數據集和評估指標。本文總結和討論了現有方法在流行數據集上的定量性能比較。最后,對所涉及的挑戰、應用和未來的研究方向進行了總結。
//www.zhuanzhi.ai/paper/7459265d2fbd81f9b91bf0f7b461bcc7
模態是指事物發生或存在的方式,如文字、語言、聲音、圖形等。多模態學習是指學習多個模態中各個模態的信息,并且實現各個模態的信息的交流和轉換。多模態深度學習是指建立可以完成多模態學習任務的神經網絡模型。多模態學習的普遍性和深度學習的熱度賦予了多模態深度學習鮮活的生命力和發展潛力。旨在多模態深度學習的發展前期,總結當前的多模態深度學習,發現在不同的多模態組合和學習目標下,多模態深度學習實現過程中的共有問題,并對共有問題進行分類,敘述解決各類問題的方法。具體來說,從涉及自然語言、視覺、聽覺的多模態學習中考慮了語言翻譯、事件探測、信息描述、情緒識別、聲音識別和合成,以及多媒體檢索等方面研究,將多模態深度學習實現過程中的共有問題分為模態表示、模態傳譯、模態融合和模態對齊四類,并對各問題進行子分類和論述,同時列舉了為解決各問題產生的神經網絡模型。最后論述了實際多模態系統,多模態深度學習研究中常用的數據集和評判標準,并展望了多模態深度學習的發展趨勢。
【導讀】辭九迎零,我們迎來2020,到下一個十年。在2019年機器學習領域繼續快速發展,元學習、遷移學習、小樣本學習、深度學習理論等取得很多進展。在此,專知小編整理這一年這些研究熱點主題的綜述進展,共十篇,了解當下,方能向前。
1、A guide to deep learning in healthcare(醫療深度學習技術指南)
斯坦福&谷歌Jeff Dean最新Nature論文:醫療深度學習技術指南(29頁綜述)
Google 斯坦福 Nature Medicine
作者:Andre Esteva, Alexandre Robicquet, Bharath Ramsundar, Volodymyr Kuleshov, Mark DePristo, Katherine Chou, Claire Cui, Greg Corrado, Sebastian Thrun & Jeff Dean
摘要:我們介紹了醫療保健的深度學習技術,重點討論了計算機視覺、自然語言處理、強化學習和廣義方法的深度學習。我們將描述這些計算技術如何影響醫學的幾個關鍵領域,并探討如何構建端到端系統。我們對計算機視覺的討論主要集中在醫學成像上,我們描述了自然語言處理在電子健康記錄數據等領域的應用。同樣,在機器人輔助手術的背景下討論了強化學習,并綜述了基因組學的廣義深度學習方法。
網址:
//www.nature.com/articles/s41591-018-0316-z
2、Multimodal Machine Learning: A Survey and Taxonomy(多模態機器學習)
人工智能頂刊TPAMI2019最新《多模態機器學習綜述》
CMU TPAMI
作者:Tadas Baltru?aitis,Chaitanya Ahuja,Louis-Philippe Morency
摘要:我們對世界的體驗是多模態的 - 我們看到物體,聽到聲音,感覺質地,聞到異味和味道。情態是指某種事物發生或經歷的方式,并且當研究問題包括多種這樣的形式時,研究問題被描述為多模式。為了使人工智能在理解我們周圍的世界方面取得進展,它需要能夠將這種多模態信號一起解釋。多模態機器學習旨在構建可以處理和關聯來自多種模態的信息的模型。這是一個充滿活力的多學科領域,具有越來越重要的意義和非凡的潛力。本文不是關注特定的多模態應用,而是研究多模態機器學習本身的最新進展。我們超越了典型的早期和晚期融合分類,并確定了多模式機器學習所面臨的更廣泛的挑戰,即:表示,翻譯,對齊,融合和共同學習。這種新的分類法將使研究人員能夠更好地了解該領域的狀況,并確定未來研究的方向。
網址:
3、Few-shot Learning: A Survey(小樣本學習)
《小樣本學習(Few-shot learning)》最新41頁綜述論文,來自港科大和第四范式
香港科大 第四范式
作者:Yaqing Wang,Quanming Yao
摘要:“機器會思考嗎”和“機器能做人類做的事情嗎”是推動人工智能發展的任務。盡管最近的人工智能在許多數據密集型應用中取得了成功,但它仍然缺乏從有限的數據示例學習和對新任務的快速泛化的能力。為了解決這個問題,我們必須求助于機器學習,它支持人工智能的科學研究。特別地,在這種情況下,有一個機器學習問題稱為小樣本學習(Few-Shot Learning,FSL)。該方法利用先驗知識,可以快速地推廣到有限監督經驗的新任務中,通過推廣和類比,模擬人類從少數例子中獲取知識的能力。它被視為真正人工智能,是一種減少繁重的數據收集和計算成本高昂的培訓的方法,也是罕見案例學習有效方式。隨著FSL研究的廣泛開展,我們對其進行了全面的綜述。我們首先給出了FSL的正式定義。然后指出了FSL的核心問題,將問題從“如何解決FSL”轉變為“如何處理核心問題”。因此,從FSL誕生到最近發表的作品都被歸為一個統一的類別,并對不同類別的優缺點進行了深入的討論。最后,我們從問題設置、技術、應用和理論等方面展望了FSL未來可能的發展方向,希望為初學者和有經驗的研究者提供一些見解。
網址:
4、meta Learning: A Survey(元學習)
元學習(Meta-Learning) 綜述及五篇頂會論文推薦
作者:Joaquin Vanschoren
摘要:元學習,或學習學習,是一門系統地觀察不同機器學習方法如何在廣泛的學習任務中執行的科學,然后從這種經驗或元數據中學習,以比其他方法更快的速度學習新任務。這不僅極大地加快和改進了機器學習管道或神經體系結構的設計,還允許我們用以數據驅動方式學習的新方法取代手工設計的算法。在本文中,我們將概述這一迷人且不斷發展的領域的最新進展。
網址:
5、A Comprehensive Survey on Transfer Learning(遷移學習)
中科院發布最新遷移學習綜述論文,帶你全面了解40種遷移學習方法
作者:Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Senior Member, IEEE, Hui Xiong, Senior Member, IEEE, and Qing He
摘要:遷移學習的目的是通過遷移包含在不同但相關的源域中的知識來提高目標學習者在目標域上的學習表現。這樣,可以減少對大量目標域數據的依賴,以構建目標學習者。由于其廣泛的應用前景,遷移學習已經成為機器學習中一個熱門和有前途的領域。雖然已經有一些關于遷移學習的有價值的和令人印象深刻的綜述,但這些綜述介紹的方法相對孤立,缺乏遷移學習的最新進展。隨著遷移學習領域的迅速擴大,對相關研究進行全面的回顧既有必要也有挑戰。本文試圖將已有的遷移學習研究進行梳理使其系統化,并對遷移學習的機制和策略進行全面的歸納和解讀,幫助讀者更好地了解當前的研究現狀和思路。與以往的文章不同,本文從數據和模型的角度對40多種具有代表性的遷移學習方法進行了綜述。還簡要介紹了遷移學習的應用。為了展示不同遷移學習模型的性能,我們使用了20種有代表性的遷移學習模型進行實驗。這些模型是在三個不同的數據集上執行的,即Amazon Reviews,Reuters-21578和Office-31。實驗結果表明,在實際應用中選擇合適的遷移學習模型是非常重要的。。
網址:
6、Multimodal Intelligence: Representation Learning, Information Fusion, and Applications(多模態智能論文綜述:表示學習,信息融合與應用) 【IEEE Fellow何曉東&鄧力】多模態智能論文綜述:表示學習,信息融合與應用,259篇文獻帶你了解AI熱點技術
京東
作者:Chao Zhang,Zichao Yang,Xiaodong He,Li Deng
【摘要】自2010年以來,深度學習已經使語音識別、圖像識別和自然語言處理發生了革命性的變化,每種方法在輸入信號中都只涉及一種模態。然而,人工智能的許多應用涉及到多種模態。因此,研究跨多種模態的建模和學習的更困難和更復雜的問題具有廣泛的意義。本文對多模態智能的模型和學習方法進行了技術綜述。視覺與自然語言的結合已成為計算機視覺和自然語言處理研究的一個重要領域。本文從學習多模態表示、多模態信號在不同層次上的融合以及多模態應用三個新角度對多模態深度學習的最新研究成果進行了綜合分析。在多模態表示學習中,我們回顧了嵌入的關鍵概念,將多模態信號統一到同一個向量空間中,從而實現了多模態信號的交叉處理。我們還回顧了許多類型的嵌入的性質,構造和學習的一般下游任務。在多模態融合方面,本文著重介紹了用于集成單模態信號表示的特殊結構。在應用方面,涵蓋了當前文獻中廣泛關注的選定領域,包括標題生成、文本到圖像生成和可視化問題回答。我們相信這項綜述可促進未來多模態智能的研究。
網址:
7、Object Detection in 20 Years: A Survey(目標檢測)
密歇根大學40頁《20年目標檢測綜述》最新論文,帶你全面了解目標檢測方法
作者:Zhengxia Zou (1), Zhenwei Shi (2), Yuhong Guo (3 and 4), Jieping Ye
摘要:目標檢測作為計算機視覺中最基本、最具挑戰性的問題之一,近年來受到了廣泛的關注。它在過去二十年的發展可以說是計算機視覺歷史的縮影。如果我們把今天的目標檢測看作是深度學習力量下的一種技術美學,那么讓時光倒流20年,我們將見證冷兵器時代的智慧。本文從目標檢測技術發展的角度,對近四分之一世紀(20世紀90年代至2019年)的400余篇論文進行了廣泛的回顧。本文涵蓋了許多主題,包括歷史上的里程碑檢測器、檢測數據集、度量、檢測系統的基本構建模塊、加速技術以及最新的檢測方法。本文還綜述了行人檢測、人臉檢測、文本檢測等重要的檢測應用,并對其面臨的挑戰以及近年來的技術進步進行了深入分析。
網址:
8、A Survey of Techniques for Constructing Chinese Knowledge Graphs and Their Applications(中文知識圖譜)
作者:Tianxing Wu, Guilin Qi ,*, Cheng Li and Meng Wang
摘要:隨著智能技術的不斷發展,作為人工智能支柱的知識圖譜以其強大的知識表示和推理能力受到了學術界和產業界的廣泛關注。近年來,知識圖譜在語義搜索、問答、知識管理等領域得到了廣泛的應用。構建中文知識圖譜的技術也在迅速發展,不同的中文知識圖譜以支持不同的應用。同時,我國在知識圖譜開發方面積累的經驗對非英語知識圖譜的開發也有很好的借鑒意義。本文旨在介紹中文知識圖譜的構建技術及其應用,然后介紹了典型的中文知識圖譜,此外我們介紹了構建中文知識圖譜的技術細節,并介紹了了中文知識圖譜的幾種應用。
網址:
9、Advances and Open Problems in Federated Learning(聯邦學習)
【重磅】聯邦學習FL進展與開放問題萬字綜述論文,58位學者25家機構聯合出品,105頁pdf438篇文獻
摘要:聯邦學習(FL)是一種機器學習設置,在這種設置中,許多客戶(例如移動設備或整個組織)在中央服務器(例如服務提供商)的協調下協作地訓練模型,同時保持訓練數據分散。FL體現了集中數據收集和最小化的原則,可以減輕由于傳統的、集中的機器學習和數據科學方法所帶來的許多系統隱私風險和成本。在FL研究爆炸性增長的推動下,本文討論了近年來的進展,并提出了大量的開放問題和挑戰。
網址:
10、Optimization for deep learning: theory and algorithms(深度學習優化理論算法)
【2019年末硬貨】深度學習的最優化:理論和算法綜述論文,60頁pdf257篇文獻
摘要:什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先,我們討論了梯度爆炸/消失問題和更一般的不期望譜問題,然后討論了實際的解決方案,包括仔細的初始化和歸一化方法。其次,我們回顧了用于訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和分布式方法,以及這些算法的現有理論結果。第三,我們回顧了現有的關于神經網絡訓練的全局問題的研究,包括局部極值的結果、模式連接、彩票假設和無限寬度分析。
網址: