摘要
全球醫療系統面臨效率、可及性和個性化方面的持續挑戰。現代人工智能(AI)在通過精確的預測建模解決這些問題方面展現了潛力,但其影響仍受到臨床工作流集成有限的制約。得益于現代AI技術,如多模態大語言模型和世界模型,具身人工智能(EmAI)代表了一種變革性的前沿,提供了增強的自主性和與物理世界互動的能力,以應對這些挑戰。作為一個跨學科且快速發展的研究領域,“醫療領域中的具身人工智能”涵蓋了算法、機器人技術和生物醫學等多個領域。這一復雜性凸顯了及時綜述和分析的重要性,幫助追蹤進展、解決挑戰并促進跨學科合作。 本文提供了關于醫療領域中具身人工智能“核心”的全面概述,其中我們介紹了感知、執行、規劃和記憶等基礎AI算法,并重點介紹了涵蓋臨床干預、日常護理與陪伴、基礎設施支持以及生物醫學研究等方面的醫療應用。這些重要進展有望推動個性化護理、提高診斷準確性并優化治療效果。盡管具身人工智能在醫療領域展現了巨大的潛力,但其發展仍面臨諸如安全性問題、仿真平臺與實際應用之間的差距、缺乏標準化基準以及跨學科領域進展不均等關鍵挑戰。我們討論了技術障礙并探索了倫理考慮,提供了對未來醫療領域中具身人工智能的前瞻性視角。本文還提出了一個用于具身人工智能系統的智能層次框架,以指導進一步發展。通過提供系統化的見解,本研究旨在激發創新和實際應用,為智能化、以患者為中心的醫療新時代鋪平道路。
關鍵詞 — 具身人工智能;多模態;醫療保健;大語言模型;世界模型
醫療服務在促進人類福祉方面發揮著基礎性作用,但仍面臨著持續的挑戰,包括獲取不平等 [1]、護理交付的低效率 [2],以及日益增長的個性化解決方案需求以應對復雜的醫療問題 [3], [4]。這些問題主要源于醫療資源的有限性和不均衡分布 [5],以及治療方法的不夠先進 [6],常常導致治療延誤、治療不充分,或甚至過度治療,從而加劇患者的病情 [7]。在當前的臨床工作流中——主要依賴有限的臨床基礎設施、醫護人員和護理人員——這些挑戰仍然難以徹底克服。為了解決這些問題,已經實施了多種舉措,例如遠程醫療服務 [8], [9]、自動分診系統 [10], [11]、AI輔助的健康監測 [12]、以及醫學影像分析 [13], [14],這些舉措提高了醫療獲取的精確性和效率,同時推動了醫療領域的持續變革。然而,它們仍未能在現有的臨床工作流中提供直接支持。 人工智能(AI)技術,特別是深度學習方法,正在為醫療實踐引入新的“勞動力”,推動著醫療領域的持續變革 [15]–[21]。這些方法從多個中心、設備、場景、患者和時間點收集的廣泛醫療數據中學習醫學和診斷知識,利用電子健康記錄(EHRs)、基因組序列、健康監測信號和醫學影像等數據執行高級臨床預測建模 [22], [23]。這使得早期診斷成為可能 [24],促進個性化治療建議的形成 [25],發現人類難以察覺的細微病癥 [26],并推動生物醫學研究的進展 [27],共同提高了醫療服務的效率和質量。 然而,現代AI技術向實際臨床利益的轉化仍面臨至少四個根本性挑戰:(I)多模態處理不足。當前的AI系統主要依賴于視覺、語言和音頻等常見模態,但通常缺乏處理觸覺感知和嗅覺信號的能力,這兩者在醫療中既復雜又至關重要。缺乏對這些較少探索模態的整合,限制了AI在應對臨床任務和患者護理多方面問題中的有效性。(II)開發與部署的分離。當前的深度學習框架通常在開發和推理階段之間有明顯的分離,這阻礙了它們在實際臨床環境中的持續演變。這種僵化的分離延遲了適應動態臨床需求和不斷變化環境的進程,最終限制了系統的持續自我改進能力。(III)人機交互功能不足。與患者和醫護人員的有效互動對于提升患者體驗甚至改善治療結果至關重要。雖然先進的對話AI系統,如ChatGPT和GPT-4,展示了出色的互動能力,但它們通常未能與治療目標對接,也沒有擴展到行為互動層面。此類互動需要高級推理、強大的記憶保持能力和基于經驗的適應能力。盡管近期研究已強調語言在治療中的變革潛力 [28],但AI系統的語言和互動行為如何在臨床結果上產生積極影響——特別是在心理健康治療領域——仍未得到充分探索 [29], [30]。(IV)從決策到行動執行的路徑缺失。沒有具身于機器人或輔助設備中的AI系統,無法直接減輕醫護人員和護理人員的工作負擔。雖然當前的深度學習模型能夠提供準確的診斷和決策支持,但很少將這些洞察轉化為可執行的診斷或治療干預措施。此外,在執行這些干預時確保安全,并保持與既定臨床工作流的無縫整合,依然是需要緊急解決的關鍵挑戰。 具身人工智能(EmAI)作為一種應對這些醫療挑戰的有前景的方法正在嶄露頭角 [31]–[36]。通過將AI算法,尤其是多模態大語言模型(MLLMs)和世界模型,與機器人技術、機電一體化、人機交互和傳感技術的創新結合,EmAI為AI算法提供了一個物理“身體”或有形介質,使其能夠與世界直接互動 [37]。AI算法負責執行感知、行動控制、決策制定和記憶處理,確保EmAI系統的無縫運行。近年來,AI算法的若干突破顯著推動了EmAI的發展。例如,無監督學習使得AI能夠從海量數據中提取基礎知識,而無需人工監督 [38]–[42];互動感知學習 [43] 使得EmAI系統能夠理解物體的因果關系,并評估與不同物體互動的可能性和可行性 [44];跨模態融合技術已經廣泛發展,能夠整合并利用來自不同源的信息 [45], [46];深度強化學習使得AI系統能夠通過環境反饋學習最優行為 [47]–[52];大語言模型(LLMs) [53]–[57]、多模態大語言模型(MLLMs) [58]–[63]、視覺-語言-行動(VLA)模型 [64]–[67],甚至世界模型 [68]–[70] 的進展,使得AI系統在溝通能力、推理能力和行動規劃能力上得到了顯著提升,尤其是在導航和操控等任務中 [71], [72]。得益于這些成就,“EmAI大腦”的發展和可用性得到了顯著提升,使得在動態醫療環境中發揮作用的EmAI系統變得更加復雜、適應性強和具備上下文感知能力。 EmAI的進展正在推動各個領域的變革性應用,其中醫療保健作為領先領域,占據了該領域約35%的研究工作量 [27], [74],如圖1(a)所示。顯著的例子包括外科機器人 [75] 和陪伴機器人 [76],這些技術正在變得越來越普及。圖1(b)展示了EmAI在醫療關鍵領域的顯著增長,包括生物醫學研究、基礎設施支持、日常護理與陪伴以及臨床干預。值得注意的是,2024年的總發表數量是2019年的近七倍,臨床干預研究在這些領域中顯示出了最快的增長,同時保持了較大的份額。這些成就得益于來自多個學科的知識融合。如圖1(c)所示,關鍵詞共現網絡展示了各領域之間密集的相互聯系,強調了跨學科合作在革命化醫療保健中的關鍵作用。來自基礎模型、大語言模型、計算機視覺、認知科學、社會學和機器人技術的突破性貢獻共同塑造了EmAI在醫療領域應用的未來。基于這些研究成果,EmAI正在通過提升患者護理和操作效率,深刻地改變醫療保健。它使得機器人診斷 [77]、精確外科干預 [78] 和個性化康復治療 [79] 成為可能,不僅簡化了醫療工作流程,還提高了健康結果和減少了恢復時間 [80]。除了臨床應用,EmAI還為脆弱群體如兒童、老年人以及慢性病患者提供了有意義的陪伴 [81] 和情感支持 [82],從而減輕了醫療提供者的負擔。此外,EmAI通過自動化實驗過程和分析大規模數據集,重新定義了生物醫學研究,使研究人員能夠以前所未有的速度生成洞察和進行實驗。這些進展加速了醫學機制 [83]–[85]、治療靶點 [86], [87] 和疾病預防策略 [88], [89] 的發現,推動了生物醫學領域的創新。 盡管EmAI在醫療領域取得了顯著進展 [35], [90]–[96],但其發展仍處于初期階段,并面臨多個挑戰。目前的研究通常集中在EmAI的孤立組件上 [80], [97], [98],如開發先進的算法 [99], [100]、改進工作流程 [101], [102] 或整理數據集 [103], [104],卻未能將其整合為完整的系統。要實現EmAI的全部潛力,跨學科的合作至關重要,能夠彌合這些碎片化的貢獻,構建起一個完整的端到端解決方案。此外,研究大多集中在外科機器人等高調應用上 [77], [78], [105]–[110],而其他有前景的領域,如心理健康干預 [91], [92],仍然未得到充分探索。這種關注的不平衡限制了EmAI在滿足不同醫療需求方面的廣泛影響。此外,盡管陪伴機器人顯示出潛力,但大多數仍為反應型而非主動型 [81],限制了它們自主預測并滿足患者需求的能力 [111], [112]。同樣,生物醫學研究機器人在保持精度和可靠性方面面臨困難,特別是在醫學研究的復雜動態環境中。 此外,EmAI在醫療領域的開發仍面臨顯著的技術挑戰。首先,EmAI的開發通常在仿真平臺上進行,但這些平臺往往未能準確復制現實世界的環境。這一差異使得彌合仿真與現實應用之間的差距成為重大挑戰。此外,由于EmAI系統可能直接與現實世界互動,確保安全變得尤為重要,尤其是在醫療任務中 [113]–[115]。其次,盡管EmAI系統依賴于大規模數據集,但獲取大量、符合倫理、特定領域的現實世界醫療數據受隱私法規和復雜臨床工作流的限制,成為了開發醫療特定EmAI的重大障礙。其他挑戰,如倫理問題 [116]–[119] 和經濟社會影響 [120], [121],也亟待解決。 鑒于EmAI對患者和醫療專業人員的巨大潛力和諸多好處,以及存在的挑戰,及時總結這些方面對于推動該領域發展和促進跨學科合作至關重要。在本綜述中,我們總結并討論了EmAI在醫療保健中的最新應用,突出可能顯著影響患者結果和醫療實踐的關鍵因素。第二部分簡要概述了支撐“EmAI大腦”的技術,涵蓋四項基本能力:感知、執行、規劃和記憶。盡管我們并不深入探討EmAI的技術基礎(有關技術綜述,請參見 [65], [122], [123])或其在機器人學中的一般應用(參見 [37], [124], [125]),我們首次提供了以醫療應用為中心的EmAI綜述,特別是臨床干預、日常護理與陪伴、基礎設施支持和生物醫學研究(在第三部分討論)。我們還總結了這些應用的進展和局限,并通過來自各醫療領域的實例,將EmAI劃分為五個智能水平(見第四部分)。該框架旨在幫助研究人員和從業人員理解EmAI在醫療中的演變和發展階段。第五部分總結了不同醫療場景的數據集和基準,挑戰和機遇則在第六部分進一步討論,旨在引導研究人員探索未來相關領域、應用和數據基礎。
生成式人工智能的能力顯著增強,極大地擴展了其在醫學領域的應用場景。我們提供了一個全面的概述,涵蓋了生成式人工智能在臨床醫生、患者、臨床試驗組織者、研究人員和培訓人員中的應用案例。接著,我們討論了實現這一潛力所需克服的諸多挑戰——包括保持隱私和安全、提高透明度和可解釋性、維護公平性以及嚴格評估模型——以及這些挑戰所帶來的開放研究方向。
對生成式人工智能在醫學中潛力的興奮感激發了大量新應用的涌現。生成模型有潛力改變醫療服務的提供方式(1-5)、醫療服務提供者的角色和職責(6, 7),以及患者與提供者之間的溝通路徑(8, 9)。更上游,生成模型在改善醫學科學發現方面顯示出前景(通過臨床試驗(10, 11)和觀察性研究(12, 13)),并促進醫學教育(8, 14)。這些進展直接源于生成式人工智能的技術突破,極大地提高了生成逼真的語言和圖像的能力,并引發了如何將生成模型融入醫學中的重要問題。
生成式人工智能是繼往技術進展中的最新一項,推動了醫學中的重大變化。過去的重要進展包括電子健康記錄(EHR)的采用;機器人技術在遠程手術中的整合(15);以及預測模型和持續監測作為新診斷工具基礎設施的構建(16, 17)。然而,將新技術引入健康領域不可避免地會帶來新的挑戰。例如,EHR的引入導致了數據隱私問題和數據安全泄露(18, 19)。雖然EHR的引入在減少醫療錯誤和改善醫療指南遵循方面產生了顯著的積極影響(20),但也引入了其他類型的錯誤(21)。類似地,醫療保健環境中的持續監測設備導致了普遍的警報疲勞(22)。總體而言,技術在醫學中的整合需要一個迭代設計過程,既要解決陷阱,又要放大其益處(23)。
生成式人工智能同樣如此。隨著生成模型成為醫學領域研究和應用的領先方向,我們將全面回顧它們所啟用的新應用以及所帶來的新挑戰,特別關注用戶如何與生成模型互動。我們首先簡要概述生成式人工智能,詳細介紹其主要類型以及它們如何融入醫學中的機器學習廣闊領域。接下來,我們將討論生成式人工智能在醫學中的眾多應用案例,按潛在用戶分類:臨床醫生(§2.1)、患者(§2.2)、臨床試驗組織者(§2.3)、研究人員(§2.4)和培訓人員(§2.5)。然后,我們強調必須解決的挑戰(§3),以實現這一潛力并安全部署生成模型(包括確保知情同意、保護隱私、提高透明度等),并在整篇文章中討論未來的研究方向。
生成建模是人工智能的一個基本范式,與預測建模(也稱為判別建模)相對立:預測模型接受輸入并嘗試預測其標簽,但不試圖建模輸入,而生成模型則試圖建模輸入。例如,預測模型可能會接受一份臨床記錄(輸入),并嘗試預測該記錄是否表明存在癌癥(標簽),而生成模型則旨在建模臨床記錄文本本身的分布。由于生成模型的訓練目標是建模整個數據分布,它們具備生成新數據的強大能力:例如,生成新的臨床記錄。 基本的生成建模范式遠早于當前生成式人工智能的興起。例如,經典的生成建模方法,如馬爾可夫鏈,已被用來建模詞序列幾十年(24),理論上可以用來寫臨床記錄。然而,在實踐中,經典的生成建模方法并沒有生成足夠逼真的內容,尤其是在處理復雜的醫學數據時。當前的興趣激增,源于生成建模能力的極大提高,這得益于深度學習架構和更大數據集的擴展(25)。這些改進,如我們所述,擴展了生成式人工智能模型的應用范圍,并激發了在機器學習核心領域之外的應用興趣(26)。
我們總結了三類生成模型,按模型操作的數據類型劃分:(1)文本,(2)圖像,或(3)文本和圖像。對于每一類,我們重點介紹了當前正在使用的最先進的模型。雖然我們討論的主要是文本和圖像數據,因為這些與我們接下來討論的應用案例最為相關,但其他類型數據(例如生理信號和分子圖)上的生成模型也是臨床人工智能研究的新興領域(27-29)。有關更全面的概述,我們建議讀者參考(30)。
對于文本建模,大型語言模型(LLMs) 是主流方法,近年來其性能有了顯著提升。LLMs通常使用變換器神經網絡架構(31)進行下一個詞預測:給定一段詞序列,預測下一個最可能的詞是什么?也就是說,對于一個上下文序列x1,??,xnx_1, \cdots, x_nx1,?,xn,LLM被訓練來預測p(xn+1∣x1,??,xn)p(x_{n+1} | x_1, \cdots, x_n)p(xn+1∣x1,?,xn)(32)。使LLM“龐大”的因素是其深度學習架構的規模,以及訓練它所使用的數據和計算量;目前使用的大多數語言模型都被視為LLMs。訓練LLM通常包括三個階段:首先,LLM在從互聯網上抓取的大型文本語料庫上進行預訓練;其次,進行微調,使用指令跟隨示例,例如“將此出院記錄轉換為通俗語言”并給出合理的回應;第三,進行人類反饋的微調,由人類選擇兩個可能回應中的一個,以捕捉細致的偏好(33)。每個階段可以更具體地定制到醫學領域:一些模型在醫學語料庫上進行預訓練,通常是PubMed,作為整個互聯網的補充或替代(34, 35);有些模型專門使用像MedQA(36, 37)這樣的數據集來回答醫學問題;還有一些新興的數據集包含了醫生編寫的醫學查詢回應,幫助將LLMs與醫學最佳實踐對齊(38)。雖然我們討論的應用案例主要涉及基于人類語言訓練的模型,但具有類似變換器架構的模型也可以在其他類型的生物醫學序列數據上進行訓練。例如,電子健康記錄模型已在ICD代碼序列上訓練(39, 40);蛋白質模型在氨基酸序列上訓練(41);DNA模型則在核苷酸序列上訓練(42, 43)。
對于圖像建模,擴散模型(44)最近成為首選方法,遠遠超越了前一代的生成對抗網絡(45)。給定一個未標記的訓練圖像分布,擴散模型學習生成與訓練分布相似的新合成圖像。訓練擴散模型時,一張真實圖像x0x_0x0 會逐步被破壞,產生xtx_txt,這是經過t次破壞步驟后看起來像隨機噪聲的圖像。模型被訓練來通過學習分布p(xi?1∣xi)p(x_{i-1} | x_i)p(xi?1∣xi) 從噪聲xtx_txt 重構原始的干凈圖像x0x_0x0。訓練好的擴散模型可以從隨機采樣的噪聲開始,并生成一張新圖像,這張圖像雖然不在訓練集內,但看起來像是從相同的分布中抽取的。醫學中的擴散模型已經在幾種不同的圖像類型上進行了訓練,例如胸部X光、皮膚鏡圖像和病理切片(46)。為了提高生成圖像的生物學有效性,正在開發數據集和方法,通過醫生反饋來微調模型(47)。合成圖像生成可以作為一種有用的數據增強技術,特別是在數據受限的環境中,監督機器學習模型可以從合成數據點中受益;最近的證據表明,這種技術可以幫助提高病理學和放射學任務的模型魯棒性(13)。
對于涉及文本和圖像的任務,有兩類關鍵的生成模型:文本到圖像(T2I) 和 視覺-語言模型(VLMs)。T2I模型接受一段文本作為輸入,利用文本條件擴散模型生成相應的圖像輸出。這些模型由兩個組件組成:一個文本編碼器模型(即變換器(48)),以及一個生成圖像的擴散模型,使用文本編碼來生成圖像。T2I模型通常使用一般的圖像描述數據集進行預訓練;然后可以針對醫學進行微調,例如使用胸部X光和相應的放射學報告(49)。T2I模型進一步擴展了合成圖像的可能性,例如,允許研究人員為特定患者病理生成訓練數據。相關地,VLMs接受一張圖像作為輸入,并生成與圖像相關的文本作為輸出(50)。VLMs包括一個圖像編碼器模型(例如卷積神經網絡或視覺變換器(48, 50)),以及一個基于圖像編碼生成文本的大型語言模型。VLMs還需要大量的圖像-文本數據集,這些數據集可以包括圖像描述或報告,也可以包括回答視覺問題,例如“這張胸部X光片是否顯示胸腔積液?”(51)。它們可以應用于病理或放射學的問答和報告生成任務(52, 53)。
這些模型類別在醫學中有著天然的應用。許多臨床過程和決策涉及無結構的文本(如臨床記錄、在線健康信息和治療計劃)和醫學圖像。此外,圖像和文本常常一起出現,尤其是在放射學報告中。下一節將詳細闡述將這些生成建模范式與醫學中的現有數據和過程結合的潛力。
人工智能(AI)技術,尤其是機器學習技術,正在通過增強人類決策能力迅速改變戰術行動。本文探討了人工智能驅動的人類自主組隊(HAT)這一變革方法,重點關注它如何增強人類在復雜環境中的決策能力。雖然信任和可解釋性仍是重大挑戰,但我們的探討重點是人工智能驅動的 HAT 在改變戰術行動方面的潛力。通過改善態勢感知和支持更明智的決策,人工智能驅動的 HAT 可以提高此類行動的有效性和安全性。為此,本文了提出了一個綜合框架,該框架涉及人工智能驅動的 HAT 的關鍵組成部分,包括信任和透明度、人類與人工智能之間的最佳功能分配、態勢感知和道德考量。所提出的框架可作為該領域未來研究與開發的基礎。通過識別和討論該框架中的關鍵研究挑戰和知識差距,我們的工作旨在指導人工智能驅動的 HAT 的發展,以優化戰術行動。我們強調開發可擴展且符合道德規范的人工智能驅動的 HAT 系統的重要性,該系統可確保無縫的人機協作、優先考慮道德因素、通過可解釋的人工智能(XAI)技術提高模型的透明度,并有效管理人類操作員的認知負荷。
人工智能和自主技術的融合給包括國防和戰術行動在內的各行各業帶來了革命性的變化。HAT 的興起可歸因于幾個因素,包括自主技術和人工智能的快速進步、任務和環境的日益復雜、能力更強的自主系統的發展,以及數據和計算能力的不斷提高。隨著這些技術變得越來越復雜和強大,人們越來越認識到,將人類的認知能力與自主系統的計算能力和效率相結合,可以實現潛在的合作。現代 HAT 系統的興起也是由于需要應對快速發展和動態環境的復雜性和挑戰。隨著任務變得越來越復雜、對時間越來越敏感、數據越來越密集,人類與智能體之間的協作對于有效駕馭和應對這些挑戰變得至關重要。
HAT 是一個新興領域,探索人類與自主系統之間的協作伙伴關系,以執行任務或實現共同目標。這涉及一種協作安排,其中至少有一名人類工作者與一個或多個智能體協作。這種協作方式有可能徹底改變各行各業完成任務的方式,并為人類與智能自主系統攜手解決復雜問題和實現共同目標的未來鋪平道路。HAT 系統旨在允許人類將任務委托給智能自主體,同時保持對整體任務的控制。這里所說的智能體是指在決策、適應和通信方面具有不同程度自治能力的計算機實體。這一定義得到了先前研究成果的支持。在 HAT 中,人類的認知能力與自主系統的計算能力和效率相結合,可以提高性能、決策和系統的整體能力。
在此,將定義和澄清一些關鍵概念,這些概念對于理解本研究的范圍和背景至關重要。這些概念包括人工智能、自主、自主系統和戰術自主。通過提供明確的定義并區分這些術語,我們希望讀者能夠達成共識。
自主性。HAT背景下的自主性是指智能自主系統或智能體在團隊環境中獨立運行和決策的能力,具有不同程度的自我管理能力。這涉及到自主系統在學習、適應和推理基礎上更高程度的決策能力。它是系統的一種屬性,而非技術本身。自主實體可以感知、推理、規劃和行動,以實現特定的目標或目的,而無需人類的不斷干預。值得注意的是,自主的程度可能各不相同,有的系統可以完全自主地做出所有決定,有的系統則是半自主的,在某些情況下需要人的干預。在戰術自主方面,HAT 涉及將自主能力整合到戰術行動中。這種整合可包括各種應用,如利用自主系統收集情報、執行監視和其他關鍵活動。自主性使系統能夠在復雜和不確定的環境中運行,從經驗中學習,并在任何情況下都無需明確的人工干預即可做出決策。然而,必須將其與傳統自動化區分開來,傳統自動化通常遵循預先編程的規則、決策樹或基于邏輯的算法來執行任務或做出決策。傳統自動化的適應性和靈活性有限,無法在沒有明確編程的情況下處理動態或不可預見的情況。本文討論了人工智能驅動的自主性如何通過強調學習、適應和決策能力來區別于傳統自動化。這些能力最終會提高戰術行動中人類-自動駕駛團隊合作的整體有效性和敏捷性。
自主系統。自主系統可以在沒有人類持續控制的情況下執行任務或操作。它們利用人工智能算法和傳感器感知和導航環境,實現高度自主。
戰術自主。在本研究中,戰術自主是指自主系統在動態和復雜的作戰環境中做出實時決策和采取行動的能力。這涉及人類與自主系統之間的無縫協調和互動,使它們能夠作為一個優勢互補的統一團隊發揮作用。HAT 的重點是通過人類操作員與智能自主系統之間的無縫協調與協作,實現共同的任務目標。本文介紹了一種人工智能驅動的 HAT,它將人工智能集成到 HAT 框架中。這種方法結合了人類專業技能和人工智能能力的優勢,從而提高了決策、態勢感知和作戰效率。戰術自主性將人類的認知能力(如適應能力、直覺和創造力)與自主系統的計算能力、精確性和動態執行能力相結合,有可能給包括國防、應急響應、執法和危險環境在內的各個領域帶來革命性的變化。必須區分戰術自主和戰略自主,以明確人工智能驅動的人類-自主團隊如何在軍事和作戰環境中促進這兩個層次的自主。戰略自主是指一個國家或組織就廣泛的安全目標做出自主選擇的能力,而戰術自主與戰略自主相反,側重于單個單位或團隊在特定任務中的獨立行動。戰略自主涉及更高層次的決策和規劃,要考慮長期目標、總體任務目標和更廣泛的態勢感知。它涉及指導整體任務或戰役的協調、資源分配和戰略決策過程。
戰術行動。戰術行動涉及在特定區域或環境中的協調活動,通常是在軍事、執法或戰略背景下,重點是通過快速決策、適應動態形勢以及在局部區域和時間范圍內應用軍事技能和資源來實現短期目標。
近年來,人工智能、機器學習(ML)、機器人和傳感器技術的進步為實現戰術自主的潛力鋪平了道路。這些技術進步使自主系統能夠執行復雜任務,實時處理大量數據,做出明智決策,并與人類團隊成員無縫協作。這為增強人類能力、優化資源配置和提高整體作戰效率提供了新的可能性。然而,有效的戰術自主需要全面了解人類與自主系統之間的動態關系。包括信任、溝通、共享態勢感知和決策在內的人為因素在確保 HAT 取得成功方面發揮著至關重要的作用。必須認真應對各種挑戰,如建立適當的信任度、解決潛在的認知偏差、管理工作量分配和保持有效的溝通渠道,以確保無縫協作,最大限度地發揮戰術自主的潛在優勢。戰術自主的 HAT 是一種使用人類和自主系統來操作和控制武器及其他軍事系統的協作方法。在 HAT 中,人類操作員和自主系統共同努力實現共同目標。人類操作員負責總體任務并做出高層決策。自主系統負責執行指定任務。
正如第四節詳細解釋的那樣,人類操作員根據自己的經驗和對任務目標的理解,貢獻戰略洞察力、背景和高層決策能力。交互和通信代表著界面和通信渠道,各組成部分可通過這些渠道交換信息、開展協作并做出共同決策。在共享決策過程的背景下,人類操作員和自主系統參與協作決策過程,共享見解、數據和建議,以制定有效的戰略。自主系統負責實時數據處理、分析和特定任務的執行,為人類操作員提供及時、相關的信息支持。隨后,一旦做出決策,自主系統就會根據共同決策過程的指令執行具體任務,包括偵察、導航或數據收集。
本文全面探討了 HAT 的歷史發展和現狀,并深入探討了利用人工智能實現戰術自主的機遇、挑戰和潛在的未來方向。它強調了人工智能對戰術自主性的變革性影響,并提出了改進決策、態勢感知和資源優化的機遇。通過認識和應對與采用人工智能相關的挑戰,并規劃未來的研究方向,可以為人類與自主系統無縫協作的未來鋪平道路,最終實現戰術環境中更安全、更高效、更成功的任務。
圖1:HAT的應用。
摘要
大型語言模型(LLMs)的成功本質上與海量、多樣化和高質量的訓練和評估數據的可用性密切相關。然而,高質量數據的增長速度遠遠落后于訓練數據集的擴展,導致了潛在的數據枯竭危機。這凸顯了提高數據效率和探索新數據源的緊迫性。在此背景下,合成數據作為一種有前景的解決方案出現。目前,數據生成主要包括兩大方法:數據增強和數據合成。本文全面回顧并總結了貫穿LLM生命周期的數據生成技術,包括數據準備、預訓練、微調、指令調整、偏好對齊及其應用。此外,我們討論了這些方法當前面臨的限制,并探討了未來發展的潛在途徑。我們的目標是為研究人員提供對這些方法論的清晰理解,幫助他們在構建LLM時快速識別合適的數據生成策略,并為未來的探索提供寶貴的見解。
近年來,大型語言模型(LLMs)在廣泛的任務中展現了無與倫比的能力【9, 68, 166】,牢固地確立了它們作為通用人工智能(AI)系統支柱的地位。這些模型在自然語言處理【234, 262, 264】、計算機視覺【100, 207, 239】和其他研究領域【36, 163, 229】中取得了顯著的進展,不斷推動AI所能實現的邊界。LLMs的成功很大程度上歸功于它們能夠從大量數據中捕捉復雜的模式和關系,使其能夠高效執行復雜任務,例如自然語言推理【39, 134】、視覺問答【151, 158】和視覺與語言導航【125, 178】。 然而,LLMs的性能高度依賴于訓練數據的質量和數量【2, 57, 58】。隨著模型規模的指數級增長——現在達到數十億甚至數萬億個參數【105, 168, 268】——對于大規模、多樣化和高質量數據的需求日益增加,以確保模型在各種任務和領域中的穩健泛化。獲取此類數據帶來了巨大的挑戰,因為數據收集成本高昂,同時還面臨隱私問題。此外,高質量數據的增長速度遠遠落后于訓練數據集規模的快速擴展。如果這一趨勢繼續下去,現有的數據將最終耗盡,意味著如果不能顯著提高數據效率或發現新的數據源,LLMs的增長可能會顯著放緩。
面對這些迫在眉睫的限制,數據合成和增強技術對于延長LLMs的生命周期和提升其泛化能力至關重要。傳統的數據合成和增強技術【34, 98, 135, 194】,如圖像旋轉、裁剪、翻轉以及基于規則的自然語言生成,已被廣泛應用于解決這些數據限制。盡管這些方法在一定程度上改善了數據多樣性并緩解了數據匱乏問題,但它們仍難以充分捕捉真實世界數據的復雜性【55】,難以大規模生成數據【233】,并且難以抵御對抗性樣本【162】,這限制了它們在LLM訓練中的有效性。
為了克服這些挑戰,研究人員越來越多地轉向面向LLM的數據合成和增強技術,認識到LLM能夠從大型數據集中建模復雜模式,并生成與真實世界分布高度相似的合成數據,同時引入有價值的變異【37, 175, 260】。這些研究減少了對人工策劃數據集的依賴,并能夠生成高質量、多樣化的數據,以滿足LLMs在其生命周期和功能中的不斷演進需求。為了捕捉這些努力的廣度,我們通過在Google Scholar中使用“數據合成”、“數據增強”和“大模型”等關鍵詞收集了與LLM數據合成和增強相關的論文。圖1展示了按年份和發布平臺劃分的出版趨勢,反映了該領域日益增長的興趣。截至2024年10月,我們識別出了250篇涵蓋不同研究主題和發布平臺的獨特出版物。總結這些努力為我們提供了對進展和剩余挑戰的關鍵見解,并為未來的研究奠定了基礎。 盡管取得了這些進展,但在LLM數據合成和增強方面仍然存在一些關鍵挑戰。合成數據的濫用帶來了風險,特別是在傳播錯誤信息和引發操縱公眾輿論的倫理問題時。此外,合成數據在將AI模型與人類價值對齊時經常引入歧義,可能導致偏見結果。評估訓練于合成數據上的模型也很復雜,因為傳統的基準測試可能無法完全捕捉這些數據的細微差別。確保可靠性也是另一個問題,因為原始數據集中的偏見和不準確性可能在合成數據中持續存在,限制了它的跨領域泛化能力。此外,LLM的計算需求,以及處理不常見語言或新穎指令的挑戰,也使得其更廣泛的應用變得復雜。最后,缺乏統一的框架來組織和比較學術界和工業界提出的方法,這也是研究人員在應對這一快速發展的領域時面臨的障礙。
本綜述旨在通過提供LLM數據合成和增強技術的全面概述來解決這些差距。如圖2所示,與先前的綜述【43, 140, 147, 214, 271】主要集中在支持特定下游任務或LLM某些階段的方法不同,我們的工作強調了LLM數據合成技術在提升其生命周期各個階段和核心功能整體性能中的直接作用。與【137】的工作不同,該工作主要關注解決數據匱乏和隱私問題的合成數據生成實踐,我們的綜述不僅提供了實際指導,還通過分類方法全方位提升LLM性能。我們不僅探討了數據生成方法,還研究了這些技術如何在LLM的各個階段和功能中發揮作用,提供了一種更綜合、以數據為中心的框架來推進LLM的發展。具體而言,我們從兩個關鍵角度系統回顧和分類了現有研究:LLM生命周期(從預訓練到微調和應用)及其核心功能(理解、邏輯、記憶和生成)。通過圍繞這兩個角度展開討論,我們為不同方法的發展、相互聯系及實際應用提供了更清晰的見解。此外,我們還識別了關鍵挑戰,探索了新興的研究方向,并突出了可能進一步推動通過數據為中心的方法提升LLM性能的潛在突破。
本綜述的貢獻總結如下:
通過提供LLM數據合成和增強方法的全面概述,本綜述旨在闡明該領域的現狀,并激發未來的研究方向,以通過數據合成和增強方法進一步提升LLM的能力。
我們對本綜述的其余部分進行如下組織:第2節對LLM數據合成和增強的主要領域進行了分類,概述了基礎技術。第3節從LLM生命周期的角度討論了當前的LLM數據合成和增強方法,詳細說明了這些技術如何在模型開發的不同階段使用。在第4節中,我們從LLM核心功能的角度回顧了這些方法,探討了數據合成和增強如何提升關鍵能力,如理解、邏輯、記憶和生成。第5節探討了LLM數據合成和增強的評估策略,涵蓋了評估基準、評估指標和排行榜,用于評估和比較現有方法的有效性。最后,第6節深入研究了LLM數據合成和增強中的挑戰和新興趨勢,并提出了未來的研究建議,以促進LLM通過數據合成和增強方法的持續進步。
數據生成方法在解決數據稀缺性和不平衡問題方面起著關鍵作用,從而提升模型性能和泛化能力。如圖4所示,我們總結了近年來數據增強和合成技術的發展和演變。本節主要介紹當前數據生成方法的分類,區分了數據增強和數據合成。數據增強通過對現有數據樣本的轉換來增強其多樣性,而數據合成則是從頭或基于生成模型創建全新的樣本。兩者在獲取數據的方式上有所不同,但目標都是擴展數據集。此外,數據增強和合成方法可以從多個維度進行細分。每種方法都有其獨特的優勢和應用,使研究人員能夠根據特定需求和目標定制其數據生成策略。
數據增強是一種從數據到數據的生成方法,通常涉及對原始數據進行操作,以增加其多樣性和數量,而不會顯著改變其本質特征。數據增強技術通過轉換或擾動現有數據樣本,旨在提高其豐富性。在不同的模態中,數據增強技術往往具有相似性。例如,在圖像數據中,增強操作包括拼貼【90】、翻轉【184】、復制粘貼【61】、加噪聲【149】、配對【84】等。類似地,在文本數據中,增強操作包括同義詞替換【95】、復制粘貼【185】等。此外,為滿足多模態學習的需求,現有研究已在數據增強過程中解決了跨模態信息對齊問題。MixGen【75】通過線性插值圖像和拼接來自兩個現有圖文對的文本序列生成新的訓練樣本,所生成的圖文對中的語義關系保持一致并匹配。近年來,在快速發展的LLM領域,數據增強已成為通過多樣化訓練示例來提升模型性能的基石,從而避免了大量額外數據收集的必要性。從數據中心的角度來看,我們系統地將現有的數據增強研究分為三類:數據標注【3, 63, 94, 136, 198, 275】、數據重組【45, 51, 143, 237】和協同標注【11, 43, 116】。
2.1.1 數據標注
數據標注旨在利用LLM廣泛的語言理解能力來為大量未標注數據集提供注釋。這種方法在擁有大量未標注數據的領域(如跨語言處理和多模態學習【3, 63, 275】)中特別有用,在這些領域中,自動化標注可以顯著加快數據準備過程。最近的研究探索了LLM的零樣本標注能力,例如GPT-4對政治推特的標注【198】。此外,Khan等人【94】通過使用SelTDA框架從未標注的圖像中生成偽標簽數據,專注于視覺問答(VQA)任務。
2.1.2 數據重組
數據重組涉及將現有數據轉化并重組為更多樣化的變體,從而實現更精細的數據增強【45, 51】。這種方法旨在通過引入多樣而相關的示例來豐富訓練環境,增強模型的魯棒性和泛化能力。旋轉【92】、顏色通道轉換【64】和同義詞替換【95】等經典方法經常使用。近年來,利用LLM的策略也開始出現。例如,Chen等人【27】提出了Disco方法,該方法利用LLM生成大規模、高質量的反事實數據。2.1.3 協同標注 協同標注指的是人類標注者與LLM在標注過程中的協作【11】。通過整合兩種標注方法的優勢,協同標注不僅降低了標注成本,還同時提升了標注性能,從而促進了更高效和有效的數據標注方法。Li等人【116】提出了CoAnnotating框架,通過評估LLM的標注不確定性,策略性地分配數據點給人類或LLM進行標注。
另一方面,數據合成旨在從頭或基于生成模型創建全新的數據,這些數據與真實數據的分布相似。近年來,隨著生成式AI【13, 41, 42, 78, 139, 161, 169】的爆發和進步,合成數據的質量和生成效率取得了顯著進展。根據LLM的需求,本文將數據合成方法分為三大類:通用模型蒸餾【22, 53, 120, 263, 266】、領域模型蒸餾【108, 145, 146, 215】和模型自我改進【54, 150, 210, 248】。2.2.1 通用模型蒸餾 通用模型蒸餾涉及利用功能強大的通用模型,通常具有更多參數和更優性能,如StableVicuna、ChatGPT和GPT-4,來生成數據集以增強較弱模型的能力。使用這些強大模型的方式有多種,例如使用預定義的模板生成小故事【53】或利用LLM自身評估生成數據的質量。Phi-1及其系列【67, 120】表明,通過利用GPT-3.5生成教科書和習題的全面內容,一小部分高質量數據也可以訓練出強大的模型。其他一些方法通過生成指令數據集并在改進這些數據集的質量后微調模型,也取得了性能提升【22, 80, 196】。2.2.2 領域模型蒸餾 領域模型蒸餾是指利用特定領域內的模型生成數據。這種方法通常在通用模型無法滿足行業應用的特定需求時使用。例如,在代碼編程領域,領域模型蒸餾可以用于生成針對特定編程任務的指令數據【146, 215】。在數學領域,Minerva【108】和DeepSeekMath【220】等方法旨在生成數學問題的解答,同時確保其準確性和多樣性。此外,行業數據往往面臨規模有限和數據無法在特定企業中獲取等障礙。這些因素需要采用能夠有效解決這些特定場景中挑戰的領域專用模型。
2.2.3 模型自我改進
模型自我改進是指模型生成更高質量的數據以提升其能力。例如,利用現有指令調整模型,并促使其以特定風格(如維基百科風格或問答風格)改寫網絡上的文檔,可以聯合預訓練LLM進行真實和合成的釋義任務【150】。Self-Instruct【210】通過自動生成和改進指令數據來增強LLM自身的性能,極少需要人工干預。
數據合成和增強對于推動LLMs的發展至關重要,特別是在滿足LLMs對大規模和高質量數據需求方面。本綜述全面回顧了面向LLM的數據合成和增強技術,系統地探討了這些技術在LLM整個生命周期及核心功能中的應用,并構建了一個連接現有研究的框架,突出關鍵方法,闡明其優勢與局限性。我們相信,面向LLM的數據合成和增強方法的進步將開辟新的可能性,以提升數據效率、改善任務間的泛化能力,并推動以數據為中心的AI的演變。我們希望本綜述能為未來的研究奠定基礎,激發該領域的數據合成和增強的創新與進步。
人工智能能否解決戰爭中的倫理、道德和政治困境?人工智能(AI)驅動的戰爭如何改變我們思考戰爭倫理-政治困境和實踐的方式?本文探討了現代數字化戰爭中人機互動的倫理、道德和政治困境的關鍵因素。有觀點認為,人工智能的 “理性 ”效率可以同時為人類在戰斗中的心理和生理缺陷提供可行的解決方案,同時保留人類對戰爭機器的 “有意義的 ”控制,本文對這一觀點提出了反駁。這種龐洛士式的假設忽視了人機互動的心理特征、未來人工智能沖突的速度以及現代戰爭復雜而混亂的本質。文章闡述了人機互動的關鍵心理學見解,以闡明人工智能如何塑造我們思考未來戰爭的政治和倫理困境的能力。文章認為,通過人機融合的心理過程,人工智能將不僅僅是現有先進武器的武力倍增,而將成為戰爭中事實上的戰略行動者--“人工智能指揮官問題”。
文章分為三個部分。第一部分通過對人類與技術以及人機互動的更廣泛對接進行背景分析,為論點提供框架。文章探討了人類為何以及如何與機器和新出現的復雜社會技術系統糾纏在一起、軍事技術倫理的根源以及無風險、無摩擦戰爭的概念。報告將人工智能技術描述為這一社會技術趨勢的新表現形式。它認為,在戰爭決策中外包人類良知--幻想解決戰爭的倫理、道德和政治困境--有可能侵蝕人類與戰爭之間的重要聯系。本節還討論了質疑 “用機器取代人類一定是個壞主意 ”這一觀點的各種反駁意見(“人工智能樂觀主義者”)。例如,人類會犯錯誤,經常做出非理性的行為,而且容易產生暴力、不道德和非人化等原始本能(Haslam,2006 年;Brough,2007 年)。
第二部分探討了人機互動的心理特征。具體地說,本節分析了人類的幾種偏差--控制幻覺、啟發式捷徑(Einstellung效應、存在偏差)和自動化偏差--這些偏差會使指揮官容易濫用或過度使用軍事力量以達到不公正的目的。報告還討論了這些偏差在更廣泛的政治驅動力中的潛在影響,這種政治驅動力就是通過技術神器來實現戰爭的可預測性和集中控制。
最后,第三部分探討了利用人工智能等技術完善無風險、無摩擦戰爭的手段對軍事倫理和戰爭中的道德責任的潛在影響。它將圍繞人工智能技術將人類倫理編碼到機器中的爭論背景化。它還探討了人類情感的作用,人類情感賦予我們理性和深思熟慮的感覺,影響我們的決策,并塑造我們對倫理和道德困境--沒有明顯理想結果的情況--的反應。人類的倫理道德能否被編程到算法中?如果可以,那么如果道德責任外包給人工智能,人類又該如何保留自己的倫理和價值觀?
人工智能(AI)在增強國防系統能力、革新戰略決策和塑造未來軍事行動格局方面發揮著重要作用。神經符號人工智能是一種新興的方法,它利用并增強了神經網絡和符號推理的優勢。與傳統的人工智能系統相比,這些系統可能更具影響力和靈活性,因此非常適合軍事應用。本文全面探討了神經符號人工智能的不同層面和能力,旨在闡明其在軍事領域的潛在應用。我們研究了它在改進決策、自動進行復雜情報分析和加強自主系統方面的能力。除了在軍事領域的應用外,我們還進一步探討了它在解決各領域復雜任務方面的潛力。通過這種探索,我們解決了對神經符號人工智能在軍事和民用領域的開發和部署至關重要的倫理、戰略和技術問題。本研究是對神經符號人工智能廣泛可能性的全面探索,為日益增多的研究做出了貢獻。
神經符號人工智能將推動未來的人工智能戰場,徹底改變戰爭。在軍事決策過程中利用人工智能可以提高戰場效率,改善關鍵作戰決策的質量。神經網絡與符號推理的結合有可能顯著提高威脅探測的準確性,并實現更快、更精確的戰術決策,從而徹底改變軍事行動。本文分析透徹,為關注人工智能在戰爭中的未來的研究人員、從業人員和軍事決策者提供了寶貴的見解。通過對現有研究的批判性審視,確定了關鍵挑戰,并概述了未來有希望的發展方向。這旨在進一步增強神經符號人工智能在優化后勤、增強態勢感知和動態決策等領域的負責任部署。此外,神經符號人工智能在軍事應用方面取得的進步也為其在醫療保健、金融和交通等民用領域的廣泛應用帶來了巨大潛力。這種方法提高了不確定性條件下的適應性、可解釋性和推理能力,徹底改變了傳統方法,推動了軍事和民用效能的發展。
貢獻。本文對神經符號人工智能領域做出了以下重要貢獻。
圖 6:神經符號人工智能的一些主要軍事應用。
先進人工智能(AI)與當代各部門和各行業的融合不僅僅是技術升級,更是一場具有深遠影響的變革。本文探討了與先進人工智能在社會、經濟和政治系統中的快速融合相關的結構性風險概念。這一框架挑戰了主要關注人工智能直接威脅(如事故和誤用)的傳統觀點,并提出這些更近似的風險是相互關聯的,并受到更大的社會技術系統的影響。通過分析技術進步與社會動態之間的復雜互動,本研究確定了結構性風險的三個主要類別:前因結構、前因人工智能系統和有害反饋回路。我們提出了一個全面的框架來理解驅動這些風險的因果鏈,強調了社會規模的結構性力量與誤用、系統故障和錯位系統擴散等更近似的風險之間的相互依存關系。本文闡述了不加控制的人工智能進步如何重塑權力動態、信任和激勵結構,從而導致深刻且往往不可預測的社會變革。介紹了繪制、模擬和推演這些動態的方法論研究議程,旨在讓政策制定者和國家安全專業人員做好準備,應對下一代人工智能技術帶來的挑戰。本文最后提出了政策建議,通過將對人工智能-社會技術關系的細致理解納入戰略規劃和國際治理,來降低這些風險。
技術的開發和應用不是孤立的,而是與人類的需求、動機和環境緊密聯系在一起的。人工智能系統尤其如此--經過訓練的適應性學習技術,能夠與社會和物理世界融合互動。這種社會技術生態通過人機互動不斷發展,在改變社會結構(文化、經濟和政治)的同時推動技術加速發展(Valverde,2016 年)。因此,研究人員越來越多地從復雜系統的角度來評估人工智能,重點關注其結構、功能以及與平行系統的關系如何影響風險動態(Lazar & Nelson, 2023; Weidinger et al.) 越來越多的文獻研究了人工智能在技術、人類和系統層面的安全性,指出了反饋回路(Weidinger 等,2023 年;Anwar 等,2024 年)和社會適應(Bernardi 等,2024 年)的重要性。人工智能治理研究人員將這類風險稱為結構性風險:技術如何塑造或被更廣泛的環境塑造(Zwetsloot 等人,2019 年;Dafoe,2020 年)。盡管如此,對人工智能結構性風險動態的研究仍然有限,只有戰略武器和威懾(Avin & Amadae, 2019; Flournoy et al., 2020; Wong et al., 2020; Johnson et al., 2023)和快速社會變革(Ward, 2022)領域有明顯的例外。
圖 1. 人工智能風險格局。事故風險和誤用都與自我強化動態有著廣泛的重疊。誤用人工智能系統會讓技術安全問題顯現出來,而結構性力量(如經濟或地緣政治)會促使未經測試的系統過早發布,改變權力動態(改變攻防平衡),或降低進入門檻。
結構性風險可定義為在更廣泛的社會技術系統中開發和部署先進人工智能技術所產生的動態變化,包括互為因果的事件鏈、激勵結構和權力不對稱。對結構性風險的研究將分析重點從因果鏈末端的威脅--近因和事件,如無法控制的美國空軍人工智能無人機系統--轉移到潛在的結構性力量、它們之間的相互作用以及意想不到的后果。因此,雖然結構性風險有別于人工智能帶來的其他更直接的威脅(如目標錯位或網絡威脅),但它們是其特征和嚴重性的基礎。因此,大多數人工智能風險都具有間接因果途徑的結構性基礎(圖 1)。例如,過早部署一個功能強大、潛在不安全的系統可能會對事故產生直接影響,如系統故障,或部署錯位系統,或間接改變進攻-防御力量的對稱性(如增強進攻性網絡能力),導致國家間關系緊張,甚至沖突。事實上,新能力的提升會影響到更廣泛的社會和政治環境,同時也會受其影響。這種框架導致一些研究人員認為,大多數人工智能風險本質上都是結構性的(Krueger,2023 年;Clarke,2022 年)。
為了進一步闡明間接風險這一點,可以考慮采用化石燃料的歷史例子。雖然人類使用化石燃料已有數千年的歷史,但在 19 世紀,化石燃料的廣泛傳播造成了人口和工業的爆炸性增長,推動了工業革命的空前發展(Jianfen,2021;Wrigley,2013)。化石燃料使用的外部效應導致了廣泛的健康影響(如污染、工廠作業)、城市和國防工業基地的快速擴張以及大氣中二氧化碳的持續增加。因此,從第一批燃煤發電廠和鐵路到內燃機以及二戰前線軍事裝備的開發和運輸,都可以追溯到間接的因果聯系(布萊克,2017;達福,2020)。技術如何改變支撐發展和國際安全的結構性力量,推動社會組織和沖突的特征進入二十世紀。
權力動態和對對手的不信任會推動新技術快速融入全球軍事,導致以前無法想象的沖突形式,如一戰中的無限制潛艇戰、閃電戰戰術,以及二戰中第一顆原子彈的使用。雖然技術進步與沖突之間沒有直接的因果關系,但驚人的能力確實改變了可能的平衡,而權力不平衡、不信任和維持統治地位的動機又加劇了這種平衡。這些力量會形成危險的反饋循環,扭曲價值結構,加速競爭,增加事故和濫用的風險。在德國決定在一戰中實施無限制潛艇戰之前,各方都認為在戰爭中使用這種戰術是不可想象的(Gompert,2014);然而,首次使用引發了各方參與,導致美國卷入一戰。今天,關于完全自主武器系統的倫理和禁止問題也有類似的討論(Kallenborn, 2020)。然而,歷史的教訓表明,新的能力與正確的激勵措施相結合,可以從根本上改變可允許性的結構動態。
這些動態的一個當代例子是圍繞人工智能發展的經濟和地緣政治競賽動態,推動公司和國家加快部署時間表。另一個例子是社交媒體算法對人類社會組織和決策的影響,導致整個政治制度和個人傷害的轉變。此外,對武器系統(戰略、戰術或指揮控制系統)自主性的信任螺旋式上升,導致緊張局勢加劇和技術升級(Avin & Amadea, 2019)。隨著系統越來越強大,社會和技術世界變得越來越相互依存,結構性風險可能會出現新的表現形式。事實上,人工智能內容選擇算法對青少年自殺或投票行為的影響,在達到人工智能復雜性的特定門檻之前,并沒有人注意到。在一些尚未考慮的領域,情況可能也是如此。正如在 1945 年北卡羅來納州洛斯阿拉莫斯的特尼狄核彈試驗之前,核輻射的影響還相對遙遠一樣,人工智能的結構性風險也存在著一個巨大的、不確定的問題空間,目前還在視線之外。
生成式人工智能模型能夠執行一系列傳統上需要創造力和人類理解力的任務。在訓練過程中,它們可以從現有數據中學習模式,然后根據這些模式生成文本、圖像和音樂等新內容。一方面,由于它們的多功能性和普遍的高質量結果,它們代表了數字化的機遇。另一方面,人工智能生成模型的使用也帶來了新的 IT 安全風險,在全面分析與 IT 安全相關的威脅時需要考慮這些風險。
針對這種潛在風險,使用生成式人工智能的公司或機構在將生成式人工智能集成到工作流程之前,應進行單獨的風險分析。這同樣適用于開發人員和運營商,因為生成式人工智能的許多風險必須在開發時就考慮到,或者只能由運營公司來影響。在此基礎上,可以調整現有的安全措施,并采取額外的措施。
人工智能(AI)和統計機器學習(ML)與復雜系統的集成,給傳統的測試與評估(T&E)實踐帶來了各種挑戰。隨著更多不同級別的決策由人工智能系統(AIES)處理,我們需要測試與評估流程為確保系統的有效性、適用性和生存性奠定基礎。這涉及到評估 ML 模型和人工智能算法組件的方法,包括展示它們如何產生可重復和可解釋的決策的能力,以及對任何故障模式和故障緩解技術的了解。此外,還需要人工智能保證,以證明人工智能算法按預期運行,不存在因設計缺陷或惡意插入數據或算法代碼而產生的漏洞。T&E 需要新的流程來鑒定 ML 模型的訓練數據是否充足、算法和模型性能、系統性能以及運行能力。弗里曼(Freeman,2020 年)概述了當前復雜軟件支持系統的測試與評價方法所面臨的挑戰、嵌入式人工智能所加劇的關鍵挑戰,以及針對 AIES 的測試與評價需要如何改變的 10 個主題[1]。
為了充分測試 AIES,測試與評估界需要應對以下挑戰:
圖 1 總結了加強測試與評估的 10 個不同主題,以應對充分測試和評估 AIES 所面臨的挑戰。在過去的一年中,弗吉尼亞理工大學致力于測試和評估各種 AIES。本最佳實踐指南對圖 1 中的主題進行了進一步的完善和補充。本文所包含的最佳實踐將這些主題轉化為可執行的測試與評估實踐。在編寫本指南的過程中,我們充分利用了我們在人工智能系統開發和與更廣泛的人工智能社區合作方面的 T&E 工作經驗。這里所包含的最佳實踐反映了我們為使人工智能系統的測試與評估具有可操作性所做的初步嘗試。這些實踐需要在各種人工智能系統中進行測試,以確保它們是真正的最佳實踐。貫穿許多最佳實踐的一個亮點是數據的重要作用。數據不再僅僅是 T&E 的產物。現在,它已成為人工智能系統開發本身的輸入。這一顯著變化推動了對人工智能系統的技術與評估提出新的要求和實踐。此外,這份清單還遠遠不夠完整,應被視為一份活生生的實踐文檔。隨著越來越多的人工智能系統可供測試,新的實踐將不斷發展,本清單也需要不斷更新。不過,本文件中的每種做法都已證明在美國防部 AIES 測試中非常有用。
近年來,機器學習的巨大進步已經開始對科學技術的許多領域產生重大影響。在本篇透視文章中,我們探討了量子技術是如何從這場革命中受益的。我們通過說明性的例子展示了科學家們在過去幾年是如何開始使用機器學習和更廣泛的人工智能方法來分析量子測量,估計量子設備的參數,發現新的量子實驗設置、協議和反饋策略,并普遍改善量子計算、量子通信和量子模擬的各個方面。我們強調了開放的挑戰和未來的可能性,并以對未來十年的一些推測性愿景作為結束。
圖1. 機器學習和人工智能可以幫助更好地解決的量子技術領域的任務概述。
圖3. 通過神經網絡進行狀態估計。(a) 對一個量子態的許多相同副本的測量可以被處理以產生一個量子態的估計。(b)對單個量子系統的連續弱測量可以用來更新估計的狀態。在(a)和(b)中,一個單一的網絡被訓練來正確估計任意的狀態。(c) 我們也可以訓練一個基于網絡的生成模型來重現一個量子狀態的統計數據,即從概率分布中取樣。訓練需要許多可以測量的相同的副本,因此可以學習統計學。這里一個網絡只代表一個量子態。它可以被擴展到處理任意基數的測量。
圖4. 機器學習用于量子設備的參數估計。(a) 一個典型的場景,測量結果的統計取決于一些可調整的測量設置和未知參數,這里表示為馬赫-澤恩德設置中的相移。(b) 一個自適應的測量策略可以用一棵樹來說明,每一層的分支都對應著不同的測量結果。根據這些結果,需要選擇一個特定的下一個測量設置(表示為 "αj")。尋找最佳策略是一項具有挑戰性的任務,因為它相當于搜索所有這樣的樹的空間。 (c) 神經生成模型可用于隨機抽查與先前測量結果兼容的未來可能的測量結果(這里是二維電流-電壓圖,如[68])。這對于選擇最佳的下一個測量位置是有幫助的。潛伏空間中不同的隨機位置會產生不同的樣本。(d) 五個可能的基本參數值的測量結果與測量設置(不同的曲線;測量不確定性通過厚度表示)。我們的目標是使信息增益最大化,即選擇最能確定參數的設置(這不等同于使結果的不確定性最大化)。
圖5. (a) 無模型強化學習的最終目標是直接應用于實驗,然后可以將其作為一個黑盒。然而,許多實際的實現是使用無模型的RL技術應用于基于模型的模擬。(b) 基于模型的強化學習直接利用了模型的可用性,例如,通過可微調的動力學取梯度。
圖6. 量子實驗的發現。量子光學實驗可以用彩色的圖來表示。使用最一般的、完整的圖作為起始表示,人工智能的目標是提取解決方案的概念核心,然后可以被人類科學家理解。然后,該解決方案可以轉化為眾多不同的實驗配置[113]。
圖7. 用離散門發現量子電路和反饋策略。(a) 強化學習智能體通過選擇門來作用于多量子比特系統,可能以測量結果為條件,找到一個優化的量子電路或量子反饋策略。(b) 一個固定布局的量子電路,其參數可以通過梯度上升進行優化,以實現一些目標,如狀態準備或變異基態搜索(可能包括反饋)。
圖8. 量子糾錯。綜合癥在表面代碼中解釋為神經網絡可以被訓練來執行的任務。
智能手機和可穿戴設備的廣泛采用導致了豐富數據集的積累,這有助于以從未有的細節理解行為和健康。與此同時,機器學習,特別是深度學習在各種預測任務中取得了令人矚目的表現,但它們在時間序列數據上的使用似乎具有挑戰性。由于噪聲、稀疏性、行為的長尾分布、缺乏標簽和多模態,現有模型難以從這種獨特類型的數據中學習。本論文通過開發新模型來解決這些挑戰,這些模型利用多任務學習進行準確預測,多模態融合來改進種群子類型,以及自我監督來學習廣義表示。我們將我們提出的方法應用于通過傳感器數據預測心理健康和心肺健康的現實世界任務。
首先,我們研究從智能手機(運動和背景音頻)收集的被動數據與瞬時情緒水平的關系。我們的新訓練管道將不同的傳感器數據結合到低維嵌入中,并將縱向用戶軌跡聚類為結果,優于僅基于心理學問卷的傳統方法。其次,由于情緒不穩定作為心理健康狀況不佳的預測因素,我們提出了用于時間序列預測的編碼器 - 解碼器模型,該模型利用多任務學習的情緒雙模態。
接下來,受視覺和語言任務中通用模型成功的推動,我們提出了一種自我監督的神經網絡,可用作可穿戴數據的特征提取器。為此,我們將心率響應設置為活動數據的監督信號,利用它們潛在的生理關系,并表明由此產生的與任務無關的嵌入可以泛化通過遷移學習(例如 BMI、年齡、能量)預測結構不同的下游結果支出),優于無監督自動編碼器和生物標志物。最后,承認健康狀況是整體健康的一個強有力的預測指標,然而,這只能用昂貴的儀器(例如,最大攝氧量測試)來測量,我們開發了能夠準確預測當前可穿戴設備的細粒度健康水平的模型,更重要的是,近十年后它的方向和規模。
所有提出的方法都在大型縱向數據集上進行評估,有成千上萬的參與者。本論文中開發的模型和得出的見解為更好地理解高維行為和生理數據提供了證據,這些數據對大規模健康和生活方式監測具有重要意義。
計算機和數據已經改變了我們獲取信息的方式、我們的交流方式以及我們對科學的思考方式。大型數據集的管理已經徹底改變了許多領域,實現了幾十年前無法想象的規模(Aad等人, 2012)。但是孤立的數據是沒有意義的;我們的努力應該有針對性地提取影響決策并最終改善生活的可行見解和知識。
健康數據是直接改變生活的最佳選擇。我們處理這些數據的方式的進步可以改變我們的社會。盡管絕大多數醫學研究都研究臨床數據(實驗室、影像學、生命體征等),但普通人每年只看醫生大約 5 次(Kim 等人,2014 年)。另一方面,可穿戴傳感和移動計算的最新進展以及它們的廣泛采用,為在實驗室和醫院環境之外以縱向方式收集健康和福祉數據創造了新途徑。除了“填補”傳統臨床數據的空白外,這些設備還為大規模生活方式監測開辟了新的研究和商業方向。例如,全球數百萬人使用此類設備來跟蹤他們的身體活動和睡眠,并具有越來越復雜的預測能力(Althoff 等人,2017 年)。
與此同時,看似完全不同的力量,如成熟的開源科學軟件庫、更容易的數據眾包和標簽,以及專用硬件(顯卡)的再利用,都使預測建模得到了顯著改進。許多機器學習 (ML) 任務都取得了令人印象深刻的性能,從圖像中的對象識別(He 等人,2016 年)到在圍棋、雅達利和國際象棋游戲中贏得最佳玩家(Schrittwieser 等人,2020 年) ,或在乳腺癌篩查方面表現優于專家(McKinney 等人,2020 年)。在所有這些案例中,共同點是管理高質量的大型數據集,這些數據集允許模型利用潛在模式并隨后在現實世界中進行泛化(Hyland 等人,2020 年)。然而,尤其是在錯誤預測可能產生嚴重后果的健康領域,此類系統的推出和采用遭到了抵制(Davenport 和 Kalakota,2019 年)。相反,在線服務、社交網絡或流媒體服務等低誤報成本和高數字化率的領域,不僅接收機器學習,而且積極推動研究界進一步發展計算機視覺和自然語言領域發展。
類似于社交網絡如何學習我們的在線行為,可穿戴設備和移動設備監控我們在現實世界中的活動。通過跟蹤我們的睡眠、步數、飲食和工作習慣,他們可以全面了解我們日常健康中最重要的組成部分(世界衛生組織,2002 年),然而現在只有通過調查才有可能。盡管我們認識到此類數據集的價值,但機器學習在健康和移動傳感方面的進展并沒有跟上其他領域的步伐。例如,在過去十年中,Fitbit 或 iPhone 等設備一直在以前所未有的時間分辨率收集多模式傳感器數據。然而,有效利用這些數據集帶來了許多挑戰,導致這些數據在科學和醫學研究中經常被忽視。此外,在這個粒度上獲得高質量注釋和基本事實可能是昂貴的,甚至是不可能的。需要新的計算方法來應對這些挑戰,本論文試圖彌合其中的一些差距。
盡管檢測和了解心理和身體健康的波動很重要,但醫生和研究人員仍受到一個關鍵限制的阻礙:缺乏可靠和有意義的數據。大多數已建立的研究和臨床實踐都是基于紙筆書面的自我報告和調查,雖然在沒有替代方案的情況下很有價值,但它們會受到偏見并且經常提供不完整的信息(Brenner 和 DeLamater,2014 年)。
個人可能不準確地回憶起他們的行為,報告他們習慣的理想化版本或它們的某種組合。先前的研究發現,自我報告的身體活動存在報告偏差,這源于社會期望偏差(報告被視為社會期望的行為),以及精確報告身體活動行為的強度、持續時間和頻率的認知復雜性(Sallis and Saelens,2000)。此外,對自我報告行為的理解僅限于向研究參與者提供的特定問題集。這些可能不足以反映復雜行為的完整視圖。報告錯誤導致的不準確可能隨機分布在所研究的人群中。這些錯誤也可能是系統性的,不同人群中的參與者系統地低于或過度報告他們的活動水平。這可能導致錯誤關聯的識別。
與身體健康類似,偏見會以更微妙的方式影響心理健康研究。被要求報告他們的情緒水平或測試抑郁癥的患者可能會被自我強化循環中的問題內容觸發,這可能弊大于利(Labott 等人,2013 年)。為了減少對使用自我報告身心健康測量研究中的偏見擔憂,應盡可能根據金標準測量或客觀測量對問卷進行驗證。來自移動設備的數據可以結合兩者:由于推送通知,自我報告總是帶有時間戳和上下文,而被動傳感器可以不顯眼地客觀地監控行為。
在大多數領域,科學家的典型工作流程涉及解釋數據集方差的綜合變量。直到最近,這個過程的特點是精細的特征工程,以便構建能夠區分某些類別的信息特征(在分類的情況下)。現在,深度神經網絡可通過學習潛在特征作為優化過程的另一作用以及實現最先進的結果(LeCun等人, 2015)來自動化這項任務。這對于移動傳感數據更為重要(圖 1.1 展示了移動傳感器數據的典型機器學習工作流程示意圖)。
圖 1.1:機器學習工作流的生命周期。處理來自個人設備的數據時遵循的迭代步驟。本論文對應用于整個生命周期的方法做出了貢獻,特別關注新穎的特征提取和表示方法,以及推廣到以縱向方式收集的新數據。
來自加速度計、心電圖 (ECG)、陀螺儀和麥克風等常見傳感器的數據通常表示為高維時間序列 (Lane等人, 2010)。與其他數據類型不同,這些傳感器測量是有噪聲的,盡管在小規模研究中人工設計的特征已被證明是有效的(Wang等人, 2014),但要為個人用戶行為的不同噪聲水平選擇魯棒的特征并不簡單。移動測量中的噪聲很難建模,因為它與時間相關 (Park, 2004) 并呈現非線性結構 (Ang et al., 2007)。除了噪聲之外,建模傳感器數據的挑戰還延伸到不同的稀疏程度(Abedin 等人,2019;Ghassemi 等人,2015)、無法獲得高質量注釋和標簽(Bulling 等人,2014)以及異構數據類型(Radu 等人,2018 年),與已建立的基準任務中使用的類型不同。
描述這些挑戰的說明性場景可能是個人在洗澡時摘下智能手表。手表的光傳感器可能會從遠處的表面反射,從而記錄錯誤的心率(噪音);非磨損期會產生不規則的采樣數據,這些數據必須用預期的傳感器值(稀疏性)進行估算;用戶不太可能在分鐘級別注釋此事件或其他事件(標簽稀缺性)。此外,當最終佩戴時,運??動傳感器和心臟傳感器對壓力等外部刺激(多模態)的反應會有所不同(Bent 等人,2020 年)。
尺度也不同。大型縱向研究,如 UK Biobank (Doherty等人, 2017)、Apple Study (Perez等人, 2019)、Fenland Study (O'Connor等人, 2015)、Utsureko (Suhara等人, 2017) ) 和 EmotionSense (Servia-Rodr′?guez等人, 2017) 一直在使用可穿戴傳感器監測數萬名參與者的身心健康。例如,超過 200000 名 Fitbit 用戶的靜息心率升高被用于預測美國的流感樣疾病(Radin 等人,2020 年)。然而,諸如廣義線性混合模型之類的統計方法對具有重復測量的縱向數據進行操作(例如,單個用戶出現多天),無法擴展到該數量的受試者(Zhang等人, 2016)。此外,鑒于之前的移動健康研究是通過受控實驗和有限數量的參與者進行的(Sano,2016;Jaques 等,2017;LiKamWa 等,2013),尚不清楚之前的發現和方法是否可以轉移到這些大型數據集。此外,缺乏對參與的嚴格控制以及促進參與的有限機制,使得收集的數據更難以解釋。
可以說,這里的潛在挑戰是表示。機器學習試圖找到有意義的表示,將數據轉換為線性可分的空間并區分語義類。從捕獲圖像數據集結構的卷積網絡的低維嵌入 (LeCun等人, 2015) 到最近通過預測輸入數據的失真樣本來學習更好特征的自監督網絡,它已經走了很長一段路(Devlin等人,2019)。但是了解多感官測量如何跨時間相互關聯意味著構建個人健康狀態的表示。本論文認為,未來健康機器學習的一些基本組成部分將是多任務處理、遷移學習和預測。我們現在知道,執行多項任務的模型不僅更有用,而且還使每個單獨的任務更加魯棒(Kaiser等人, 2017)。此外,能夠推理未來的模型可以更好地跨不同環境遷移(Chen等人, 2021)。因此,我們需要模型來通過改進數據表示來解決這些挑戰,該表示利用跨傳感器關系并盡可能少地依賴手動注釋。
我們回顧了移動健康機器學習改進帶來的一些潛在好處,采用傳統方法時會出現哪些限制,以及在處理含噪的傳感器數據時會遇到哪些挑戰。形式上,總體目標可以表述為:改進機器學習方法,用于由消費者移動和可穿戴設備生成的動態和靜態、多任務和有限監督的觀察、回顧和縱向數據,用于最終目標是改善健康和福祉,重點是心理和身體健康。我們通過首先評估現有方法在大規模身心健康數據集上的潛力,然后提出優于當前方法或提供新見解的新模型來證實這一說法。我們的方法利用并擴展了多模態融合、多任務學習、時間序列預測、遷移學習和自我監督學習的范式。特別是,本論文解決了以下四個研究問題:
? 研究問題1。我們如何使用機器學習將被動傳感器時間序列與傳統的用戶級元數據相結合,以區分集群用戶軌跡?
? 研究問題2。多任務學習和編碼器-解碼器模型在多步時間序列預測中的效果如何?
? 研究問題3。我們如何訓練具有自我監督的通用神經網絡來利用大量未標記的時間序列數據?
? 研究問題4。我們如何使用深度學習對自由生活的可穿戴傳感器數據進行長期心肺健康預測?
為了解決這些問題,我們開發了可以融合時間序列和表格數據的模型,以及能夠準確預測心理健康的序列模型。此外,我們設計了新穎的自我監督任務,利用大量未標記的時間序列數據,并提出了新模型,以使用自由的生活傳感器數據來預測健康水平。
在方法方面,我們將深度學習模型定制為未標記的時間序列。在應用領域,我們采用機器學習方法來應對身心健康領域的挑戰性任務。我們將從第 2 章介紹序列數據深度學習的背景開始,然后介紹延伸到本文其余章節的四個主要貢獻,如下所示:
貢獻 1:用于大規模情緒預測的多模態機器學習
在第 3 章中,我們展示了心理特征與被動收集的感知數據(加速度計的活動和麥克風的噪聲水平)相結合,可以檢測出一般情緒偏離普通放松的個體特征。我們使用來自 EmotionSense 研究的數據驗證了我們的方法,該研究是在野外收集的一個大型移動應用程序數據集,有 17,251 名參與者,發現這些模式的組合實現了最佳分類性能,并且被動感知的準確性提高了 5%。這項研究背后的主要動機是,經驗抽樣已被提出作為一種監測心理健康的機制,但它需要用戶的關注,因此會導致相當大的保留問題。我們研究是否可以使用被動感知和一次性調查來識別放松和不放松的用戶,并通過擴展來不顯眼地監測心理健康。
建議的方法包括兩個步驟。首先,使用標準算法(如 k-means)對歷史情緒軌跡(特征提取后)進行聚類,以找到具有相似軌跡的用戶組。其次,將用戶分類到找到的集群中。我們的管道采用特征選擇、降維和分??類算法,例如梯度提升樹和深度神經網絡。
實驗結果表明,通過在個性和人口統計調查中加入被動感知,我們可以更準確地預測個人用戶的情緒群體。當使用每周傳感器(加速度計和麥克風)和一次性問卷數據作為輸入時,我們的模型實現了 75% 的 AUC。我們討論了這種多模態數據的特征提取技術和適當的分類器,以及在處理靜態和動態特征時深度神經網絡的過擬合缺點。這些發現可能對移動健康應用程序產生重大影響,這些應用程序可以受益于被動傳感的正確建模以及額外的用戶元數據。
貢獻 2:用于情緒時間序列預測的多任務和序列學習
在第 4 章中,我們提出了一個端到端的編碼器-解碼器模型,用于從之前的自我報告的情緒中預測未來情緒的序列。我們的結果表明,多任務同時學習情緒的兩個維度,這比單個模型或基線更準確。此外,繪制神經激活圖有助于我們了解情緒的潛在軌跡,以及事后錯誤分析確定模型在用戶個性、情緒變化或星期幾方面的表現存在顯著差異。這項研究背后的主要動機是心理學家主要使用筆和紙調查來跟蹤心理健康,這與移動應用程序不同,容易產生回憶偏差。在更技術方面,我們表明當前的心理健康機器學習模型不能提供長期預測,也不能從時間序列中學習復雜的模式。
所提出的方法依賴于端到端長短期記憶 (LSTM) 編碼器-解碼器模型。該序列通過一個 LSTM,被轉換為單個向量,并通過另一個預測未來序列的 LSTM 進行解碼。此外,在處理健康數據時,模型的可解釋性總是很重要,因此我們分析了訓練模型各層的作用。隨著我們進入更深層次,我們看到網絡展示了積極和消極情緒的連續統一體,盡管它已經被訓練為僅預測情緒。此外,通過檢查解碼器的單個神經元,我們觀察到一些神經元幾乎總是以相同的斜率發射,而另一些則更保守,幾乎是平線。這有助于我們識別情緒演變的不同亞型。
在這里,我們再次使用來自 EmotionSense 研究的數據,但是,這次我們只使用了自我報告的情緒序列。我們的結果表明,3 周是情緒報告的最佳窗口,驗證了之前關于抑郁癥預測的研究。此外,我們的模型優于機器學習回歸器和簡單基線,而多任務學習似乎有助于預測警覺性(兩個情緒維度之一)。我們相信這項工作為心理學家和未來移動心理健康應用程序的開發人員提供了一種即用型且有效的工具,用于大規模早期診斷心理健康問題。
貢獻 3:來自自由生活可穿戴數據的生理表征的自監督遷移學習
在第 5 章中,我們開發了一種新穎的自監督通用神經網絡,該網絡將活動數據映射到心率響應,并可用作特征提取器可穿戴數據。它的功能可用于根據用戶獨特生理進行個性化的各種實際下游任務,并且該模型在通過消融研究評估的上游和下游任務中優于一組強大的基線。
對于預訓練,我們引入了一個聯合損失函數,它通過使用模型的預測密度的分位數來作為傳統均方誤差的正則化器,以逼近 HR 數據的長尾,這是現實中普遍存在的問題-世界(健康)數據。在那里,我們表明,包括單一的靜息心率測量具有顯著影響,并且結合時間戳的循環建模,在自由生活條件下實現了 ~9 BPM 的最低誤差。
在下游,我們通過將窗口級特征聚合到用戶級特征來執行一組下游遷移學習任務,并通過在推斷生理上有意義的變量、優于自動編碼器和常見生物標志物方面的強大性能展示學習嵌入所捕獲的價值。例如,我們的模型實現了體重指數 (BMI) 預測的 AUC 為 0.70,體育活動能量消耗的 AUC 為 0.80。通過檢查嵌入,我們還注意到大多數結果隨著潛在維度的增加而改善,而有些結果對其大小保持不變。
我們使用最大的多模式可穿戴心電圖和腕部加速度測量數據集 Fenland 研究評估該模型,包括跟蹤一周的 1,700 多名參與者,以及使用臨床實驗室設備測量的相關健康結果。我們執行消融測試以顯示不同模式和架構組件的性能。總體而言,我們提出了一種用于行為和生理數據的多模態自我監督方法,對大規模健康和生活方式監測具有重要意義。
貢獻 4:使用深度學習從自由生活可穿戴設備預測適應性心肺健康
在第 6 章中,我們利用可穿戴數據和常見生物標志物開發深度學習模型,以預測健康的黃金標準(VO2max),并實現與其他產品相比的強大性能傳統方法。
心肺健康是代謝疾病和死亡率的公認預測指標。健康狀況直接測量為最大耗氧量 (VO2max),或使用對標準運動測試的心率反應進行間接評估。然而,這種運動測試成本高且繁重,限制了其在醫療保健和大規模人口研究中的實用性。也可以使用 RHR 和自我報告的鍛煉習慣來近似健身,但與基于動態數據的估計相比,準確性較低。現代可穿戴設備捕獲非標準化動態數據,可以改善健康預測。
在這里,我們使用更大的 Fenland 研究隊列,并分析來自一項人口研究的可穿戴傳感器在自由生活條件下的運動和心率信號,該研究包括 11,059 名參與者,這些參與者也接受了標準運動測試。我們開發了一個深度神經網絡模型,該模型利用傳感器信息來預測 VO2max,與保持樣本中的基本事實相比,產生 r = 0.82 [CI 0.80-0.83] 的 Pearson 相關性。該模型使用正常日常生活的測量結果優于傳統的非運動健身模型和傳統的生物標志物,無需進行特定的運動測試。此外,我們展示了這種方法在檢測 7 年后重復測量的縱向子樣本 (n = 2,675) 中隨時間變化的適應度變化的適應性和適用性。我們在當前和未來適應度之間的差異(delta)中評估模型的推理能力。對于最后一項任務,模型產生的結果轉化為預測的 delta 和真實 VO2max 的 delta 之間的 0.57 相關性。最后,該模型產生的潛在表征為大規模的健身意識監測和干預鋪平了道路。
本論文的最后一章(第 7 章)反映了前幾章提出的新見解和結果,并概述了局限性以及潛在的未來研究方向。