這篇綜述分析了人工智能應遵循的基本原則,以便模仿人類體驗情感做出決策的真實過程。本文考慮了兩種方法,一種基于量子理論,另一種則采用經典術語。這兩種方法有許多相似之處,主要都是概率論方法。研究闡明了內在噪聲下的量子測量與情感決策之間的類比關系。研究表明,認知過程的許多特征在形式上與量子測量相似。然而,這絕不意味著情感人工智能必須依賴量子系統的功能才能模仿人類決策。人類決策與量子測量之間的類比只是展示了它們在功能上的形式共性。從這個意義上說,我們必須理解人工智能的量子運行。理解量子測量與決策之間的共同特征有助于制定一種只使用經典概念的公理方法。采用這種方法的人工智能的運作方式與人類類似,都會考慮到所考慮的備選方案的效用及其情感吸引力。情感人工智能的運作考慮到了認知與情感的二元性,避免了傳統決策中的許多行為悖論。一個由智能體組成的社會,通過重復的多步驟信息交換進行互動,形成一個網絡,在效用評估的基礎上并受備選方案情感吸引力的影響,完成動態決策。所考慮的智能網絡既可以描述由情感決策者組成的人類社會的運作,也可以描述由神經元組成的大腦或典型的人工智能概率網絡的運作。
人工智能(Artificial Intelligence)被理解為機器表現出的智能,與包括人類在內的動物所表現出的自然智能相反。人工智能的主要教科書將這一領域定義為研究人工智能系統感知從環境中獲取的信息,并為實現目標做出決策和采取行動[1-6]。人工智能研究人員普遍認為,要稱得上智能,就必須能夠使用邏輯策略,并在不確定的情況下做出判斷。
擁有智能的系統被稱為智能體。該系統在評估可用信息后,能夠采取自主行動和決策,以實現預期目標,并可通過學習或利用獲得的知識提高自身性能[1-6]。通常,智能體一詞適用于具有人工智能的系統。然而,智能體范式與經濟學、認知科學、倫理學、哲學以及許多跨學科的社會認知建模和模擬中使用的智能體密切相關。一般來說,從技術或數學的角度來看,智能體的概念可以與真實智能或人工智能相關聯。智能體可以是任何能做出決策的東西,如人、公司、機器或軟件。
在這篇綜述中,我們將集中討論人工智能最困難和最重要的問題之一,即與人類決策過程類似的決策機制,因為人類的決策實際上總是伴隨著情感。實現人類水平的機器智能一直是人工智能工作一開始的主要目標[1-6]。本綜述的重點是描述如何將情感決策數學形式化,使其達到足以讓人工智能模仿人類決策過程(情感是其中不可避免的一部分)的水平。下面,在談到人工智能時,我們會想到情感人工智能。
為了制定情感人工智能的基本操作算法,有必要對人類情感決策進行數學描述。情感量化問題包括兩個方面。一方面是評估主體對外部事件(如聽到聲音或看到圖片)的反應所體驗到的情緒。產生的情緒包括快樂、憤怒、愉悅、厭惡、恐懼、悲傷、驚訝、痛苦等。這種情緒的嚴重程度或強度可以通過研究其在運動反應中的表現形式,如面部表情、啞劇和一般運動活動,以及通過測量生理反應,如自主神經系統交感和副交感神經部分的活動以及內分泌腺的活動來估計。通過研究皮膚電阻的變化、心臟收縮的頻率和強度、血壓、皮膚溫度、血液中的激素和化學成分等,可以發現情緒的植物表現。關于語音、面部表情和肢體動作中的情緒檢測和評估方法,已有大量文獻[7, 8]。能夠識別、解釋、處理和模擬人類情感的系統和設備的研究和開發被命名為情感計算 [9,10]。本綜述將不涉及這些問題。
故事的另一面是描述情緒如何影響決策的挑戰。要制定情感人工智能在決策過程中的運作原則,就必須能夠量化情感在這一過程中的作用。本綜述的中心正是這一目標。
這一目標面臨著如何定義和量化決策過程中產生的情感這一基本問題。要對情緒進行形式化的量化,以便在存在情緒的情況下,在決策的認知過程中選擇最佳的替代方案,這似乎太難了,如果有可能的話。對決策過程中的情緒影響進行數學描述是一個難題,至今尚未找到全面的解決方案[11]。
困難首先在于,與認知相比,情感究竟是什么,并沒有一個唯一的公認定義。關于情感是獨立于認知之外的主要情感[12,13],還是始終依賴于認知的次要情感[14,15],長期以來一直存在爭議,不過也有觀點認為,這種爭議主要是由不同定義引起的語義爭議[16]。
對大腦組織的研究通常支持這樣一種假設,即大腦存在著相當程度的功能特化,許多腦區可以被概念化為情感區或認知區。最常見的例子是情感領域的杏仁核和認知領域的外側前額葉皮層。然而,也有觀點認為[17,18],復雜的認知-情感行為是以腦區網絡的動態聯盟為基礎的,而這些腦區都不應被視為專門的情感或認知腦區。不同的腦區在調節腦區之間的信息流和信息整合方面表現出高度的連通性,這導致了認知與情感之間的強烈互動。通常情況下,"情緒 "只是一個占位符,指的是比狹義情緒更廣泛的東西,包括一般的情感過程[19]。有觀點認為,情緒、認知和相關現象的概念可以在功能性框架下進行更精確的定義,例如,從行為原則[20]、情緒分類學[21]、情緒調節[22]或研究情緒過程動態中的情緒評估[7, 23, 24]等方面進行定義。關于情緒的定義及其與認知的關系的更多參考資料可參見相關調查[25-27]。
功能框架牢記認知與情感在操作上的分離,認知與情感是與決策過程有關的概念,決策過程包括推理和情感兩個方面[11, 28]。推理是指制定明確規則的能力,從而做出規范性選擇。而情感方面則意味著做出選擇的可能性受到情感的影響,而情感并不總是允許做出明確的正式規定。決策中的理性-情感二分法通常被稱為理性-非理性二元對立 [29]。如上所述,嚴格來說,認知與情感、理性與非理性并不存在唯一定義且絕對分離的概念。然而,我們的目標并不是陷入語義學的爭論,而是描述一種考慮到決策兩個方面的方法,即允許對效用進行明確評估的規范性方法和似乎可以避免用規定的形式規則來描述的情感方法。情感的萬花筒可能相當復雜,無法進行明確的分類定義,因此被稱為[7,23,24]特異性和模糊性。這種模糊性是量化情緒對決策影響的主要障礙。
因此,標準編程機器人或計算機與人類智能的主要區別在于人類意識在決策過程中的認知-情感二元性。為了清楚起見,我們可以談論人類智能,盡管正如大量實證研究證明的那樣,幾乎所有有生命的生物都具有決策過程中的二重性。動物可能會感受到各種情緒,包括恐懼、快樂、幸福、羞恥、尷尬、怨恨、嫉妒、憤怒、生氣、愛、愉悅、同情、尊重、解脫、厭惡、悲傷、絕望和悲痛[30]。
人類在做決定時表現出的認知-情感二元性,將理性的有意識行動效用評估與非理性的潛意識情感結合在一起。后者在風險和不確定性決策中尤為明顯。當人的行為與預期效用理論相矛盾時,這種二元性就是經典決策中許多行為悖論的起因。因此,為了制定情感人工智能(Affective Artificial Intelligence)運作的明確算法,包括認知與情感的二元性,有必要發展一種適當的情感決策理論,以便在不確定情況下做出切合實際的預測。
認知-情感二元性在決策中的存在,暗示了借助量子理論技術對其進行描述的可能性,在量子理論中也存在二元性,即所謂的粒子-波二元性[31]。雖然這些概念在物理學和決策理論中的性質相當不同,但量子理論的數學技術很可能暗示了對這兩種現象的類似描述。玻爾[32, 33]是第一個認為人腦的功能可以用量子理論技術來描述的人。從那時起,就有許多出版物討論了直接應用量子技術描述人類決策過程的可能性。這些討論假設意識是量子的或類似量子的,并在許多綜述著作中進行了總結,例如[34-39],其中引用了大量關于應用量子技術描述意識的不同嘗試的參考文獻。
必須承認,許多研究人員對量子物理學與認知過程之間的平行關系持懷疑態度,原因如下:
功能框架牢記認知與情感在操作上的分離,認知與情感是與決策過程有關的概念,決策過程包括推理和情感兩個方面[11, 28]。推理是指制定明確規則的能力,從而做出規范性選擇。而情感方面則意味著做出選擇的可能性受到情感的影響,而情感并不總是允許做出明確的正式規定。決策中的理性-情感二分法通常被稱為理性-非理性二元對立 [29]。如上所述,嚴格來說,認知與情感、理性與非理性并不存在唯一定義且絕對分離的概念。然而,我們的目標并不是陷入語義學的爭論,而是描述一種考慮到決策兩個方面的方法,即允許對效用進行明確評估的規范性方法和似乎可以避免用規定的形式規則來描述的情感方法。情感的萬花筒可能相當復雜,無法進行明確的分類定義,因此被稱為[7,23,24]特異性和模糊性。這種模糊性是量化情緒對決策影響的主要障礙。
因此,標準編程機器人或計算機與人類智能的主要區別在于人類意識在決策過程中的認知-情感二元性。為了清楚起見,我們可以談論人類智能,盡管正如大量實證研究證明的那樣,幾乎所有有生命的生物都具有決策過程中的二重性。動物可能會感受到各種情緒,包括恐懼、快樂、幸福、羞恥、尷尬、怨恨、嫉妒、憤怒、生氣、愛、愉悅、同情、尊重、解脫、厭惡、悲傷、絕望和悲痛[30]。
人類在做決定時表現出的認知-情感二元性,將理性的有意識行動效用評估與非理性的潛意識情感結合在一起。后者在風險和不確定性決策中尤為明顯。當人的行為與預期效用理論相矛盾時,這種二元性就是經典決策中許多行為悖論的起因。因此,為了制定情感人工智能(Affective Artificial Intelligence)運作的明確算法,包括認知與情感的二元性,有必要發展一種適當的情感決策理論,以便在不確定情況下做出切合實際的預測。
認知-情感二元性在決策中的存在,暗示了借助量子理論技術對其進行描述的可能性,在量子理論中也存在二元性,即所謂的粒子-波二元性[31]。雖然這些概念在物理學和決策理論中的性質相當不同,但量子理論的數學技術很可能暗示了對這兩種現象的類似描述。玻爾[32, 33]是第一個認為人腦的功能可以用量子理論技術來描述的人。從那時起,就有許多出版物討論了直接應用量子技術描述人類決策過程的可能性。這些討論假設意識是量子的或類似量子的,并在許多綜述著作中進行了總結,例如[34-39],其中引用了大量關于應用量子技術描述意識的不同嘗試的參考文獻。
必須承認,許多研究人員對量子物理學與認知過程之間的平行關系持懷疑態度,原因如下:
(i) 首先,根據目前的神經生理學知識,大腦絕非量子系統,因此與量子意識無關。關于大腦神經元充當微型量子設備,因此大腦的功能類似于量子計算機的假設[40,41]已經受到了公正的批評[42],因為退相干效應不允許神經元充當量子對象。這并不排除大腦中確實存在某些量子過程,量子生物物理學對這些過程進行了研究[43, 44]。然而,整個大腦及其功能似乎與量子理論無關。
(ii) 對于上述反對意見,通常的說法是,用量子理論描述人類思維過程的可能性并不要求假設人腦是某種量子系統。相反,它認為,雖然大腦不是量子對象,但認知和人類思維過程可以用量子理論的語言進行數學形式化。這與微分方程理論所呈現的情況類似,微分方程理論最初是為了描述行星運動而發展起來的。但現在,微分方程理論已被廣泛應用,它只是一種高效的數學工具,與行星運動沒有必然聯系。同樣,量子理論可以為思維過程的數學描述提供一個方便的框架。然而,批評者堅持認為,這些類比是膚淺的,并沒有規定實用的方法,有時甚至在質量上與經驗數據相矛盾[45, 46]。
(iii) 此外,簡單的邏輯告訴我們,如果大腦是一個經典物體,那么它的功能就應該用經典方程來描述,因為正是它的屬性(包括功能)將一個物體劃分為經典或量子。如果一個物體的特性原則上不能用經典理論來描述,而只能用量子理論來描述,那么這個物體就是量子物體,這與我們目前對大腦的認識是矛盾的。
(iv) 直接使用量子理論來描述決策,會引入大量未知參數和模糊概念,而這些參數和概念無法在與決策相關的可觀測量層面上定性。例如,什么是心理過程中的哈密頓?如何定義和測量進入描述大腦狀態的波函數的大量系數?描述大腦特征的統計算子的演化方程是什么?還有很多其他定義模糊的概念[47]。
(v) 任何理論最重要的目標都是能夠預測可在實驗中驗證的定量結果。然而,沒有一個純量子決策變體能預測出一些數字數據。能做到的最大限度就是考慮特定情況,并為這些情況的假定解釋擬合參數。為了從推導出的量子關系中提取定量信息,有必要用一些與量子技術無關的假設對其進行補充。從這個意義上說,復雜的量子子結構變得過度了,這與解釋量子現象的非局部隱變量的過度性類似[48]。
(vi) 決策過程中的某些事件可以定性地解釋為量子過程所致,但這并不排除用經典語言進行其他解釋的可能性。根據 "奧卡姆剃刀原則"(Occam's razor principle),在相互競爭的理論中,最簡單的理論要優于較復雜的理論,因此應首先從已知量的角度來解釋未知現象。因此,基于量子公式的相當復雜的理論應不予考慮,而應選擇基于經典概念的簡單得多的解釋,只要這些解釋是存在的。實體不應超出必要的范圍。最簡單的理論就是最好的理論 [49]。
了解意識的運行是由量子規則還是經典規則來描述是非常重要的,因為根據所涉及的形式主義,人工智能的運行必須用同樣的語言來描述。通過對上述反對將量子技術用于決策形式化的觀點進行研究,我們可以得出以下結論: 首先,盡管目前量子效應對大腦功能的影響尚未得到令人信服的論證,但不能絕對排除這種影響。其次,即使量子效應在大腦運行中沒有實際作用,意識也不需要量子描述,但研究決策與量子過程之間的類比關系可以豐富二者的內涵,建議對二者進行更深刻的理解。量子現象的特殊性如果能得到更好的理解,就能為描述意識功能的方法提供提示。
本綜述所倡導的觀點可概括如下: 大腦是一個經典物體,因此它的基本屬性,即意識,顧名思義,必須是經典的。否則,說經典物體具有量子特性就毫無意義了。然而,在量子測量和決策的描述中存在著一些形式上的類比。這些類比需要仔細研究,原因有二:
(i) 雖然是形式上的類比,但不同現象之間的類比往往為描述這些現象提供了具體的實用方法。
(ii) 從兩種不同方法的名義類比中借鑒一些想法,有助于對這些方法進行比較,并選擇更有效、更簡單的理論。
馮-諾依曼(von Neumann)很早就注意到了量子現象與意識現象之間的形式類比,他提到量子測量理論可以解釋為決策理論[50]。其他研究人員也發展了這一概念,例如貝尼奧夫 [51,52]。因此,量子測量類似于決策,因此對可觀測物的測量類似于決策中對備選方案的選擇。接受了這些類比,我們可以更進一步。考慮到情緒是在決策過程中潛意識產生的,我們可以將情緒與測量設備在測量過程中產生的內在噪音聯系起來。這樣,可觀測-噪聲二元性就等同于認知-情感二元性。在物理測量中,信號的檢測可能會受到噪聲的阻礙,或者加入適量的噪聲會增強信號,從而促進信號的檢測[53, 54],同樣,在決策過程中,情緒可能會阻礙決策的做出,也可能會促進決策的做出。
在量子測量中,可能存在可觀測噪聲糾纏,這在決策中與模仿認知-情感糾纏的相關性相對應。如果固有噪聲呈現為幾種模式的疊加,那么就會出現噪聲干擾,從而產生情感干擾。這樣一來,量子測量和決策之間就有了不同的相似性。因此,即使意識并不完全按照與量子測量相同的規則運作,但無論如何,所發現的許多相似之處可以為決策程序的正規化運作,從而為人工智能的創造提供有用的提示。
最后,為了避免混淆,有必要強調一下本綜述的內容和目的。這決不是對應用于意識表征的量子技術的一般領域的調查,因此沒有討論關于此類應用的成千上萬篇文章,而只是引用了主要書籍,在這些書籍中可以找到大量參考文獻。在集中討論情感量化的思想和方法時,我們只引用了那些研究情感在決策中的作用,特別是討論情感描述的實用方法的著作,但我們并沒有陷入沒有觸及這些問題的論文海洋。在大多數討論量子理論在意識中的應用的著作中,既沒有考慮情感的作用,也根本沒有涉及情感的量化問題。
創造類人人工智能的首要條件是制定明確的數學運行規則。本文并不打算描述人工智能實際運作的所有技術階段,但目的是為類人人工智能在決策過程中的運作制定明確的數學算法。沒有對這些規則和算法的數學描述,就無法對任何設備進行建模。但是,為了用數學方法制定人工智能在類人決策中的選擇過程,就必須理解并用數學方法描述人類的選擇過程,而人工智能計劃模仿人類的行為。因此,本文的核心目標是分析以下問題的組合,這些問題的解決對于人工智能(無論是類人智能還是人類智能)決策的數學表述是必要的:
(1) 分析情感在決策中的作用,并調查相關文獻,無論是采用量子語言還是經典語言。這對于理解情感智能處理的基本定性原則是必要的
(2) 闡述決策過程中情緒量化的實用方法。這是形成情感人工智能的先決條件,而情感人工智能的運行需要有明確的量化算法。
(3) 比較量子和經典兩種方法,以制定情感決策的實用原則。這是選擇最合適的方法的必要條件,這種方法應是自洽的、簡單的,并能為其操作提供定量方法。
(4) 理解如何修改經典方法,以便提供與使用量子技術相同的實際效果。同樣,如果不對量子和經典兩種方法進行比較,就不可能理解這一點。否則,讀者會不斷發出這樣或那樣的感嘆:為什么會有這樣或那樣的假設?這個或那個公式從何而來?
本綜述實現了這些目標。綜述對討論情感在決策中的作用的文獻進行了詳盡的調查。在現有文獻的基礎上,介紹了情感量化的嘗試。從大量引文中可以看出,有大量文獻從經典角度討論了情緒的作用。文中詳細比較了量子技術和經典技術。結果表明,經典方法可以通過考慮情感因素進行修改,從而得出與量子決策理論相同的結果。例如,經典決策中的所有悖論都可以在不使用任何量子理論的情況下得到定量解釋。
然而,如果不對考慮情感因素的兩種不同方法進行比較,就不可能得出結論: 首先,不可能得出哪種方法更可取的結論;其次,不可能知道如何修改經典理論才能使其得出與量子方法相同的結果。因此,評論的所有部分都同等重要,如果分開就失去了意義。因此,如果不將其中一種方法與另一種方法進行比較,就無法證明其中一種方法的合理性。另一方面,在制定了不同的方法后,它們可以獨立使用,并比較其有效性。
綜述的結構如下。第 2 節介紹了存在本征噪聲的量子測量的一般理論。強調了與決策的類比。假設有噪聲量子測量的功能與情感決策的功能相似,則為后者提出了總體框架。對量子方法和修正的經典方法進行比較,不僅可以提供有趣的類比,還可以提出最簡單有效的情感決策理論。
當然,量子技術并非常識,會嚴重阻礙量子理論的實際應用。因此,如果同樣的現象既可以用量子語言描述,也可以用經典語言描述,那么采用較為簡單的經典方法是合理的,但不能用時髦的術語把問題復雜化。理論必須盡可能簡單,以便任何人,包括可能不懂量子技術的人,都能直接使用。這也與決策理論有關,決策理論可以作為量子理論的一個分支來發展,也可以重新表述為公理形式,一方面模仿某些量子運算和結構,另一方面又不需要量子術語知識。第 3 節實現了這一目標,表明情感決策理論可以用公理化的方式表述,而無需借助量子理論。由于情感決策理論是用數學術語表述的,因此可以用于人工智能的運行。第 4 節探討了決策過程中著名的行為悖論,并表明在情感決策理論的框架內,這些悖論在總體上不會出現。從這個意義上說,遵循該理論規則的人工智能將像典型的人類決策者一樣行事。第 5 節介紹了由智能體組成的網絡結構,這些智能體在情感的作用下做出決策。第 6 節為結論。
本研究論文旨在探討人類信任的影響因素,因為它與人類-自主團隊合作有關。研究采用混合方法,通過在線調查實驗進行。實驗分析了幾個自變量和一個因變量(對人工智能(AI)系統的信任)。自變量包括個人的數字素養、人工智能系統的透明程度以及參與者對人工智能系統能力/性能的經驗水平。研究人員給參與者提供了一個假定的小故事,通過隨機處理來測量自變量,在這個故事中,參與者扮演了一個與假定的人工智能系統配對的操作團隊中的首席規劃師的角色。結果表明,無論處理條件如何,人工智能的基本信任水平都非常重要。最后,這項研究強調,人工智能系統的透明度對提高信任度的作用可能比以前想象的更加有限。
如今,機器學習已廣泛應用于各個領域和眾多問題。在進行機器學習時,一個基本挑戰是將特定機器學習技術的抽象數學與具體、現實世界的問題相結合。本書通過基于模型的機器學習方法來解決這一挑戰。基于模型的機器學習專注于理解編碼假設以及其對系統行為影響的于現實情境中假設從算法所需詳細數學中分離出來,使得更容易理解。有關基于模型的機器學習是什么以及它如何幫助解決問題,請參閱名為“機器學習如何解決我的問題?”介紹章節獲取更多詳細信息。本書獨特之處在于不回顧算法或技術類別,而是通過案例研究介紹所有關鍵思想,并涉及到現實世界應用程序。案例研究在討論建模假設時起著核心作用,因為只有在應用程序上下文中才能有意義地討論它們。每個案例研究章節都介紹了一個現實世界應用,并使用基于模型的方法來解決該問題。此外,第一個教程章節探討了一個虛構謀殺謎團問題。
每一章也會介紹各種機器學習的概念,不是抽象的概念,而是根據應用需求而具體介紹的技術。您可以將這些概念視為構建模型的構件。盡管您將需要投入一些時間來完全理解這些概念,但您很快就會發現,可以從相對較少的構建塊構建各種各樣的模型。通過學習本書中的案例,你將了解這些組件是什么以及如何使用它們。目的是讓您充分了解基于模型的方法的威力和靈活性,以允許您解決機器學習問題。
本書適用于任何想要使用機器學習解決現實問題的技術人員,或者想要理解為什么現有的機器學習系統會這樣運行的技術人員。本書的重點是設計模型來解決實際案例研究中出現的問題。最后一章“如何閱讀模型”將使用基于模型的機器學習來理解現有的機器學習技術。一些更有數學頭腦的讀者會想了解模型如何變成可運行算法的細節。在本書中,我們將這些需要更高級數學知識的部分分成了更深入的部分。深潛部分被標記為如下圖所示的面板。這些部分是可選的——你可以在沒有它們的情況下閱讀本書。推理深入研究算法細節的技術部分將被標記為這樣。如果你只想專注于建模,可以跳過這些部分。
基于圖像的虛擬試穿旨在合成一張穿著自然的人物圖像和服裝圖像,這不僅徹底改變了在線購物體驗,也激發了圖像生成領域內相關話題的探索,顯示了其研究意義和商業潛力。然而,當前研究進展與商業應用之間存在較大差距,這一領域缺乏全面的概述以加速其發展。在這篇綜述中,我們對最先進的技術和方法論進行了全面分析,涵蓋了流程架構、人物表示以及關鍵模塊,如試穿指示、服裝變形和試穿階段。我們提出了一種新的語義標準,并使用CLIP評估了代表性方法,這些方法均應用了統一實施的評估標準,并在相同的數據集上進行評估。除了對當前開源方法進行量化和質化評估外,我們還利用ControlNet微調了最近的大型圖像生成模型(PBE),展示了大規模模型在基于圖像的虛擬試穿任務上的未來潛力。最后,我們揭示了尚未解決的問題,并展望了未來的研究方向,以識別關鍵趨勢并激發進一步探索。統一實施的評估標準、數據集和收集的方法將在 //github.com/little-misfit/Survey-Of-Virtual-Try-On 上公開。
1 引言
基于圖像的虛擬試穿是人工智能生成內容(AIGC)領域中的一個熱門研究話題,特別是在條件性人物圖像生成領域。它使得編輯、更換和設計服裝圖像內容成為可能,因此在電子商務平臺和短視頻平臺等多個領域具有極高的應用價值。特別是在線購物者可以通過虛擬試穿獲取服裝的試穿效果圖像,從而增強他們的購物體驗并提高成功交易的可能性。此外,AI時尚也在短視頻平臺上出現,用戶可以根據自己的創意編輯圖像或視頻中角色穿著的衣服。這使得用戶可以探索他們的時尚感并制作出一系列迷人的圖像和視頻。 虛擬試穿的概念最早在2001年提出,使用預先計算的通用數據庫來生成個人尺寸的身體并在網絡應用上動態展示服裝。虛擬試穿方法可以分為三類:基于物理的模擬、真實采集和圖像生成。以布料模擬技術為核心部分的物理基礎試穿模擬還涉及人體重建和布料測量。這類方法在姿勢可控和360度展示方面有優勢,但在準確性、效率和自動化方面面臨諸多困難。一些品牌,例如優衣庫和GAP,采用這種方式作為虛擬試穿解決方案。真實采集方法通常捕捉并存儲服裝在形狀可控機器人上的外觀,用于后續展示,展示出高保真度。只有少數公司,如Fits.me,采用了這種方法,這需要大量的實際采集勞動。隨著圖像生成技術的發展,基于圖像的虛擬試穿因其高效率和低成本而變得吸引人。然而,生成圖像中的人工痕跡阻礙了其在實際場景中的應用。具體來說,本文聚焦于基于圖像的虛擬試穿方法,對方法設計和實驗評估進行了全面回顧,并進一步揭示了未解決的問題和未來研究方向的展望。
基于圖像的虛擬試穿可以被看作是一種條件性人物圖像生成,自2017年以來經歷了快速發展(見圖1)。給定一張穿著服裝的人物圖像和一張店內服裝圖像,基于圖像的虛擬試穿旨在合成一張自然穿著的身體圖像。要完成這項任務,需要克服三個主要難點:1)獲取高質量的監督訓練數據:幾乎不可能獲得同一人在相同姿勢下試穿兩件不同服裝的照片配對。2)實現服裝在人體適當區域的自然和真實的彎曲和陰影效果:確保服裝自然無縫地適應身體輪廓并在光線和陰影方面看起來真實是一項挑戰。3)生成真實的試穿圖像:需要在非服裝區域(如移除新服裝未覆蓋的原始服裝殘留)保持一致性,同時保持人物身份的清晰。為了克服上述困難,已經做出了巨大努力,圖1展示了一些代表性方法的時間線。2017年,CAGAN [19]首次嘗試使用CycleGAN [20]來克服訓練三元組數據(原始人物圖像、店內服裝圖像、試穿圖像)缺乏的問題,但生成質量遠未達到滿意。隨后,VITON [21]創造性地提出了人體解析的服裝不可知人物表示,以彌補監督訓練數據的不足。他們構建了“試穿指示 + 衣物變形 + 試穿”的基本網絡框架,為后續作品中進一步提高生成質量奠定了基礎 [22]–[31]。除了持續的質量改進,一些新的目標也受到關注。2019年,多件服裝的試穿引起了注意 [32],但由于多件服裝之間復雜的相互作用和缺乏專門的數據集,此類工作較少 [33]–[35]。為了擺脫對人體解析的過度依賴,設計了幾個師生網絡 [36]–[38],以實現在推理時無解析器的試穿。最近,隨著計算能力的提升,高分辨率虛擬試穿任務變得可能,例如VITON-HD [39] 和 HR-VTON [31]。受到圖像生成領域StyleGAN [40]–[43] 和 Diffusion模型 [44]–[47] 的啟發,出現了單階段網絡 [48]、[49] 以及Diffusion架構 [50]。
盡管新興工作層出不窮,但缺乏系統性的綜述來總結基于圖像的虛擬試穿方法在數據集、方法設計和實驗評估方面。之前的兩篇綜述 [51]、[52] 僅介紹了幾種代表性方法,但沒有進行全面的比較和統一評估。據我們所知,這是第一次系統性的基于圖像的虛擬試穿綜述,具有統一評估,并且還具有以下獨特特點:
? 深入分析。我們從流程結構、人物表現、服裝變形策略、試穿指示和圖像合成的架構以及相應的損失函數等多個角度,全面回顧了現有的基于圖像的虛擬試穿方法。
? 評估:統一評估、新標準和用戶研究。我們使用相同的數據集評估開源作品,并且還對視覺結果進行了333名志愿者的用戶研究。特別地,我們計算了CLIP [53] 的語義分數作為一種新標準,可以分別評估試穿和非試穿部分的語義相似性。相關數據和代碼將在 公開。
? 開放挑戰和未來方向。根據實驗結果,我們揭示了一系列未解決的問題,并提出了重要的未來研究方向。此外,我們利用ControlNet [54] 微調了最近的大型模型(PBE [55])用于基于圖像的虛擬試穿,展示了流行的大型模型在這一任務上的潛力和問題。我們希望這篇綜述能激發新穎的想法,并加速基于圖像的虛擬試穿及其在工業中的應用發展。
本綜述的其余部分安排如下。第2節首先給出問題定義,然后從多個角度全面回顧文獻。第3節介紹數據集和評估標準。實驗結果和分析在第4節呈現。然后我們在第5節揭示未解決的問題,并在第6節展望未來方向。最后,第7節總結本文。
基于圖像的虛擬試穿可以被視為一種條件性圖像生成任務,它使用店內服裝圖像Ic和人物圖像Ip作為原始數據,并預處理原始數據作為條件信息,以指導模型生成試穿圖像 Itry-on = G(Ip, Ic)。在基于圖像的虛擬試穿中通常涉及三個關鍵模塊: ? 試穿指示旨在為服裝變形模塊中的服裝變形和試穿模塊中服裝與身體的融合提供先驗。它通常采用人體表示的組合(例如,語義信息 [56]、[57],Densepose [58],Openpose [59]、[60] 等)作為輸入,并預測試穿狀態下人體的空間結構。 ?** 衣物變形將服裝圖像轉換為試穿狀態下的空間分布**。該模塊的輸入包括服裝圖像和人體特征,如試穿指示模塊中獲得的服裝不可知人物表達或穿著服裝的人物表達。通過像TPS [61]、STN [62] 和 FlowNet [63] 這樣的變形方法,變換像素/特征點的空間位置,該模塊的輸出可以是變形的服裝圖像或變形的服裝特征。 ? 試穿模塊通過融合人體和服裝特征來生成最終的試穿圖像。該模塊設計了插值或生成網絡,輸出圖像應滿足以下要求:1)試穿區域內的服裝應清晰自然,2)試穿區域外的內容(不包括計劃脫下的原始服裝)應保持不變,3)新服裝與人體之間應有正確的語義關系。
值得注意的是,上述三個步驟不一定同時存在,也沒有嚴格的順序。表1總結了代表性方法,我們將在以下小節中討論關鍵設計。 在虛擬試穿流程中,上述三個模塊的選擇和放置對最終試穿結果有重要影響。如圖2所示,基本的流程結構可以分為七種類型。類型I和II是單階段流程,后者額外引入了特征對齊。類型III和IV是兩階段流程,分別利用人物表達和變形服裝作為中間生成進行進一步優化。其余類型是三階段流程,其中類型V和VI在試穿指示和衣物變形模塊的順序上有所不同,而類型VII同時優化這兩個模塊。代表性方法的流程選擇可以在表1中找到,發展趨勢上沒有明顯偏好。
作為基本試穿圖像生成流程的補充,圖3展示了其他結構,如師生網絡 [36]–[38] 和 Cycle-GAN [20]、[77]。師生架構主要用于訓練無解析器試穿網絡,圖3a展示了直接實現 [36]。PFAFN和Style-Flow-VTON [37]、[38] 進一步將其改進為圖3b,其中由教師網絡生成的合成圖像 Itry-on 用作學生網絡的輸入。與類型1相比,類型2在教師網絡生成不良結果的情況下提供了更可靠的監督。同樣地,采用 Cycle-GAN [20]、[77](圖3c)也顯示了使用循環一致性來增強試穿監督的策略。
結論
在這篇綜述中,我們提供了基于圖像的虛擬試穿當前研究狀態的全面概覽。代表性方法在流程、人物表達、試穿指示、衣物變形、試穿階段及相應損失等方面的特點進行了比較和分析。我們使用了一個通用數據集,并在相同的評估標準(包括一種新提出的標準)下評估了現有的開源作品,以分析現有設計。此外,揭示了未解決的問題,并指出了未來的工作方向。通過綜合現有文獻,識別關鍵趨勢,并突出未來研究的領域,我們希望激發基于圖像的虛擬試穿的進一步發展。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。
本報告重點討論與人工智能系統可能缺乏可預測性而導致的有關風險--被稱為可預測性問題--及其對國家安全領域人工智能系統治理的影響。人工智能系統的可預測性表明人們可以在多大程度上回答這個問題:人工智能系統會做什么?可預測性問題既可以指人工智能系統的正確結果,也可以指不正確的結果,因為問題不在于這些結果是否符合系統工作的邏輯,而是在部署時是否有可能預見到這些結果。
人們越來越擔心,使用不可預測的人工智能系統為高風險決策提供信息可能會導致災難性的后果,這將破壞公眾對部署這些系統的組織的信任,并可能侵蝕政府的聲譽。在國家安全領域,人工智能的使用引入了一個新的不確定性來源,可能會阻礙風險管理程序,并可能使責任鏈變得混亂。在這個領域,可預測性問題的影響可能導致關鍵基礎設施的安全風險、個人權利和福祉的風險、沖突升級或外交影響。
在本報告中,我們首先從技術和社會技術的角度分析了可預測性問題,然后集中討論了英國、歐盟和美國的相關政策,考慮它們是否以及如何解決這個問題。從技術角度來看,我們認為,鑒于人工智能系統的設計、開發和部署的多層面過程,不可能考慮到所有的錯誤來源或可能產生的新行為。此外,即使在理想的情況下,在設計或開發階段沒有錯誤可以假設或檢測,一旦部署了人工智能系統,仍然可能發展出形式上正確的(但不想要的)結果,這在部署時是無法預見的。
我們通過關注人機編隊(HMT-AI)來分析可預測性問題的社會技術影響。人機編隊代表了一種越來越普遍的人工智能系統部署模式。在HMT-AI中,人類咨詢、協調、依賴、發展并與人工智能代理交換任務。由于HMT-AI結合了人類和人工的自主性,它們通過增加人工和人類代理及其環境之間的互動的數量和類型而加劇了可預測性問題。在這種情況下,我們發現可預測性問題的三個主要來源:人機交互、人員培訓和(過度)信任。人機交互可能會助長不可預測的結果,因為它們可以掩蓋、扭曲或過分詳細地描述人工智能系統的工作原理,而培訓計劃可能沒有考慮到人工智能技術的學習能力和HMT-AI的長期慣例建設。同樣,在HMTAI中,人類代理人不加批判地接受AI系統的結果,這種過度信任的動態也可能導致無法預測的結果。
在確定了可預測性問題的一些根本原因之后,我們分析了英國、歐盟和美國的政策,以評估這些原因是否在相關的政策文件中被涵蓋,如果是的話,如何以及在何種程度上被涵蓋。我們確定了四個主要主題和一個缺口。它們是:控制、監督和價值調整;資源提升的方法;可信賴人工智能的發展;以及缺乏對風險管理措施的關注,以遏制可預測性問題的影響。
我們的政策分析包括八個建議,以減輕與可預測性問題有關的風險。關鍵的建議是將治理方法集中在HMTAI上,而不僅僅是AI系統,并將可預測性問題概念化為多維度的,解決方案集中在HMT-AI組成的共同標準和準則上。在這些標準和準則中,可信人工智能的要求是特別相關的,應該與評估人工智能系統的可預測性的標準和認證計劃以及審計HMT-AI的程序結合起來。支持在國家安全中使用HMT-AI的決定的成本效益分析和影響評估應該考慮到可預測性問題及其對人權、民主價值的潛在影響,以及意外后果的風險。為了確保在部署潛在的不可預測的人工智能系統時進行充分的風險管理,我們建議調整ALARP原則--在合理可行的情況下盡量降低--作為制定HMT-AI中可預測性問題的人工智能特定風險評估框架的基礎。
擬議的基于ALARP的框架將提供有用的實際指導,但僅僅是這樣還不足以識別和減輕可預測性問題所帶來的風險。需要額外的政策、指導和培訓來充分考慮人工智能可預測性問題帶來的風險。人工智能系統支持的決策的影響越大,設計、開發和使用該系統的人的謹慎責任就越大,可接受的風險門檻也越低。這些分析和建議應該被理解為可操作的見解和實用的建議,以支持相關的利益相關者在國家安全背景下促進社會可接受的和道德上合理的人工智能的使用。
建議1. 政府應撥出研究經費,發展公私合作,對HMT-AI進行縱向研究。這項研究應側重于HMT-AI中的新舊決策模式,以評估編隊協議建設和培訓對績效和控制措施的影響。重點應放在為HMT-AI的具體動態定義新的培訓協議,以及加快風險管理標準和HMT-AI績效評估的發展。
建議2. 應該建立一個專門的HMT-AI認證計劃,以促進行業對為HMT-AI設計的AI系統的設計要求和評估的共識。任務之間的通用性、有效的溝通、性能的一致性以及對新隊友的適應性都應該包括在這樣一個認證計劃中。在開發不足的ISO標準的基礎上,這個認證計劃還應該擴展到過程的可追溯性和決策的問責制,以及評估HMT-AI信任程度的審計機制。這對于抑制HMT-AI中的過度信任和自滿態度是必要的,這種態度維持或擴大了可預測性問題。
建議3. 對國家安全領域的可預測性問題的政策反應應該側重于管理HMT-AI團隊,而不是單獨的AI系統。
建議4. 國家安全領域的HMT-AI的成本效益分析(CBA)應該包括對AI系統的可預測性以及技術和操作層面的相關道德風險的評估。為了促進各安全機構之間的一致評估,應該定義一個評估人工智能系統可預測性的標準量表,在這個量表上,使用(或不使用)人工智能的選擇應該根據上下文的CBA以及考慮公眾對風險和相關利益的態度來證明。這個尺度的定義應屬于獨立的第三方行為者的職權范圍,即與部署HMT-AI的公共機構不同。
建議5. 與其說是 "更多 "或 "更少 "的可預測性,政策建議應側重于可預測性的權衡,明確具體建議旨在解決可預測性問題的哪個方面,以何種方式解決,以及它們有可能加劇哪些方面,哪些緩解措施將被落實到位。政策應該認識到,可預測性是一個多維度的概念,在一個層面上可預測性的收益可能會以另一個層面的損失為代價。
建議6. 關于國家安全中人工智能可預測性問題的政策應該在正式和操作層面上解決可信度和不可預測性之間的聯系。例如,應該給人工智能系統一個可修正的可預測性分數,這應該包括在對系統的可信任度的評估中。人工智能系統的可信賴性應包括成本效益分析,以評估不想要的行為在不同部署背景下可能帶來的風險。
建議7. 應該為不可預測的人工智能建立風險閾值,這些閾值將圍繞不可預測行為的風險嚴重程度映射到其自身的可預測程度(例如,劃分為已知的已知因素、已知的未知因素等)。這些閾值反過來將為風險管理過程的發展提供信息,允許根據風險的可預測性及其影響對其進行優先排序。
建議8. 應該制定一個基于ALARP的框架,以評估不可預測的人工智能和HMT-AI的風險,并為任何給定的環境確定可接受的最大程度的不可預測性。這個框架應該包括:
在電動汽車充電、智能配電網和自主倉庫等領域,多個智能體共享相同的資源。在規劃這些資源的使用時,智能體需要處理這些領域的不確定性。盡管文獻中提出了幾種模型和算法,用于解決不確定條件下的這種受限多智能體規劃問題,但仍不清楚何時可以應用哪種算法。在這項調查中,我們將這些領域概念化,并建立了一個基于馬爾科夫決策過程的通用問題類別。我們確定并比較了該類問題的規劃文獻中的算法可以應用的條件:約束是軟的還是硬的,智能體是否連續連接,領域是否完全可觀察,約束是瞬間的(瞬時的)還是預算的,以及約束是對單一資源還是對多種資源。此外,我們還討論了這些算法的優點和缺點。最后,我們確定了與概念化領域直接相關的開放問題,以及相鄰研究領域的問題。
最近,人工智能(AI)作為一個家喻戶曉的術語出現,一些列重要成果影響著人們的生活,如數字個人助理(Hoy,2018)、媒體推薦系統(M?ller等人,2018)以及能夠超越人類專家的游戲AI(Silver等人,2018)等知名例子。然而,這些例子的共同點是它們與用戶一對一地互動。預計,人工智能系統將很快導致更多的多智能體系統,其中多個智能體在做決策時進行互動。在這樣的系統中,由于共享資源的存在,智能體可能會遇到限制,限制了其潛在決策。
帶有資源約束的多智能體系統在當今社會的很多領域出現。例如,在自主倉庫中,有多個機器人收集物品進行運送,這些機器人受到諸如時間限制、地點和他們使用的設施的制約(Claes等人,2017)。另一個例子可以在配電網中找到,其中聚合器控制多個自主電動車的充電,這些電動車不允許違反配電網約束(De Weerdt等人,2018)。帶有約束條件的多智能體決策也發生在在線廣告中,為了使轉換率最大化,應將有限的廣告預算分配給在線用戶(Boutilier & Lu, 2016)。最后,機場的監控任務需要在考慮多個自主對手的情況下,用有限的安保人員來完成(Pita等人,2008)。除了存在i)或多或少獨立的智能體和ii)資源限制,iii)不確定性的來源,在做決策時需要考慮這些決定可能會相互影響的順序,以及iv)有機會提前協調。這四個特性確定了本文所討論的問題類型。
馬爾科夫決策過程(MDPs)為具有不確定性的決策問題提供了一個經過充分研究的框架(Puterman, 1994; Boutilier, 1996)。多年來,人們提出了許多擴展方案,通過對最優策略的額外約束來增強該框架。Altman(1999)全面概述了受限馬爾科夫決策過程的特性。在本文中,我們調查了建立在這些模型基礎上的工作,這些工作從多智能體的角度出發,強調了智能體之間關于資源的協調方面。此外,我們還定義了在任何情況下必須絕對成立的約束條件。這些不同約束條件的定義大多被孤立地研究,這使得我們不清楚文獻中提出的算法如何相互比較,以及在什么情況下它們可以用于解決規劃問題。
在這項調查中,我們旨在建立對可被建模為受限多智能體馬爾科夫決策過程的問題以及文獻中提出的相關算法的一般理解。第一個目的是進一步了解哪種(類型的)算法對哪種類型的領域最有效。此外,該綜述使我們能夠確定該領域未開發的領域以及在未來研究中可以追求的有前途的研究方向。
首先,提出了一個基于馬爾科夫決策過程受限多智能體規劃問題的一般概念化。這一概念化描述了在具有共享約束的環境中進行規劃時需要考慮的資源和規劃領域的所有方面。這應用了分類法,文獻中開發的所有相關技術都可以放在其中。
其次,我們對規劃文獻中出現的解決方案算法進行了廣泛的概述,并確定和比較了這些算法可以應用的條件。我們進一步討論了這些算法的優點和缺點。
第三,我們確定了開放的研究方向,可以在未來推進該研究領域的發展。這一討論確定了目前存在的開放問題,以及與之密切相關的研究領域。這些領域與本調查所涉及的研究領域有很強的聯系,而且這兩個領域在未來可能會相互加強。
從更普遍的角度來看,我們的調查還旨在為該領域的新研究人員提供一個全面的概述,這樣他們就能迅速掌握文獻中的主要概念和解決方案。這使他們能夠了解受限規劃領域目前的情況,并確保他們能夠迅速確定開放的問題和研究方向,以便開展工作。
本調查的結構如下。在第2節中,我們從涉及多個智能體、不確定性和約束的激勵性應用領域開始,分析了這些領域的屬性,并介紹了一般的潛在解決方法,使智能體能夠根據資源的可用性非正式地協調其行動。在第3節中,我們介紹了捕捉所確定的領域屬性的正式模型。潛在的解決方法為第4節提供了起點,在這一節中,我們描述了幾種算法,可以用來計算或實現有資源約束的多智能體系統的解決方案。在第5節中,我們描述了相關的問題和算法,這些問題和算法不在本調查的重點范圍內。在第6節中,我們描述了開放的研究方向和關于受限規劃的一般領域的重要觀察。最后,我們在第7節中對調查進行了總結和歸納。
這本書對理解概率推理在感性決策和行動中的作用,提供了一個溫和的介紹,一個嚴謹的定量框架。概率或貝葉斯推斷是一種從不確定的證據中得出結論的方法。這本書解釋了有多少形式的感知和行動可以作為貝葉斯推理的數學模型。根據這些模型,人類的思維行為就像一個有能力的數據科學家(或者犯罪現場調查員,或者診斷醫生……)當處理有噪聲和模糊的數據時。近幾十年來,貝葉斯關于感知和行動的方法越來越受歡迎,并得到了廣泛的測試。
//www.cns.nyu.edu/malab/bayesianbook.html
推理在感知中起著核心作用。我們的眼睛、耳朵、皮膚和其他感覺器官記錄身體信號,并將這些信號轉化為電脈沖,傳輸到大腦,類似神經的摩爾斯碼。大腦必須解碼這些信號,并從這些信號中推斷出世界的狀態。眼睛記錄光的模式,但不能識別視覺場景。皮膚能感覺到壓力和振動,但不能識別引起這些刺激的外部物體。肌肉能感覺到緊張,但不能明確地指示身體的結構。耳朵能探測到聲波,但并不表明其含義。大腦承擔著這些困難的解釋任務,通過接收到的感官信息對世界做出感性的最佳猜測。
本書探索的貝葉斯方法對感知建模讓我們感到興奮,因為它解釋了豐富的數據,并成功地解釋了許多實驗的結果。在貝葉斯框架內,生物體的目標是計算描述世界狀態的參數的概率分布。這種計算是基于感官信息和從經驗中積累的知識。特定的感官信息和先驗知識是特定于手頭任務的,但計算在每個情況下都符合相同的概率演算規則。因此,貝葉斯方法將大量看似不同的行為統一在一個連貫的框架內。
雖然這本書的重點是感知和行動,貝葉斯模型在認知科學和心理學的其他領域是廣泛有用的。特別是,貝葉斯模型在高級認知[2]中有著豐富的歷史,至少可以追溯到喬納森·埃文斯[43]和約翰·安德森[21]的工作,對認知發展的理解做出了巨大貢獻[53,123]。本書中偶爾會出現更高層次的認知,特別是在第6章(學習)、第12章(變化世界中的推理)和第13章(推理與實用的結合)中。在第15章(背景中的貝葉斯模型)中,我們評論了感知和認知之間的差異。
隨著廣泛的應用,人工智能(AI)催生了一系列與人工智能相關的研究活動。其中一個領域就是可解釋的人工智能。它是值得信賴的人工智能系統的重要組成部分。本文概述了可解釋的人工智能方法,描述了事后人工智能系統(為先前構建的常規人工智能系統提供解釋)和事后人工智能系統(從一開始就配置為提供解釋)。解釋的形式多種多樣:基于特征的解釋、基于說明性訓練樣本的解釋、基于嵌入式表示的解釋、基于熱度圖的解釋。也有結合了神經網絡模型和圖模型的概率解釋。可解釋人工智能與許多人工智能研究前沿領域密切相關,如神經符號人工智能和機器教學
《概率機器人》對概率機器人學這一新興領域進行了全面的介紹。概率機器人學依賴統計技術表示信息和進行決策,以容納當今大多數機器人應用中必然存在的不確定性,是機器人學的一個分支。它依賴統計技術表示信息和制定決策。這樣做,可以接納在當今大多數機器人應用中引起的不確定性。
《概率機器人》主要專注于算法,對于每種算法,均提供了四項內容:①偽碼示例;②完整的數學推導;③實驗結果;④算法優缺點的詳細討論。 《概率機器人》包括了基礎知識、定位、地圖構建、規劃與控制四大部分。本書共17章,每章的后都提供了練習題和動手實踐的項目。
相信《概率機器人》可以加深讀者對概率機器人學的認識。
深度學習方法對各種醫學診斷任務都非常有效,甚至在其中一些任務上擊敗了人類專家。然而,算法的黑箱特性限制了臨床應用。最近的可解釋性研究旨在揭示對模型決策影響最大的特征。這一領域的大多數文獻綜述都集中在分類學、倫理學和解釋的需要上。本文綜述了可解釋的深度學習在不同醫學成像任務中的應用。本文從一個為臨床最終用戶設計系統的深度學習研究者的實際立場出發,討論了各種方法、臨床部署的挑戰和需要進一步研究的領域。