在不斷發展的技術和戰略分析領域,有兩個領域因其深遠的影響和有趣的可能性而脫穎而出:人工智能 (AI) 和博弈論。乍一看,它們可能看起來很不同——人工智能是計算機科學的一個分支,致力于創造智能機器,而博弈論則是研究競爭環境中的戰略決策。然而,當這兩個領域融合在一起時,它們開啟了一個新的可能性領域,徹底改變了我們處理和解決復雜戰略問題的方式。
人工智能和博弈論的交集不僅僅是一個技術聯盟;它代表了我們對戰略、決策和預測分析的理解的范式轉變。人工智能帶來了其無與倫比的計算能力、處理大量數據集的能力和先進的算法。另一方面,博弈論為理解競爭和合作互動的動態提供了一個框架,無論是在個人、公司還是國家之間。它們共同創建了一個強大的工具包,用于駕馭錯綜復雜的戰略決策世界。
在當今數字時代,這種融合尤為有效,因為數字時代數據豐富,計算能力不斷擴展。人工智能的學習、適應和決策能力越來越類似于人類的戰略思維,這是博弈論的一個核心方面。隨著人工智能系統變得越來越復雜,它們不僅在學習下國際象棋或圍棋等游戲。盡管如此,它們也被應用于戰略互動至關重要的現實世界場景——從金融市場到國際外交。
在本文中,我們將踏上人工智能和博弈論的探索之旅。我們將深入研究它們的歷史背景,研究人工智能如何用于解決復雜的博弈論問題,并展望這個令人興奮的跨學科領域的未來。通過了解人工智能和博弈論之間的協同作用,我們可以深入了解戰略決策的未來——一個機器競爭和制定戰略的未來。
人工智能在戰略博弈和博弈論領域的旅程始于不起眼但意義重大的一步。最早的里程碑之一是IBM的“深藍”(Deep Blue)的誕生,這是一款國際象棋計算機,在1997年擊敗了世界冠軍加里·卡斯帕羅夫(Garry Kasparov)。這一事件標志著一個關鍵時刻,展示了人工智能在掌握需要深入戰略思維的游戲方面的潛力。
繼深藍之后,人工智能領域繼續發展,處理更復雜的游戲。一個里程碑式的成就是谷歌DeepMind的AlphaGo,它在2016年擊敗了世界冠軍圍棋選手李世石。圍棋,一個以其大量可能的位置和對直覺的依賴而聞名的游戲,對人工智能來說是一個重大挑戰。AlphaGo的勝利證明了人工智能在學習和制定戰略方面的先進能力,遠遠超出了蠻力計算。
在這些發展的同時,人工智能開始納入博弈論的原理。博弈論的理性決策者之間沖突與合作的數學模型為人工智能算法模擬和分析戰略互動提供了一個框架。這種整合使人工智能能夠超越游戲,應用于現實世界的場景,如經濟建模、政治戰略和社會行為分析。
機器學習是人工智能的一個子集,專注于構建從數據中學習的系統,機器學習的集成進一步推動了人工智能的能力。強化學習等技術,人工智能系統通過執行動作和觀察結果來學習決策,在開發能夠在動態環境中適應和優化策略的人工智能方面發揮了重要作用。
人工智能在預測博弈論中的應用標志著另一個重要的里程碑。人工智能系統經過訓練,可以預測戰略場景中的結果,考慮眾多變量和潛在策略。事實證明,這種能力在金融和經濟等領域非常寶貴,在這些領域,預測市場趨勢和消費者行為至關重要。
隨著人工智能系統越來越善于制定戰略,出現了倫理方面的考慮,特別是在軍事戰略和監視等敏感領域的使用方面。隨著我們邁向未來,圍繞人工智能在戰略決策中的道德使用問題的辯論仍然是一個關鍵的討論。
人工智能在博弈論中的應用在很大程度上延伸到了經濟學和政治學領域。在經濟學中,人工智能算法用于模擬市場行為、模擬競爭性商業場景和優化定價策略。在政治學中,人工智能有助于模擬選舉策略、外交談判和沖突解決。
示例:市場分析中的人工智能 考慮一個簡單的市場場景,公司在價格上競爭。人工智能算法可用于模擬該市場并預測均衡價格。
在政治戰略方面,人工智能可以模擬選舉場景,考慮選民偏好、競選策略和媒體影響等因素。這些模擬有助于了解選舉政治的動態,并制定有效的競選策略。 、
機器學習是人工智能的一個動態子集,它大大增強了博弈論的預測能力。通過分析模式和學習數據,機器學習模型可以預測各種博弈論場景中的結果,為戰略決策過程提供有價值的見解。
在博弈論中,預測建模涉及根據歷史數據和概率算法預測玩家的行動和反應。神經網絡、決策樹和強化學習算法等機器學習模型擅長處理這些復雜的場景。它們可以處理龐大的數據集,找出可能無法立即顯現的模式和戰略,為戰略規劃提供預測優勢。
在商業競爭戰略領域,機器學習模型被用來模擬市場情景,預測各種戰略舉措的結果。例如,公司可以利用這些模型來預測競爭對手對新產品發布、定價變化或營銷活動的反應。這種預測能力使企業能夠更有效地制定戰略,在激烈的市場競爭中領先一步。
人工智能(AI)在行為博弈論領域發揮著越來越重要的作用,行為博弈論是一門結合了經濟學、心理學和戰略決策學等元素的學科。人工智能在這一領域的貢獻圍繞著理解和預測博弈論背景下的人類行為,為個人如何在戰略情況下做出決策提供了新的視角。
行為博弈論傳統上依賴心理學見解來解釋為什么人們有時會在戰略博弈中做出非理性或意想不到的決策。人工智能,尤其是機器學習模型,通過分析大量的行為數據,加強了對這一問題的理解。這些模型可以識別人類決策中的模式和異常現象,而這些模式和異常現象在傳統分析中可能并不明顯。例如,人工智能有助于理解為什么人們在某些博弈中會偏離納什均衡,或者為什么他們會在經典博弈論預測會出現競爭的情況下進行合作。
考慮一下 "最后通牒博弈"(Ultimatum Game),這是行為經濟學中的一個標準實驗。如果第二個玩家拒絕這個提議,那么兩個玩家都將一無所獲。雖然傳統博弈論認為任何非零提議都應被接受,但人類玩家經常會拒絕他們認為不公平的提議。人工智能模型可以分析此類博弈的數據,預測在什么情況下提議有可能被接受或拒絕,從而深入了解人類的公平與合作觀念。
人工智能的預測能力在涉及復雜人類互動的游戲中尤其有用。通過分析類似游戲的歷史數據,人工智能可以預測玩家在未來游戲中可能的行為。這種能力不僅在學術上很有意義,在市場研究、政治競選和談判策略等領域也有實際應用。
展望未來,人工智能(AI)與博弈論的交匯蘊含著實現變革性突破的巨大潛力。人工智能技術的飛速發展與博弈論的深刻見解相結合,有望徹底改變各行各業和全球政治的戰略決策方式。
在戰略規劃領域,人工智能分析復雜情景和預測結果的能力將變得越來越復雜。我們可以預見,人工智能系統不僅能模擬商業和經濟領域的可能戰略,還能積極提出最佳行動方案。例如,人工智能可以預測市場波動并提出庫存策略建議,從而徹底改變供應鏈管理;人工智能驅動的交易算法可以預測市場變化并做出實時反應,從而改變金融市場。
在全球政治中,人工智能在博弈論中的作用可以為解決沖突和外交談判帶來開創性的方法。可以開發人工智能系統來模擬國際沖突,并根據歷史數據、當前的政治氣候和潛在的未來情景提出解決方案。這些系統可以協助人類外交官了解不同外交戰略可能產生的結果,幫助預防沖突和促進全球合作。
人工智能系統能夠在戰略規劃和談判方面勝過人類,這一前景帶來了令人興奮和充滿挑戰的可能性。在商業領域,這種人工智能可以談判合同、優化交易,甚至參與高層決策過程。然而,這也帶來了有關透明度、公平性以及人類判斷在關鍵決策過程中的作用等倫理方面的考慮。
當我們結束對人工智能(AI)與博弈論動態融合的探索時,我們顯然站在了戰略分析與決策新時代的懸崖邊上。從人工智能在戰略博弈中的歷史里程碑、先進的經濟應用、對人類行為的深刻洞察,到人工智能在博弈論中的未來猜想,我們描繪了一幅快速發展的圖景,其中蘊含著豐富的潛力,也充滿了挑戰。
回顧歷程: 我們的旅程始于對歷史的回顧,追溯人工智能從掌握國際象棋和圍棋等棋類游戲到解決經濟學和政治學中復雜博弈論問題的演變過程。這些里程碑不僅展示了人工智能日益增長的實力,也為人工智能更深入地融入戰略決策奠定了基礎。
人工智能在經濟和政治中的作用: 我們深入研究了人工智能在博弈論中的高級經濟應用,探討了人工智能模型如何徹底改變市場分析、消費者行為預測和競爭性商業戰略。在政治領域,人工智能在外交談判和沖突解決建模方面的潛力預示著未來人工智能將在維護全球和平與穩定方面發揮至關重要的作用。
人工智能視角下的人類行為:人工智能在行為博弈論中的探索揭示了人工智能如何促進我們對人類決策的理解。通過分析有關人類行為的大量數據集,人工智能已開始揭示我們如何在戰略背景下做出選擇的復雜性,為從實驗經濟學到社會心理學等領域提供了寶貴的見解。
猜測人工智能的未來影響: 展望未來,我們推測了人工智能在博弈論中的未來,并設想了可能改變行業、重塑全球政治以及重新定義戰略談判性質的突破。人工智能在戰略規劃方面超越人類的潛力既帶來了令人興奮的可能性,也帶來了重大的倫理問題。
平衡技術進步與倫理責任: 當我們擁抱人工智能和博弈論的進步時,我們也必須認識到其對倫理和社會的影響。在將人工智能融入戰略決策過程時,必須堅持透明、公平和維護人類判斷力的原則。人工智能在博弈論中的未來不僅關乎技術實力,還關乎用人工智能增強人類智慧,從而創造一個更具戰略性、更知情、更合作的世界。
用心創新,擁抱未來: 總之,人工智能與博弈論的交叉代表著一個充滿無限可能的前沿領域。它有望徹底改變我們處理和解決復雜戰略問題的方式,為理解和塑造我們周圍的世界提供新的工具。在我們前進的過程中,我們必須以審慎的創新態度對待這一前沿領域,確保人工智能和博弈論的進步能夠為更大的利益服務,并以道德原則為指導,深刻理解其對社會的影響。
參考來源:Enrique J. ávila Mu?oz
人工智能(AI)的進步正在快速改變我們的世界,系統現在在從游戲玩耍到科學發現等領域匹敵甚至超越了人類的能力。這一進展的大部分可以追溯到機器學習(ML),特別是深度學習以及其在數據中發現有意義的模式和表示的能力。然而,AI中的真正智能需要不僅僅是原始的預測能力;它需要一種有原則的方法來在不確定性下做決策。這凸顯了概率機器學習的必要性,它通過概率論和貝葉斯推理提供了一種系統的框架來推理未知。
高斯過程(GPs)是一種典型的概率模型,具有靈活性、數據效率和良好校準的不確定性估計。它們對許多順序決策算法至關重要,特別是貝葉斯優化(BO),它已經成為優化昂貴和復雜的黑盒目標函數的不可或缺的工具。盡管已經投入了大量的努力來提高GPs的可擴展性,但在實踐中,與神經網絡(NNs)相比,性能差距仍然存在,主要是因為GPs缺乏表示學習能力。這是GPs的其他自然不足之一,它阻礙了BO解決關鍵的現實世界優化挑戰的能力。
這篇論文旨在在概率方法中釋放深度學習的潛力,并相互借鑒深度學習的概率觀點。其中的貢獻包括改進近似方法,以彌合GPs和NNs之間的差距,提供了一種新的BO公式,可以無縫地容納深度學習方法,以解決復雜的優化問題,以及對圖像風格轉移的一類強大的深度生成模型進行概率解釋。通過豐富深度學習和概率ML之間的相互作用,這篇論文推動了AI的基礎,并促進了更有能力和可靠的自動決策系統的發展。
人工智能(AI)是一項革命性的技術,它正在覆蓋生活的方方面面,從聊天 GPT 到醫療保健、教育、農業、社交媒體、廣告、客戶服務、金融服務和運輸。然而,它正在徹底改變戰爭和國防。世界主要大國已經開始競相將人工智能引入現代戰爭。目前,人工智能的應用還很有限,也許只是讓算法控制單個武器或無人機群。然而,它正在快速改變現代戰爭的方方面面。正如巴基斯坦駐聯合國代表所表達的擔憂:"我們正站在新一輪軍備競賽的風口浪尖,算法將在其中占據主導地位。隨著人工智能走向戰場,我們有理由問,人類是否以及在多大程度上將繼續控制人工智能并掌握'開關'"。鑒于人工智能在包括戰爭和國防在內的生活各方面日益普及,我們有必要研究一下它在核威懾和未來核態勢中能發揮什么作用(如果有的話)。
美國和俄羅斯的冷戰核歷史中充斥著發出錯誤警報但最終沒有導致意外核沖突的事例。然而,如果由人工智能來評估信息并發起核反擊,那么很有可能會發生核沖突。
人工智能已經得到了應用,未來在全球核威懾架構中的潛在應用可能還會增加。機器學習和自主性是人工智能中與核威懾相關的兩個要素。人工智能可能在核威懾架構的四個關鍵領域發揮作用:預警和 ISR、指揮和控制、運載系統以及網絡等非核行動。機器學習和自主是人工智能與核威懾相關的兩個要素。
人工智能驅動的早期預警系統可幫助探測和分析潛在的核威脅,如導彈發射或核設施的異常活動。人工智能算法可以快速處理來自各種傳感器、衛星和情報來源的大量數據,為決策者提供更快、更準確的信息。此外,機器學習還可用于賦予任何類型的 ISR 系統更多感知智能。人工智能驅動的自主系統,如無人機(UAV)或無人潛航器(UUV),已被廣泛用于監視、情報收集和監控對手的活動。
人工智能可以幫助決策者評估核威脅并制定適當的應對措施。它可以分析多種變量,如對手的能力、意圖和歷史數據,以評估威脅的可信度和嚴重性。機器學習算法可用于情報數據的交叉分析,從而更快、更可靠地確定核攻擊的準備工作是否正在進行。人工智能還可以模擬不同的情景,評估不同應對方案的潛在后果。
從本質上講,機器學習可提供更強的態勢感知能力,并可能為決策提供更多時間。相比之下,自主系統可提高有核國家在預警和 ISR 方面的遙感能力。
核武器專家和決策者似乎普遍認為,不應將自主性納入核指揮與控制系統。不過,它可以用來加強網絡安全措施,保護核設施和系統免受網絡攻擊。人工智能算法可以持續監控和分析網絡流量,識別潛在威脅和漏洞。它們還能協助快速檢測和應對網絡漏洞,最大限度地減少對手可能造成的破壞。
許多核運載系統已經使用了某種程度的自主性。洲際彈道導彈(ICBM)和潛射彈道導彈(SLBM)一旦發射,就能自主運行,因為它們依靠自動化來設定飛行軌跡并導航至目標。人工智能的作用主要在于提高運載系統的質量。各國可能已經在運載系統中使用了一些人工智能元素。據報道,俄羅斯已研制出 "波塞冬 "洲際核動力核武裝自主魚雷,據說射程達 1 萬公里,航速 56 節,并能下潛至 1000 米深處。目前尚不清楚該魚雷的自主能力有多大,但可以假定,在作出發射決定后,自主能力將開始運作,這可能是其作戰環境的要求。美國可能還在建造一種具有雙重能力的轟炸機--B-21 "突襲者",據說它將 "選擇性地有人駕駛"。美國尚未明確表示是否準備在攜帶核武器的同時遠程操作該轟炸機。印度的遠程亞音速巡航導彈 "涅爾巴伊"(Nirbhay)也可能使用人工智能來實現機動性和精確打擊。據悉,印度正在研究一些人工智能能力和系統,這些能力和系統未來可能有助于加強綜合預警系統;多智能體機器人框架(MARF)系統,用于機器人在監視和偵察方面的協作;以及使用人工智能增強功能和自主性的無人系統,如 Matsya UUV 和自主無人駕駛研究飛機(AURA)計劃。
人工智能可用于具有重要戰略用途并對核威懾產生間接影響的非核領域。這些領域包括常規高精度打擊、導彈、空中和太空防御、網絡戰、電子戰、信息戰以及核武器的實體安全。與核威懾相關的最重要應用是導彈和防空系統。幾十年來,BMD 系統一直依賴于自動化,使用一種稱為自動目標識別(ATR)的人工智能技術,該技術可以探測、跟蹤、優先處理和選擇來襲的空中威脅。人工智能的進步可以提高探測和跟蹤來襲導彈的效率。人工智能還在反制措施中發揮作用。此外,自主性也是網絡防御架構的一部分。然而,自主性的進步使進攻和防御系統都更加高效。
圖:人工智能在核威懾中的潛在用途
雖然人工智能已被部分納入世界各地的核威懾架構,但與之相關的危險也不少。任何國家采用或認為采用了新的人工智能能力,都可能使有核國家擔心其核威懾力量的生存能力和可靠性。這種人工智能與核安全的兩難境地可能導致反制措施,從而破壞核穩定。將人工智能納入軍事系統可能會增加因技術故障或未經授權的使用而意外升級為核沖突的風險。
人工智能系統依靠大量數據來執行任務。因此,數據有時可能有偏差、不完整或不準確,從而導致結果或結論有偏差。蓄意對提供給人工智能系統的信息或預警或無人系統或發射器進行數據毒化,可能會被用來欺騙人工智能,使其相信核打擊即將到來。在假設場景中,非國家行為者可以利用人工智能增強型網絡戰術來操縱信息和傳播陰謀論,或破壞指揮、控制和通信系統、預警衛星和雷達。他們可能通過入侵指揮和控制系統,向對手發送錯誤信息或關于對手的錯誤信息,導致事態升級。因此,第三方行為者手中的人工智能工具有可能將核對手卷入沖突或引發核戰爭。
詹姆斯-約翰遜(James Johnson)在其著作中指出,人工智能的進步可能會讓對手瞄準核資產;用人工智能-網絡武器攻擊核指揮、控制和通信系統;以及使用成群的無人機打擊軍事資產。他還宣稱,人工智能算法可能會曲解對手的信號,使核危機中的決策變得復雜。
還有人擔心,雖然核危機中的決策過程已經非常倉促。即使只是在傳感器和目標定位方面有限地使用人工智能,也會進一步縮短本已有限的決定是否發動打擊的時間。這將增加誤判或非理性選擇的風險。
在衛星和其他情報探測系統中使用人工智能也存在風險,這將使隱藏武器和裝備核武器的潛艇變得更加困難。這將有可能降低門檻,并鼓勵核武器國家在沖突中更早地部署核武器,以防敵人將其消滅。
隨著人工智能技術的應用日益廣泛,它很可能會增加事態升級的風險。即使人工智能沒有做出武器發射的決定,人工智能工具也會影響決策的每一個階段,最終影響人機動態。因此,人工智能在本已不可接受的危險程度上又增加了一層風險。
聯合國秘書長在其 "和平新議程 "提案中指出,"人工智能日益普遍,加上其快速擴展性、缺乏透明度和創新速度,對國際和平與安全構成潛在風險,并帶來治理方面的挑戰"。他還強調,"為恐怖主義、犯罪或國家目的惡意使用人工智能系統可能會造成可怕的死亡和破壞,造成廣泛的心理創傷和深刻的心理傷害,其規模難以想象"。人工智能支持的網絡攻擊已經瞄準了關鍵基礎設施以及我們自己的維和行動和人道主義行動,造成了巨大的人類痛苦。此外,包括犯罪分子和恐怖分子在內,獲取信息的技術和資金門檻都很低。因此,聯合國秘書長強調 "人工智能的軍事和非軍事應用都可能對全球和平與安全造成非常嚴重的后果"。此外,"人工智能與核武器、生物技術、神經技術和機器人技術之間的相互作用令人深感震驚"。生成式人工智能具有巨大的潛力,可以在很大程度上造福于人類。它甚至被稱為新的大規模殺傷性武器。他敦促 "人類的機構和控制對于核武器至關重要,永遠都不應取消"。
鑒于在核武器結構中使用人工智能所帶來的危險,即使人工智能目前尚未完全融入,但現在就開始討論有核國家和國際安全界可以探索的方案,以防止和減輕人工智能以及核武器系統的軍事應用可能對和平與穩定造成的風險,也為時不晚。各國應采取一系列措施:
最近幾周采取了一些舉措來規范人工智能的使用。七國集團就《廣島進程國際組織開發先進人工智能系統行為準則》達成一致,"以在全球范圍內促進安全、可靠和值得信賴的人工智能"。美國總統喬-拜登(Joe Biden)發布了一項行政命令,為人工智能的 "安全和安保 "制定了新標準,而英國則主辦了首屆全球人工智能安全峰會。然而,在將人工智能用于武器和軍事技術方面,還有很多工作要做。聯合國第一委員會批準了關于致命性自主武器的新決議,在這方面取得了進展。
人工智能無處不在。無論我們喜歡與否,它都已進入現代戰爭和戰場。人工智能已被納入世界各地的核威懾架構。雖然人工智能在核威懾架構的某些領域具有一定優勢,但讓人工智能完全自主將是災難性的。與此同時,人工智能技術的發展顯然無法阻擋。人工智能遲早會在核武器綜合體中占據重要地位。審慎的做法是為即將到來的一切做好準備。然而,當務之急是,各國應堅定地讓人類參與其中,而不是依靠機器或計算機來做出發射核武器的決定。在利用人工智能進行核威懾時,必須格外謹慎。確保人工智能系統的可靠性、透明度和道德使用,對于防止意外后果或沖突升級至關重要。密切的人工監督和負責任的人工智能開發實踐是確保人工智能有效、安全地融入核威懾戰略的必要條件。最重要的是,世界各國必須就人工智能在軍事技術中的使用制定規范、規則和原則,并頒布國際法。
參考來源:INSTITUTE OF STRATEGIC STUDIES ISLAMABAD
類人智能學習是AI界始終追逐的終極目標。自2006年以來,深度學習的出現極大的推動了人工智能的研究進展,人類似乎找到了解決“抽象概念”的方法。人工智能借助深度學習的力量,已可以在多個應用場景落地,特別是互聯網領域。但就總體發展而言,目前的人工智能距離類人類智能還有很長的路要走。類人智能學習是AI界始終追逐的終極目標。
類人智能的小樣本學習。如果用形象的比喻來說,深度學習(DL)是解決計算機“運籌帷幄”的問題(大量數據形成規律和抽象概念),而小樣本學習是解決計算機“照貓畫虎”的問題(少量數據形成決策)。深度學習更擅長分析規律和預測趨勢,而小樣本學習則具備舉一反三的能力。小樣本學習相當符合人類的思維推理模式,是實現類人人工智能的必由之路。 小樣本研究領域的發展現狀。2011年至2015年,由于小樣本理論不完整,相關論文較少。自2015年以來,隨著深度學習的興起,小樣本學習進入深度學習階段,相關研究論文的數量呈線性大幅增長。國家間,在小樣本學習研究領域的競爭也十分激烈,美國和中國是最大的兩個研究產出國,而美國的私營部門在小樣本學習的投入領先于其他國家。 小樣本學習可以解決AI商業落地難題。2015年是小樣本學習研究進展的分水嶺,開始真正進入深度學習階段,進而帶動AI產業的實質性應用落地。小樣本學習算法的性價比最優,不需要大量數據的標注準備,極大降低了數據標注、算力以及AI交付的工程化成本,對AI應用普惠化起到了至關重要的作用。 工業視覺檢測是小樣本學習的典型應用場景。小樣本學習相關的任務中,計算機視覺是最活躍的研究領域,而AI視覺檢測是小樣本學習在工業領域的突出應用。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
群體智能是科學家長期關注和研究的一種自然現象。在很多低等社會性生物群體中可以觀察到,群體中的單一個體不具有智能,或僅有非常有限的智能,由這些個體構成的群體卻展現出遠超個體能力的智能行為。這種在低等社會性生物群體層面上展現出的智能,通常被稱為群體智能(Swarm Intelligence)。
草地上的小路:即使沒有人進行全局的規劃或指揮,草坪上也會自發地涌現一條或幾條條彎彎曲曲的小路。
《烏合之眾》(古斯塔夫·勒龐):這本書也是一種群體現象,如果受到有效的激勵和鼓動,群體會展現出驚人的破壞力,因為這種激發,個體在里面失去了很多東西。
三個臭皮匠頂個諸葛亮:幾個智力平平的人團結在一起也有可能做出很高質量的決策。
市場經濟:好像存在一只“看不見的手”,對大規模市場資源進行有效配置。
人類社會的不斷發展和演化也可以被認為是一種群體智能現象,絕大多數文明成果都是人類個體在長期群體化、社會化的生產和生活中逐漸演化形成的產物。
Science 2010年的一篇學術論文用定量的方式觀察到物理空間中2~4人小群體在協同求解問題時群體智能現象的存在,題目中的“Collective Intelligence”指的就是高等生物。
對個體智能的定義和系統性度量問題,心理學家已經給出了有效的統計方法。論文將個體智能的統計度量方法應用于群體智能的度量,得到了類似于個體智能的一種度量指標“c factor”。在物理空間2~4人的群體任務求解中,觀察到如下現象:群體智能弱相關于個體平均/最高智能,但強相關于個體平均社會。
敏感度、個體對話平等度、以及群體中女性比例等三個因素。在一定程度上印證了“三個臭皮匠,頂過一個諸葛亮”。
Science在2005年發布了125個科學開放問題,其中第16題是關于人類合作行為如何發展演化。
在2021年,Science和上海交通大學合作,再次提出125個問題,其中明確提出了群體智能如何涌現形成?
為什么利用現象規律構造人類群體智能系統的實踐很少?
原因一:對群體智能的形成機理缺乏充分理解。對群體智能的理解和應用仍然處于必然王國的階段;無法確保求解特定問題時群體智能的可控重復發生。
原因二:物理空間阻礙了人類群體智能的形成。在物理空間中聚集一個大規模的人類群體成本太高;人類群體無法在局部物理空間長時間同步高效工作。
互聯網的出現為人類群體的跨時空大規模協同提供了可能,網絡空間中的人群不再受到地域和時間的限制,更大規模的人類群體可以在網絡空間中進行更加方便靈活的顯式或隱式交互。互聯網技術的不斷發展,促進了網絡空間人類群體智能系統的探索和成功實踐。
現有實踐本質上是對互聯網跨時空匯聚能力的利用:針對特定問題精心設計的群體力量利用方案;對于群智規律和機理的認識與探討較為缺乏。
形成的網絡空間群智現象仍然處于相對初級的階段:距離理想形態的群智現象差距較大;無法確保群智現象的可控重復發生。
與物理空間群智機理探索的研究工作缺少結合:網絡空間關注利用“群智”“群力”的實踐;物理空間關注低等生物群智現象的觀察解釋;鮮有結合二者的努力。
群體智能的形成機理是什么?
群體智能能否成為求解問題的基本方法之一?
如何構造求解特定問題的人類群體智能系統?
群體智能的能力邊界在哪里?
理想形態的群體智能展現出兩種基本性質:
智能放大效應:對個體智能進行有效放大;
規模可擴展性:數量龐大的個體參與其中;
在本質上,群體智能來源于自主個體之間的大規模有效協同:
哲學視角:量變產生質變;
復雜系統視角:涌現、自組織。
群體智能是什么?我們的理解是利用群體的力量來求解復雜問題的方式,而這個復雜問題僅依靠單一個體無法求解。
群體智能兩個特征:1+1>2;群體協同規模的可擴展性。
微觀群體智能兩種基本原理:
情況一:在問題可分解的情況下,不同個體之間進行分工合作。把一個問題分成P1、P2,張三李四求解能力不同,解決P1、P2的時間不同,如果張三求解P1表示擅長,1t時間完成,求解P2表示不擅長,10t時間完成,總共加起來11t。同理李四,如果分工合作,總耗時僅為2t ,這就是一種可分解的局面。
情況二:具有關聯性的不同信息片段融合后自然形成的信息增加。以拼圖為例,張三李四的片段合起來形成一個更大的片段,它帶來的含量信息含量是1+1>2的結果。
從宏觀層面來看,群體智能是由大量持續出現的微觀層次的群體智能現象復合形成的現象。如凱文·凱利在《失控:全人類的最終命運和結局》中提到:“一種由無數默默無聞的零件,通過永不停歇的工作,而形成的緩慢而寬廣的創造力”,這是群體智能涌現的過程。
把群體智能進行分解,實際上包含三件事情:
第一是探索,群體中的每一個體自主地對當前問題進行探索得到該問題的信息。
第二是融合,所有個體探索到的信息通過某種方式被融合。
第三是反饋,融合活動產生的群體信息通過某種方式反饋給個體刺激個體進行持續地探索。
目前,利用群智機理讓人類群體在物理空間中求解工程問題還不具有一般意義上的可行性。
表面原因:
第一,過程和結果不可控;
第二,時間跨度大。
深層原因:
第一,找不到足夠多的參與者:在物理空間中召集一個群體的成本太高;長時間將一群人限定在一個物理空間中,工作效率會越來越低。
第二,信息傳播的速度太慢:物理空間中的信息傳播存在限制。
第三,信息融合依賴于重要人物:這樣的重要人物很少。
第四,被動式的信息反饋:信息不會主動反饋回來;需要主動去獲取信息。
當網絡空間出現之前,除人類文明這種宏觀層次的人類群體智能現象,很難觀察到其他宏觀層次的人類群體智能現象。
互聯網直接消除了四條深層原因中的前兩條,足夠多的參與者沒有時空的約束,傳播速度極快,在網絡空間,各種人類群體智能現象持續涌現。
自發涌現的網絡空間群體智能現象大多僅消除了深層原因1和2,基本沒有觸及深層原因3和4。以消除深層原因3和4為目標可以設想出一種理想形態的群體智能。
當前形態是什么呢?探索在某種意義上有些功利性,融合是手工,反饋是被動的。如果我們自由探索,把融合變成自動的,然后根據個體能力和特性,進行有針對性的反饋,這樣一來效率就更高。
環境激發效應對群體智能現象的形成提供了一種事后解釋性模型,在這一概念的基礎上,我們主要關注如何構造求解特定問題群體智能系統。
群體智能的構造性模型EIFL,由三個環進行信息激發、融合和反饋。個體探索之后形成片段,融合之后反饋回來,通過多輪迭代形成一個解決方案。
由分類框架得到群體構成的三種分類維度:
第一個分類維度:由自然生命體構成的群體(蟻群、人群);
第二個分類維度:由人造智能體構成的群體(機器人群體);
第三個分類維度:混合群體(人-機混合、低等生物-機混合)。
關于群體智能的構造模型,我們在國家科學評論,發表了相關觀點性的文章。構造模型的核心,就是我們要加快融合法和提高反饋法。
群體自組裝問題
動漫電影《超能陸戰隊》中設想有一種磁力機器人能夠大規模地聚集在一起,組成各種形狀。而我們的研究目標是:能否采用“探索-融合-反饋”基本原理實現大規模群體在非中心控制情況下的自我成型。
融合:形成紅光場;根據所有未被占據目標網絡的位置,融合形成藍光光場。
反饋:每一個體獲得其周圍的局部光場信息。
探索:每一個體根據其周圍的局部光場信息確定其下一步的行動決策。
拼圖問題是一類復雜問題的典型代表:無法通過自上而下、集中控制方式進行有效求解。
探索:單一個體自主進行拼圖,拼圖結果被表示為由圖塊以及圖塊之間的鄰接關系形成的圖。 融合:所有個體當前時刻的拼圖結果被融合在一起,形成當前時刻的群體觀點圖。 反饋:根據個體當前時刻的拼圖動作,將當前時刻群體觀點圖中相關的具有較高可信度的鄰接關系反饋給當前個體。
在目前階段,專業領域的知識圖譜不可能完全通過自動化算法進行構建;人類參與必不可少。對于一個大規模的專業知識圖譜,僅依靠少量專家進行構建,也不具有現實的可行性。
軟件是一種具有復雜邏輯結構的人造知識制品,規模和復雜性持續增長,開發困難性不斷增加能否將群體智能用于軟件的生產與持續演化?
新一代人工智能把群體智能當成人工智能,而我們需要提出新的認識,群體智能本身是自然智能。科學家認識群體智能機理,我們還希望能夠把這種規律或者機理利用起來。
通過群體智能構造性模型,在求解特定問題的時,個體探索之后,用機器匯聚效率高,還需要確保正確性。目前,我們在軟件工程領域開展了初步的探索,取得了一定效果。希望未來,對開源社區的平臺機制提供一些幫助,實現自動匯聚。以百科平臺為例,是由人來管理,我們有沒有更好的辦法合作?類似這樣的系統有沒有更好的辦法引入機器的能力?現在,實際上是想把AI用到群體智能系統的構建,用AI去加強融合和反饋,替代人的工作。我們最關心的是在軟件開發中,能不能更多的人去參與,AI在軟件開發中的應用,以及AI在群體化軟件開發中應用。謝謝大家。
文 / 周明 轉載于“中國人工智能學會”
0 引言
人工智能(AI)從上世紀50年代達特茅斯會議發展到今天,經歷了多次起伏,圍繞著基于知識還是基于數據兩條線,先后發展出了基于知識的符號系統,以及基于數據的統計機器學習和神經網絡方法。目前基于神經網絡的深度學習方法,在大數據和大算力支持下,在感知智能方面,基于CNN、ResNet等技術,在圖像分類、人臉識別、語音識別等方面已達到與人相仿的水平,推動了AI在安防、質檢、醫療圖像識別和自動駕駛等領域的落地。最近三年,基于 RNN、Transformer、預訓練模型(Pre-trained models)和圖神經網絡(GNN)技術,AI正由感知智能快速向認知智能邁進。計算機正在從能說會看,向能思考、能回答問題、能決策等認知能力快速推進。計算機通過感知智能獲得的是對世界的感知,而從感知智能過渡到認知智能后,將使得計算機理解人類語言并推理解題的能力大幅度提升。認知智能提供了從數據獲取和分類到信息抽取和檢索、到知識推理,再到洞見發現、撰寫調研報告,最終形成決策的全方位的能力。它會同感知智能,將對提升各行各業的數智化產生深遠的影響。這其中最重要的一項突破是預訓練模型和微調技術。作為自然語言理解的新范式,它通過無監督學習方式從大規模無標注文本中學習語言模型,然后通過遷移學習對下游任務進行端對端的微調。這個新范式大幅度提升了各項NLP能力,包括機器翻譯、聊天、對話、搜索、摘要、問答,知識圖譜、推理和決策等;然而,這類模型的可解釋性比較差,對常識的建模能力,以及邏輯推理能力較弱,仍需大規模的帶標注的樣本。
為了推認知智能的發展,我們提出了新一代認知服務引擎的計劃,研制了輕量化預訓練模型(孟子模型)、支持語言和多模態,以及領域訂制;在此基礎上,開發了新型機器翻譯、文本生成和行業搜索引擎等核心技術;同時,通過司法考試(LSAT)利用規則和神經網絡的方法研究復雜推理。本文將介紹我們在這個過程中對認知智能三個比較重要方面的體會,包括預訓練模型、推理和小樣本學習,希望可以激發讀者更多的思考。
簡介
周明
創新工場首席科學家,瀾舟科技創始人。曾任微軟亞洲研究院副院長、國際計算語言學會主席(2019年)。CAAI Fellow
1 預訓練模型
當前大熱的預訓練模型BERT、GPT和T5及其之后的各種變種,使用自回歸的語言模型和自編碼技術等自監督學習方式進行;訓練單語言、多語言和多模態的模型支持分類、序列標記、結構預測和序列生成等各項技術,并構建文摘、機器翻譯、圖片檢索、視頻注釋等應用。
預訓練模型是一種遷移學習的應用,利用大規模的文本(譬如來自互聯網的文本數據),學習輸入句子每個詞匯的上下文相關表示。它隱式地學習到了一般性的語法語義知識。將這種從開放領域學到的語言知識遷移到下游任務,有利于改善低資源的任務,以及低資源語言(比如小語種和少數民族語言)的任務。在支持一個新任務時,只需要在通用預訓練模型支持下,利用該任務的標注數據進行微調即可。這種預訓練-微調機制有效提升了開發效率,同時標志著NLP進入到工業化實施階段。
一般而言,在相同網絡架構和訓練方法下,增加模型層次和模型參數得到的預訓練模型的能力就一定會提升。不過模型的規模到了一定程度后,增強幅度也會趨緩。我們注意到訓練一個大模型的代價很高,譬如GPT-3訓練以前需要460萬美金;大模型落地部署的代價也極大。隨著摩爾定律逐漸枯竭,計算機硬件能力的增加速度趕不上模型參數的增加速度,統計表明至少差一個數量級。這時不一定一味追求更大的模型,而應注重提升算法能力。
有鑒于此,我們比較關注輕量化的模型(這里指預訓練模型參數數目在10億以下),在訓練優化、知識增強和數據增強三個方面展開相關研究。在訓練優化方面,在不改變模型結構并保證通用性的基礎上,優化主流的自編碼和自回歸的訓練方式,使模型的訓練更快、性能更強;在知識方面,引入語言學知識和知識圖譜來增強模型的上下文感知和認知推理能力;在數據方面,使用領域數據和其他語言的數據增強模型訓練。因為是輕量化模型,所以模型的訓練、部署和維護的成本較低。針對新領域快速定制也容易實現。我們開源了三個孟子輕量化模型,用于文本分析、生成、圖片理解等應用,同時也開源了金融領域的預訓練模型。
我們認為以下10個研究方向值得關注,涵蓋了預訓練技術、模型架構設計、建模和表示方法、性能評價、模型應用等方面。
(1)輕量化模型的技術研究。平衡算力消耗和訓練效率,通過設計輕量化的預訓練策略,或從大模型提煉出輕量化模型,實現預訓練模型的規模化應用。
(2)大小語言模型協同應用。大模型側重通用能力,小模型側重特定任務和場景。結合大模型的性能和小模型的效率優勢并基于SaaS提供服務,以高效實現推理。
(3)神經-符號結合的架構。將符號知識與神經網絡結合,賦予預訓練語言模型強大的認知推理能力,增強求解過程的可解釋性。
(4)通用的語言表示范式。實現不同語言建模粒度(字、詞、短語、句子、篇章)、不同語言間的通用建模方法;對不同的語言處理任務(例如自然語言理解和自然語言生成),采用統一的序列建模方式;通過提示學習方法,將自然語言處理任務建模成統一形式求解。
(5)知識驅動的預訓練模型。設計面向知識推理的預訓練方法,包括常識、事件相關的正則項或預測任務;按需檢索,有效利用結構化知識,構建知識間的聯系,減少噪音,并與文本表示融合,強化知識推理能力。
(6)語言模型中的知識編輯。預訓練語言模型可視為一個巨大知識庫,根據應用需求,維持通用知識,更新任務相關知識,避免災難性遺忘,實現持續學習能力。
(7)模塊化的預訓練模型。不同任務通常需要不同的技能來求解。從細分技能的角度,利用混合專家 (Mixture of Experts,MoE),把多個技能導向的子模型合并為一個大模型,對不同任務按需裝配,選擇不同子模型進行處理。
(8)層次化的多模態建模。層次化的建模方式和細粒度的多模態信息融合,包括同一模態內、不同模態間的對象對齊與融合;新一代面向文檔理解的預訓練模型。
(9)預訓練模型的魯棒性。面向預訓練模型的對抗攻擊與防御,通過構造自然的對抗樣本和數據增強等手段,提升預訓練模型在現實應用中的魯棒性。
(10)多維度模型性能評價。客觀、綜合、均衡的評測基準對于分析預訓練模型能力、發掘問題、啟發新的研究課題具有重要意義。開發新型基準評價平臺,對預訓練模型做出全面、科學、有效的評測。
2 復雜推理
復雜推理問題是理解和分析已有的信息,應用推理機制期望得到推理結果。它有很多應用,譬如解數學題、談判和辯論、客服和醫學診斷等。相對于簡單推理(比如蘊含或者問答),“復雜”體現在依賴深度語言理解(語義解析、跨句理解等)、邏輯關系復雜(從屬關系、因果關系、否定關系等)、推理能力多樣(數值推理、邏輯推理、常識推理等)、推理過程復雜(多跳、推理方向不確定等)。除了這些問題之外,由于標注困難度和人工成本,普遍缺乏標注數據。我認為,推理問題是NLP皇冠上的明珠,如果突破了,則意味著AI的巨大進步。
我們選擇LSAT入學考試任務研究復雜推理問題,以期通過考試題推進AI在理解和推理上的發展。LSAT考察學生的綜合推理能力,被認為是最困難的入學考試之一。它有如圖1所示的三項任務。
圖1 LSAT三項任務
(1)分析推理(AR)。考察一個人分析推理的能力。跟定一個上下文,要針對問題判斷哪個解決方案正確,需滿足若干個約束條件才行。需要有能力判斷條件是否滿足了。
(2)邏輯推理(LR)。考察一個人邏輯推理的能力。根據上下文,選擇哪個邏輯推理是正確的。需要有邏輯推理能力才能做出來。
(3)閱讀理解(RC)。考察一個人的閱讀理解能力。給定一篇通常較長的文章,給幾個選擇,每個選擇是關于這篇文章的一個推論,問哪個選擇是正確的。需要對文章理解,并且具有常識才能做出判斷。
可見,這三項任務可以體現出一個學生的理解問題并通過推理解決問題的能力。對計算機推理是一個非常好的實驗。
LSAT的任務概括而言是一個多選QA問題。根據一個上下文,圍繞一個問題有幾個選擇,判斷最佳的選擇。如果做一個 baseline 的推理系統,可以把上下文c與問題q和一個選擇答案o拼起來,送到一個多層神經網絡(transformer 架構);然后把幾個候選答案的輸出,通過softmax得到每個選擇的概率(見圖2)。由于只有小數量的標注語料,所以這種簡單的方法結果不行。
圖2 baseline的推理系統
我們來看看數據集合,根據不同的推理任務對應三個數據集合。1991—2016年的考題,還有五個考題是印度考題,總共90場考試,一場考試100道題目左右。三類的問題,每類數據都可以劃分成訓練、驗證和測試三個部分。這就是可以獲得的全部數據。由于數據十分稀疏,如果只是用一個通常采用的基于預訓練的端對端學習,比如BERT、XLNet、RoBERTa、ALBERT,其結果與隨機猜測相仿。因此,我們需要更強的推理模型。
在分析推理方面,所做試驗表明,在現在階段符號的方法最佳。由于缺少數據,神經網絡無法訓練,而寫規則時,可以根據問題的特點寫一系列針對性的規則,所以規則的方法在這里有一定優勢。
在邏輯推理方面,符號方法和神經方法融合最好。對每道題用符號方法去理解邏輯,根據邏輯的等價規律進行延伸和推廣,然后對每個答案也進行邏輯抽取,利用推廣的這些邏輯對答案邏輯再進行推廣,把推廣的邏輯變換成文字,把文字加回到神經網絡中進行訓練,這個方法目前最優。它的好處就是把邏輯方法充分用到問題的實質中,然后用邏輯方法來擴展數據,而沒有直接用邏輯方法去推導,所以這個組合方法在這種題目上取得了最優結果。
在閱讀理解方面,神經網絡加預訓練的方法是最好的。它利用了端到端訓練,在SOTA的閱讀理解基礎上得到了不錯的分數。
LSAT的整體水平。LSAT的分數不是1~100分,是120~180;也就是說,什么也不做也是120分;滿分是180分。這里可以把我們的分數對應過來,然后根據歷年以來的一個統計,對應一下可以上前多少名的大學分數線,總分可以得到151分,大概可以上到前104名的學校;AR分數差一些,只能上200名之后的學校;LR分數大概可以上第58名的學校;RC分數大概可以上第30名的學校;結論是可以考上一個一般的法律學校(學院),100名左右。通過這個實驗得到了一些正面的發現,整體上,系統達到了一般學生的水準,說明機器復雜推理的潛力;RC和LR不錯,可以被第30名和58名學校錄取。這兩個方法都用到了預訓練,也用到了與任務相關的推理,說明這兩者有一定有效性。符號系統來解AR問題,問題很多,但是居然還是比神經網絡好。AR問題確實很難,要對上下文理解,然后建立推理鏈條。然而現在沒有多少數據可以用于訓練,所以現階段求解這類問題,符號知識和符號推理還是必須的。這個任務也說明,小樣本學習非常重要。
LSAT是一個研究復雜推理很好的數據集合。我們針對不同任務設計了在目前數據集合和技術手段下最佳方法;研究了規則方法、神經網絡方法、神經-規則方法,切身體會了各自方法的特點;針對小樣本問題,實驗了合成數據、遷移學習、元學習等方法;分析了目前復雜推理存在的問題,比如常識、可解釋性、小樣本、評測集合等;提出了未來的研究方向1。這件事情僅是開始,未來還需要很多工作。
3 小樣本學習
神經網絡用較大的標注數據做端到端訓練。真實場景下,很多任務都少有標注數據,所以小樣本學習是目前神經網絡的一個難題。但是人類可以通過少量樣本識別一個新物體。比如,小孩只需見幾次貓就可以識別幾乎所有的貓。研究人員希望機器學習模型在學習了一定類別的大量數據后,對新的類別只要少量的樣本就能快速學習。這就是Few-shot Learning要解決的問題。
人可能有一些基礎能力(Foundation Skills),這些基礎能力不用針對每個任務都像現在的神經網絡端對端的重新學一遍。與Foundation Skills相對,Foundation Models指的是支持各個任務能力的通用模型。但是人不管用什么Model,體現在外在功能都是一個個Foundation Skills。語言理解像分詞、句法分析、常識問題,每個Foundation Skill完成某個基本任務。每個人都有Foundation Skills,雖然能力各有不同,但是人在解決一個大問題時,調用了一組Foundation Skills形成一個序列執行具體任務。人可以針對任務目標,對每個Foundation Skills要快速做Domain-Adaptation。
對于很多實際場景,難以標注大量的語義解析數據,可以使用合成數據輔助訓練2,3。比如在上述LSAT的分析推理任務中的問題解析模塊中,為了擴充訓練語料,我們設計了同步上下文無關文法,用于生成大量的合成數據。在生成一個邏輯表達式的同時,生成其對應的文本。然而,這樣的合成文本多樣性較弱,因此考慮使用同義改寫模型,為合成文本生成同義句,增強合成數據的多樣性。
除了構造合成數據,還可以利用已有的數據資源。現有許多人工標注好的語義解析數據集,可以讓模型從中學習通用的語義解析知識,用以輔助新的語義解析任務。我們采取基礎模型 + 微調的思路。在基礎模型構建部分,基于T5,使用來自多個符號系統的多個數據集訓練一個神經解析器。不同符號系統之間的知識可以共享、互補,構成了語義解析的基礎能力。針對目標任務,例如LSAT的分析推理任務,可以使用合成數據對模型進行微調,使得模型具備文本到目標符號系統的映射能力。從實驗結果來看,針對語義解析構建基礎模型的方法,能在一定程度上提升LSAT分析推理任務的解析性能。
盡管我們可以采用多種方法提升合成數據的多樣性,但是由此訓練的模型依然欠缺泛化能力。在這里同義數據的定義,是指邏輯表達式相同但是輸入文本不同的數據。為了提升模型的泛化能力,我們提出了基于元學習的訓練方法,即learn-to-generalize。從實驗結果來看,元學習可以幫助模型有一定能力從合成數據泛化到真實數據。
4 結束語
目前神經網絡的方法依賴大規模的標注數據做端到端訓練。這種黑箱式系統缺乏解釋能力、也不具備常識推理能力。解決這個問題不是一件容易的事情,但是可以從如下三方面推進。
第一,人腦在處理熟悉的事情時,依賴數據和直覺,比較快,缺乏解釋性,這個能力通常被稱作系統2的能力;而在遇到不很熟悉的事情時,依賴規則、邏輯和推理,比較慢,但是具備可解釋性,這個能力通常被稱作系統2的能力。我們可以把前者類比于神經網絡方法,后者類比于符號系統。為了改進目前的神經網絡系統,應該把這兩個系統融合起來,也就是數據和知識融合起來尋找解決思路。
第二,現在的深度學習,依賴數據做端對端的訓練。這意味著針對一個新任務,要學習所有的能力。這就和假定人腦做任何事情時都是從空白開始學習。實際上,人具備很多基礎能力。這些基礎能力針對一個新任務時大部分的能力不動,只是小部分簡單調整。我們設想模擬人腦,設計一系列基礎能力和基礎能力的微調機制。為了能夠實現微調,需要每個基礎能力可微。如何把規則系統轉換為神經網絡系統從而實現可微,是一個挑戰性課題。
第三,常識問題。常識問題困擾NLP的發展,目前并沒有很好的方法。為了研究常識推理,ConceptNet建立了針對常識問答的數據集CommonsenseQA。最近有研究提出了用一種外部注意力機制增強Transformer和預訓練,把外部常識知識引入到預訓練的預測過程中。期待今后更多的研究。
總而言之,借助預訓練模型推進,認知智能正處在蓬勃發展的勢頭,取得了令人振奮的進步。但是,預訓練模型的訓練成本太高、效率低、推理能力差;由于數據的偏差,模型也存在著隱私和倫理問題。我們希望未來的認知模型能夠像人腦一樣具備可解釋性和小樣本學習能力,以及常識推理能力,在這些方面,需要不懈的努力。
(參考文獻略)
1 //xueshu.baidu.com/usercenter/paper/show?paperid=1t5006r05m4w0jn0mc1e0ms0e1656798 2 3
作為新一代信息技術的代表,人工智能已經廣泛應用于科學、社會、經濟、管理的方方面面,已經和正在成為創新驅動發展的核心驅動力之一。然而,就其技術發展而言,人工智能還只是突破了從“不可用” 到“可以用”的技術拐點,從“可以用”到“很好用” “用得好”還存在諸多技術瓶頸,正呼喚重大技術變革。
技術變革的先導是理論創新,即基礎研究。它是指對事物本質和規律的科學化探尋和揭示,是啟發、促動技術變革的激發源和理論依據。理論創新既應包括對原有理論體系或框架的新突破、對原有理論 和方法的新修正和新發展,也包括對理論禁區和未知領域的新探索。
本文主要關注人工智能技術發展當前亟待解決的重大數理基礎問題。為什么要特別關注 AI 的數理基礎問題呢?這是因為當前人工智能技術和發展主要是靠“算例、算法、算力”所驅動的,其基礎是數據,其核心是算法,這二者都深刻地以數學為基礎。數學主要提供對所研究問題的形式化手段、模型化工具和科學化語言。沒有形式化就沒有程式化和計算機化,沒有模型化就沒有定量化和知識化,沒有科學化就沒有系統化和現代化。所以,數學在科學技術中具有獨特的作用和價值。對人工智能而言,數學不僅僅是工具,還是技術內涵本身, 而且常常也是最能體現本質、原始創新的部分。
本文提出并闡述人工智能研究與應用中凾待解決的10個重大數理基礎問題,包括:
1 大數據的統計學基礎
2 大數據計算的基礎算法
3 數據空間的結構與特性
4 深度學習的數學機理
5 非正規約束下的最優輸運
6 如何學習學習方法論
7 如何突破機器學習的先驗假設
8 機器學習的自動化
9 知識推理與數據學習的融合
10 智能尋優與人工智能芯片問題
機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。
深度學習最近變得非常流行,因為它在許多復雜的數據驅動應用程序中取得了令人難以置信的成功,比如圖像分類和語音識別。數據庫社區多年來一直致力于數據驅動的應用,因此應該在支持這一新浪潮方面發揮帶頭作用。然而,數據庫和深度學習在技術和應用方面是不同的。在本文中,我們討論了這兩個領域交叉的研究問題。特別地,我們從數據庫的角度討論了對深度學習系統的可能改進,并分析了可能從深度學習技術中受益的數據庫應用。