來源:騰訊研究院
近日,針對大模型AI技術發展,騰訊研究院、同濟大學、騰訊云、騰訊新聞基于產學研等多方在AI領域的研究,共同發布了《人機共生——大模型時代的AI十大趨勢觀察》報告,從技術、應用、社會等角度,提出大模型時代的關鍵性趨勢觀察,并帶來了大模型時代AI的十個關鍵詞。
技術趨勢:大語言模型和多模態技術將助力人工智能向AGI發展
AGI(通用人工智能)是一種具有所有人類智能能力的機器,它可以理解、學習、適應和實現任何知識工作。報告顯示,自2010年代初深度學習問世以來,人工智能進入到第三次高潮,而2017年出現的Transformer算法,又將深度學習推向了大模型時代。以ChatGPT為代表的大語言模型,展現出來的推理、思維鏈等能力,讓人類感到驚訝,尤其是GPT4在多種能力測試中達到人類頂級水平,更是讓人類看到了AGI的曙光。
未來真正的AGI可以自然地處理多種類型信息,它需要具有高效的多模態信息處理機制。報告認為,多模態AI不僅能夠處理單一數據類型的任務,而且可以在不同數據類型間建立聯系和融合,為解決復雜問題提供支持,因此多模態AI也將助力人工智能向AGI發展。
報告還強調,多模態AI也將帶來創新應用的藍海,例如多模態AI可以擴展在社交媒體中的實時語音、文字、圖像和視頻的處理能力,為傳統游戲和增強現實/虛擬現實(AR/VR)應用帶來更為豐富和沉浸式體驗。
應用趨勢:AI將給產品交互、企業生態、商業模式等多個領域帶來變革
在應用層面,報告重點提到了AI對產品交互、企業生態、商業模式、個人創作能力等方面的變革。
在產品交互方面,過去人類用鍵盤鼠標與電腦交互,用手指觸屏與手機交互,用喚醒詞與智能音箱交互,但生成式AI讓人類可以用自然語言的方式跟機器對話,機器也可以通過大模型擁有理解人類語言的能力。報告顯示,過去的數次人機交互變革,都帶來了從終端到連接,到各類應用的顛覆式變革,生成式AI也必將帶來產業鏈、價值鏈和生態的重塑。
在商業模式方面,大模型促進了AI的工業化,并且正在重構現有的商業模式,未來將形成模型即服務的MaaS生態。報告顯示,未來的數字化商業將分為大模型基礎設施型企業、垂直行業領域的小模型應用企業,以及更加貼合個人用戶的模型應用和服務。這一生態的建立和發展,將更廣泛地賦能各行業應用,加快社會各領域數字化轉型、智能化發展,帶來全社會的生產效率提升。
此外,垂直領域應用將是大模型的主戰場。隨著生成式人工智能技術的飛速發展,它已經在多個領域展現出全新的商業價值。在中國,諸多行業企業也已經看到生成式AI、大模型可能為企業帶來競爭優勢。金融行業、文化娛樂行業等頭部機構預計會在一年內,在相對成熟的場景中嘗試引入大模型以及生成式AI能力。
與此同時,MaaS服務正助力加速行業大模型落地。騰訊云從產業客戶需求場景出發,基于大模型高性能計算集群和大模型能力,依托騰訊云TI平臺打造模型精選商店,為客戶提供MaaS一站式服務和行業大模型解決方案,全面降低落地門檻,助力客戶構建專屬大模型及智能應用。截至目前,騰訊云已聯合行業頭部企業,為10大行業輸出了超過50個解決方案,提供一整套模型服務工具鏈,幫助企業高效宰、高品質、低成本創建和部署AI應用。
對于個人來講,AI大模型將助力個體成為超級生產者。報告指出,基于生成式AI的新應用快速進化,涌現出許多新型面向個體的生產力應用。在創意制作、文本生成、圖像和視頻工具、學習工具、閱讀工具、市場分析、編程等各個領域快速融入工作流,從信息處理、個性化學習、輔助創作、智能優化等方面協助人類創作,賦能個體成為超級生產者。在大模型的加持下,人工智能正在從“工具”變成“伙伴”,人機關系將進入到下一階段。
社會趨勢:重點審視版權歸屬難題和倫理挑戰
在社會觀察層面,報告重點關注當下受到AI沖擊最為明顯的兩個領域:版權與治理。
傳統的版權制度立足于“思想表達二分法”這一基本原則,即“只保護自然人思想的表達,而不保護自然人的思想本身”。報告指出,在人工智能時代,版權制度如果無法對“人的創造性思想”和“AI模型的獨創性表達”加以有效回應,那么其適用價值將會受到極大影響。
同時,生成式AI也帶來了更加復雜難控的風險,包括對人類未來生存的潛在風險。報告指出,AI時代需要成為一個負責任創新的時代,人們需要建立合理審慎的AI倫理和治理框架,塑造負責任的AI生態,打造人機和諧共生的未來。
其中,生成式AI領域的創新主體需要積極探索技術上和管理上的安全保障措施,為生成式AI的健康發展和安全可控應用構筑起防護欄。
具體內容如下:
人工智能是當今最熱門的技術領域之一,也是中國互聯網公司的重要戰略方向。本報告基于對9位來自中國AI科技團隊的產業人士問卷調研,分析了中國AI產業在資源投入、模型發展、數據隱私保護和行業合作等方面的表現,以及面臨的挑戰和機遇。用科學數據證據給讀者提供全面的視角洞察中國AI產業的發展現狀和未來趨勢。
億級資金有望注入,團隊擴容力度加大。根據公司戰略定位和發展重點,在技術研發、算力資源投入、數據采集與標注以及市場推廣與商業化擴展方面存在投入差異。同時, AI人力資源也在不斷擴張,采取多元化的策略來吸引和培養人才。 AI模型新發布可期,復雜數據處理升級。下半年有多個AI模型發布計劃,涵蓋自然語言處理、計算機視覺和跨模態領域。在模型發布中, Transformer架構是主流選擇。數據挑戰、模型優化和商業化仍是AI團隊面臨的瓶頸。雖然大模型在應用場景中擴展,并非模型規模越大越好,也需綜合考慮數據和模型的質量。 數據多樣性、數據合作和數據隱私保護是中國AI公司在數據領域的關鍵關注點。數據多樣性與合作是關鍵,共享數據合作是重要趨勢。圖像和自然語言數據集普及度高,物體檢測數據集應用較少。中國AI公司重視數據安全與隱私保護,采取多層防護措施、動態處理與隱私保護并重,以用戶為中心保護用戶數據。 AI硬件投入將繼續保持強勁的發展勢頭。服務器部署反映算力需求,大部分公司有服務器擴張計劃。不同公司在計算資源的使用量、成本和供應商選擇上存在差異,反映出它們在AI技術發展上的投入和戰略規劃。中國本土公司在半導體領域的發展也不容忽視。 AI商業化需要持續投入和優化,而營銷策略中突出大模型的創新性和應用價值是至關重要的。按交易量費和定制開發費是中國AI科技團隊主要的收費模式,顯示出對需求敏感性和靈活盈利模式的重視。調研結果還揭示了AI服務費用反映了模型復雜性、服務質量和市場競爭的因素,需要綜合評估選擇。 AI的跨行業應用和行業合作是推動技術發展和創新的關鍵。AI應用有廣闊的發展空間,需要各行業積極與AI公司合作推動數字化和智能化轉型,同時加強數據隱私保護。我們認為,未來行業整合、競爭加劇和新興創業公司崛起的可能性較大。
來源:弗若斯特沙利文 近日,弗若斯特沙利文(Frost & Sullivan,簡稱“沙利文”)發布《AI 大模型市場研究報告(2023)——邁向通用人工智能,大模型拉開新時代序幕》。 報告認為,伴隨基于大模型發展的各類應用的爆發,尤其是生成式 AI,促使大模型帶來的價值進一步升級到人類生產力工具的顛覆式革新,逐漸拉開了通用人工智能(AGI)的發展序幕。 在通往AGI時代的旅程上,大模型和人類反饋的強化學習(RLHF)的結合,不僅重構了AI開發范式,未來軟件80% 的價值將由 AI 大模型提供,剩余 20% 會由提示工程和傳統業務開發組成,開發者的生產力將得到極大釋放;與此同時,AI的發展也將由之前單向發展的數據飛輪升級到不斷迭代進化的智慧飛輪,更高效的解決海量的開放式任務。 報告指出,中國大模型廠商的成功因素主要包括:全棧大模型訓練與研發能力、業務場景落地經驗、AI安全治理舉措、以及生態開放性4個方面,其中全棧大模型訓練與研發能力還包括數據管理經驗,AI基礎設施建設與運營,以及大模型系統和算法設計3個部分。這些成功因素分別體現著大模型廠商的產品技術能力、戰略愿景能力、生態開放能力三個維度。 基于這三個維度,沙利文制定了超過70個評估指標,對大模型廠商進行了全面的能力評估。 關鍵發現點
AI大模型的高速發展離不開底層技術支持和應用場景迭代。大模型作為AGI時代的曙光,相關廠商也將迎來廣闊的發展空間。本報告將呈現從發展現狀、驅動因素洞察AI大模型廠商競爭與發展關鍵點,并推演競爭格局的邏輯分析過程: 前瞻洞察:
通向AGI的技術路徑具有多元性,目前大模型是最佳實現方式。大模型具有強大的泛化性、通用性和實用性,能夠降低AI開發門檻、提高模型精度和泛化能力、提高內容生成質量和效率等多種價值,實現了對傳統AI技術的突破,并成為AGI的重要起點。 進而將AI發展由數據飛輪升級到智慧飛輪,最終邁向人機共智。大模型和人類反饋的強化學習(RLHF)的結合,進一步重構了AI開發范式,進入大模型主導的軟件2.0時代。另一方面,AI開發則形成新的“二八定律”,開發者的生產力將得到極大釋放。 驅動因素:
大模型“基礎設施-底層技術-基礎通用-垂直應用”發展路線逐漸清晰,國內各廠商加速戰略布局,加大資金和技術投入,迎頭趕上全球大模型產業化浪潮,本土化大模型迎來發展新機遇。整體上,行業驅動因素主要包含三個層面: (1)政策端:政策環境持續優化,賦能AI大模型市場高速發展。 (2)供給端:下一代AI基礎設施等快速發展,助力大模型應用落地。 (3)需求端:AI市場高景氣,大模型下游行業需求旺盛。 行業觀點:
大模型未來發展將趨于通用化與專用化并行、平臺化與簡易化并進。同時,MaaS模式將成為AI應用的全新形式且快速發展,重構AI產業的商業化結構生態,激發新的產業鏈分工和商業模式。未來,大模型將深入應用于用戶生活和企業生產模式,釋放創造力和生產力,活躍創造思維、重塑工作模式,助力企業的組織變革和經營效率,賦能產業變革。 關鍵成功因素:
大模型面臨算力需求大、訓練和推理成本高、數據質量不佳等挑戰。一個可對外商業化輸出的大模型的成功,要求其廠商擁有全棧大模型訓練與研發能力、業務場景落地經驗、AI安全治理舉措、以及生態開放性4大核心優勢,才能保證其在競爭中突出重圍。其中,全棧大模型訓練與研發能力還包括數據管理經驗,AI基礎設施建設與運營,以及大模型系統和算法設計3個關鍵要素。 競爭格局:
在競爭格局漸趨明晰的過程中,相關廠商需跨越技術、人才、資金等壁壘,在產品技術能力、戰略愿景能力、生態開放能力三大維度上展開角逐。通過遴選,報告選擇了5家大模型廠商,分別為商湯、百度、阿里巴巴、華為、騰訊,評價模型包含15個一級指標、56個二級指標,對廠商大模型的各個能力進行評估。 用戶建議:
通過此報告能夠了解大模型廠商的競爭態勢,關注領先廠商,內部創建大模型戰略文件,明確其優勢、帶來的風險和機遇,以及部署路線圖,針對具體的用例,權衡模型的優勢和風險,并選擇合適場景試點、評估大模型的應用價值。 具體內容如下
**內容簡介:**ChatGPT的火爆出圈使得AI生成(AIGC)技術受到了全社會前所未有的廣泛關注。此消彼長之下,傳統的知識工程遭受了諸多質疑。在多模態智能領域,AIGC的能力不斷提升,多模態知識工程工作應該何去何從?是否仍有價值?在本次分享中,講者將探討當前AIGC技術耀眼“光芒”背后的“暗面”,思考與展望AIGC時代的多模態知識工程研究。
關于AIGC時代的多模態知識工程思考與展望,我們將從以下六個方面展開介紹: 第一部分,我們回顧一下AIGC技術的發展歷程和它帶來的劃時代影響力; 第二部分,我們對AIGC技術的不足(阿克琉斯之踵)之處進行分析與總結; 第三部分,我們將介紹多模態認知智能的框架和兩種實現路徑,并進行對比分析;第四~六部分,我們會展望當前AIGC大模型和MMKG多模態圖譜間如何競與合。
01
AIGC時代:未來已來
隨著人工智能總體階段的發展,生成式人工智能技術(AIGC)也在不斷迭代。從20世紀50年代到90年代中期,是AIGC的早期萌芽階段,這一時期受限于技術水平,AIGC僅限于小范圍實驗。這一時期的AIGC典型事件包括:1950年,艾倫·圖靈提出的著名的“圖靈測試”,給出判斷機器是否具有“智能”的方法;1966年,世界上第一款可人機對話機器人“Eliza”的問世;以及在80年代中期IBM公司創造的語音控制打字機“Tangora”的出現。
而從20世紀90年代到21世紀10年代中期,AIGC處于沉淀積累階段,這一階段的AIGC技術從實驗性向實用性轉變,但仍因受限于算法瓶頸,無法直接進行內容生成。這一階段的AIGC典型事件則包括2007年世界上第一部完全由人工智能創作的小說《1 the road》的問世;以及2012年微軟開發的全自動同聲傳譯系統的出現,它能夠將英文語音自動翻譯成中文語音。
自21世紀10年代中期至今,是AIGC快速發展的階段,得益于深度學習算法不斷迭代,人工智能生成內容百花齊放。2014年,Goodfellow提出的生成對抗網絡GAN用于生成圖像;2019年,英偉達發布StyleGAN模型可以自動生成高質量圖片;2019年DeepMind發布DVD-GAN用于生成連續性視頻,直到2022年,OpenAI發布ChatGPT模型生成流暢的自然語言文本。
可以說,ChatGPT的爆紅出圈宣告了AIGC時代的到來。
現在的AIGC技術可以生成的內容包括文本、圖像、音頻和視頻等。如今,已經有很多強大的算法被發明出來,如用于圖像生成的Stable Diffusion算法。此外,還有很多走在技術前沿的創業公司不斷推動AIGC技術的應用落地,如Jasper AI的AI寫作軟件和midjourney的AI繪畫工具的發明都在解放著人類的內容創作生產力。這些共同促進了一個萬物皆可AI生成的AIGC時代。
右圖是一張來自互聯網的趣味圖片——機器人一家三口在人類博物館中觀賞人類的最后一篇推文“GPT-5也沒啥了不起的”——表達了創作者對當今AIGC技術飛速發展的隱隱擔憂。
那么,我們首先看一下多模態大模型的分類與發展脈絡。如上圖所示,多模態大模型發展非常迅速,我們可以將多模態大模型簡單分為多模態統一大模型和多模態文圖生成大模型,前者用于統一的多模態生成和理解,后者特指具備強大的多模態文到圖生成能力的大模型。
當前,文圖生成大模型已經可以生成逼真、高清以及風格化的意境圖像。
還有一些文圖生成大模型,如斯坦福大學提出的ControlNet,其生成能力更加精致、可控。它不僅可以生成各類質地細膩、細節精致的圖片,也可以通過簡筆畫來對圖像生成進行操控。
AIGC大模型生成的視頻在某種程度上也可謂自然流暢、栩栩如生。
我們還看到Google發布的PaLM-E模型,展現了多模態AIGC大模型驅動的具身智能的情景。這個具備5620億參數的具身多模態大模型,可以將真實世界的傳感器信號與文本輸入相結合,建立語言和感知的鏈接,可以用自然語言操控機器人完成操作規劃、視覺問答等任務。
AIGC的驚艷效果不禁讓很多人對符號主義(知識工程)的研究產生了疑問。Rich Sutton在著名文章《苦澀的教訓》中提出,唯一導致AI進步的因素是更多的數據和更有效的計算。而DeepMind的研究主任Nando de Freitas也宣稱,“AI現在完全取決于規模,AI領域更難的挑戰已經解決了,游戲結束了!”。我們也看到,在大多數領域,大模型已經(暫時)戰勝了精心設計的知識工程。然而,AI的流派之爭真的結束了嗎?
02
AIGC的阿克****琉斯之踵
第二部分,讓我們來看一下當前AIGC大模型實際存在的一些問題。
盡管今天的ChatGPT(包括GPT-4)很強大,它的諸多問題仍舊難以忽視: 第一、強語言弱知識的問題,ChatGPT無法理解用戶查詢中的知識性錯誤,它具備強大的語言能力,但知識能力仍舊較弱; 第二、實時信息自更新慢,新舊知識難以區分,目前ChatGPT的知識還停留在2021年,而每一次信息更新都需要成本高昂的重新訓練; 第三、其邏輯推理能力并不可靠,應該說尚不具備復雜數學邏輯推理與專業邏輯推理能力; 第四、由于缺乏領域知識,它也無法真正為領域類問題提供專業靠譜的答案。
當前的多模態大模型的跨模態生成能力也尚不完善。上圖是我們用文圖生成大模型Stable Diffusion生成的一些案例。具體來說,當前的文圖生成存在組合泛化、屬性泄露、方位理解混亂、語義理解錯誤等問題。因此,盡管我們看到AIGC跨模態生成的視覺效果驚艷,但往往存在較大的模態間信息不對稱問題。
此外,當前多模態大模型的多模態理解能力也存在問題。上圖是來自BLIP2進行視覺問答任務的錯誤樣例。我們看到: 1)模型由于缺乏事實知識,無法知曉球拍上的“w”圖案是品牌“Wilson”的logo,因而錯誤回答成“nike”; 2)模型由于欠缺邏輯推理能力,不理解圖像場景和問題的邏輯關系,因而回答錯誤; 3)模型由于常識儲備不足,對某個具體場景(沖浪)下的意圖理解犯了常識性錯誤。
讓我們再來看一下Google的具身多模態大模型PaLM-E,雖然依賴如此大規模的參數實現了初步的機器人操控,但其demo視頻中所展示的空間范圍、物品種類、規劃和操作任務的復雜度等都非常有限。我們可以想象,如果要在真實世界的復雜場景中達到實用級別,PaLM-E的參數規模是否還需要增大百倍、千倍甚至萬倍?如果一味用海量參數存儲所有知識,那么智慧涌現的代價是否過于昂貴?
至此,我們對多模態大模型做個簡單的小結。首先,多模態大模型的本質是“用語言解釋視覺,用視覺完善語言”。換句話說,我們要將文本中的語言符號知識,與視覺中的可視化信息建立統計關聯。所謂“用語言解釋視覺”,就是將語言中蘊含的符號知識體系和邏輯推理能力延伸至對視覺內容的理解;而所謂“用視覺完善語言”,是指豐富的視覺信息可以成為符號知識體系和邏輯推理能力的重要完善和補充。
我們知道,多模態大模型能發揮重大作用的重要前提是: 1)具有海量高質量圖文配對數據; 2)文字富含事實知識和常識; 3)其邏輯推理過程可顯式化被學習。
而我們所面臨的現實情況卻是: 1)數據量大但質量差,信息不對稱; 2)純文字中的知識與常識也不完備; 3)其邏輯推理是隱性難以學習的。
正因為這些理想與現實間的差距,導致了前面提到的多模態大模型的種種問題與不足。綜上,我們認為,統計大模型始終難以較低成本,全面、準確地掌握人類知識、常識和邏輯推理能力。
03
多模態認知智能
第三部分,我們引出多模態認知智能,其研究旨在解決前一部分提到的問題。
上圖是我們提出的一個多模態認知智能的研究框架。總的來說,多模態認知智能主要研究基于多模態數據的知識獲取、表示、推理與應用。在多模態知識獲取層面,我們從語料中通過抽取、生成、群智等方法獲取知識或者從語言模型中萃取知識。在多模態知識表示層面,可以使用多模態圖譜、常識圖譜、語言模型、大規模知識網絡等方法進行知識表示。基于多模態知識表示,可以進一步支撐多模態理解、推理和元認知等能力,從而賦能諸如跨模態搜索、推薦、問答、生成等多模態知識的應用。
多模態認知智能目前有兩種實現路徑。一種是多****模態大模型,其代表了聯結主義和經驗主義的思想,從海量預訓練數據中學習概率關聯,是簡單而魯棒的,它屬于統計學習范疇,具備端到端、干預少和“數”盡其用的優勢,其劣勢在于難以學習到從因到果、從主到次、從整體到部分、從概括到具體、從現象到本質、從具體到一般等邏輯關系。
另一種實現路徑是多模態知識工程,其代表了符號主義的思想,從精選數據和專家知識中學習符號關聯,是精細而脆弱的,它往往通過專家系統和知識圖譜實現,具備易推理、可控、可干預、可解釋的優點,但是它的劣勢主要在于將數據轉換成符號知識的過程往往伴隨著巨大的信息損失,而其中隱性知識等難以表達的知識往往是信息損失的主體。
結合多模態大模型和多模態知識工程的優劣勢分析,我們認為:在AIGC大模型時代,多模態知識工程依然不可或缺。
當前,多模態知識工程的主要形式之一是多模態知識圖譜(MMKG)。多模態知識圖譜是在傳統知識圖譜的基礎上,增加多種模態數據以豐富符號知識表達的方法,其多模態數據包括但不限于圖像、視頻、語言、代碼等。多模態知識圖譜可以將符號接地到具象的視覺等模態對象上,實現跨模態語義對齊。
目前多模知識圖譜的主流形式有兩種。 一種是A-MMKG,其中多模態數據僅作為文字符號實體的關聯屬性存在; 另一種是N-MMKG,其中多模態數據也可作為圖譜中的實體存在,可與現有實體發生廣泛關聯。
至此,我們進一步分析AIGC多模態大模型和大規模多模態知識圖譜各自的優缺點。
多模態大模型的優點是:
1)關聯推理能力強:可以學習掌握大量跨模態知識模式,隱空間的關聯推理能力強,具有很強的泛化能力; 2)多任務通吃:一套大模型處理各類跨模態任務; 3)人工成本低:不依賴人工schema設計與數據標注; 4)適配能力強:可通過調優訓練或prompt對話等方式來適配新的領域和任務。
而其不足之處在于:
1)可靠程度低:所生成的內容可靠性堪憂,存在誤差累積、隱私泄露等問題,無法勝任高精度嚴肅場景需求; 2)知識推理弱:沒有真正掌握數據背后的知識,缺乏知識推理能力,更無因果推理能力; 3)可解釋性弱:雖有CoT加持,但可解釋性仍然不足; 4)訓練成本高:需要消耗大量計算資源和時間來進行訓練,需要強大的計算設備和高效的算法。
**而與之對應的,**多模態知識圖譜的優點是:
1)專業可信度高:其結構和關系清晰,易于理解和解釋,可為人類決策提供參考,通常為某個具體應用場景構建,可提供更精準和針對性的知識支持; 2)可解釋性好:以結構化形式表示知識 ,知識的可訪問性、可重用性、可解釋性好,對人類友好; 3)可擴展性強:知識圖譜的內容可以隨著應用場景的需要進行不斷擴展和更新,可以不斷完善和改進。
而多模態知識圖譜的缺點在于:
1)推理能力弱:只能表示已有的知識和關系,對于未知或不確定的領域難以進行有效的知識建模和推理; 2)人工成本高:其構建需要依賴于人工或半自動的方式進行知識抽取和建模,難以實現完全自動化; 3)架構調整難:其基本schema架構通常是靜態的,不易根據新的數據或場景進行修改和調整。
由上分析可見:多模態大模型的優點常常是多模態知識圖譜的不足,而多模態大模型的不足又往往是多模態知識圖譜的優勢。因此,我們認為:當前階段,大模型與知識圖譜仍應繼續保持競合關系,互相幫助,互為補充。
04
AIGC for MMKG
第四部分,我們思考與展望一下AIGC大模型如何輔助MMKG的構建與應用。
第一,AIGC大模型為知識獲取降本增效。
(1)通過知識誘導(萃取),可以快速獲取大量知識或常識。例如,我們可以從語言大模型中誘導語言知識和關系知識;我們也可以從多模態大模型中誘導跨模態對齊知識和視覺常識知識。
(2)AIGC大模型的出現使得零樣本、少樣本、開放知識抽取成為可能。例如,我們可以利用ChatGPT對話大模型的理解和生成能力,從給定文本中抽取三元組知識;我們也可以利用多模態AIGC大模型的跨模態生成和理解能力,從給定圖文數據中抽取多模態知識。
(3)AIGC大模型可以顯著增強垂域多模態知識獲取能力。GPT-4、ChatPDF模型等已經顯示了強大的領域知識抽取能力,如基于多模態文檔的知識抽取。
第二,AIGC大模型助圖譜設計一臂之力。
大模型在部分領域上擁有領域常識知識,可以輔助完成schema的半自動化設計。在多模態場景中,也有一些嘗試,例如可以用多模態AIGC大模型生成cms領域的schema。
第三,AIGC大模型為知識推理保駕護航。
基于大模型的跨模態生成與推理能力,可以輔助完成KG表示學習、圖譜補全等任務。
第四,AIGC大模型為知識融合掃清障礙。
利用大模型的泛化能力和海量知識,可以輔助完成多模態知識圖譜融合。利于對于兩個MMKG的對齊,多模態AIGC大模型在兩者之間可以生成實體知識或語義層面的特征,輔助完成實體對齊。
第五,AIGC大模型為****知識更新舔磚加瓦。
基于大模型的常識知識和通用抽取能力可以輔助MMKG進行知識更新。可以利用多模態AIGC大模型從新事實中輔助抽取新知識;當新知識抽取完成后,可以借助多模態AIGC大模型輔助更新多模態知識圖譜。此外,還可以借助多模態AIGC大模型輔助過期事實檢測,從而將過期知識從知識圖譜中刪除。
第六,AIGC大模型為知識問答錦上添花。
利用大模型的語言理解能力和解析能力,可以幫助更好的構建多模態知識問答系統。在ChatGPT的知識問答評測結果顯示其在很多問題類型上效果顯著,且跨語言低資源情況下具有碾壓級效果,但是其數值類問題效果不及SOTA。因此,使用AIGC大模型助力MM-KGQA和K-VQA等任務,可以提升問題解析能力,強化知識推理能力,提供外部知識輔助等。
05
MMKG for AIGC
第五部分,我們總結與展望一下MMKG如何助力AIGC大模型的提升與完善。
第一,MMKG參與AIGC大模型的生成能力評估**。**
基于多模態知識圖譜中的知識構建測試集,可對大模型的生成能力進行各方面評估。例如利用各類百科知識圖譜進行事實性檢驗評估,也可以利用各類MMKG構建測試集進行符號推理能力評估、視覺常識推理能力評估、非語言推理能力評估等。
第二,MMKG引導AIGC大模型的可控約束生成。
已有工作在文本AIGC模型中引入指定約束(如包含/避免某主題)進行可控生成。可以展望未來會出現多模態知識引導大模型約束生成的工作。比如對于圖像生成,可通過將文本鏈接到多模態知識圖譜的具體實體,提供實體圖像信息,幫助正確生成實體對應圖像;對于文本生成,通過鏈接到多模態知識圖譜的具體實體,提供實體關系屬性和實體圖像等實體畫像信息,幫助正確生成符合實體性質和特點的文本。
第三,MMKG幫助AIGC大模型進行知識編輯。
目前已有在文本大模型上的知識編輯的相關工作。可以預見,未來也會出現利用多模態知識圖譜來對多模態大模型進行知識編輯的研究工作。
第四,MMKG輔助AIGC大模型的領域(任務)適配。
用多模態知識圖譜做領域知識微調可以將大模型的能力適配到領域任務。例如,在電商領域跨模態檢索場景,常常存在語義不匹配的問題。這種情況下,大模型如何低成本、高效率地解決該領域的具體問題是其應用落地的關鍵。我們與阿里合作的這篇工作提出了通過微調大模型,加上多模態知識輔助的方式,實現了大模型的輕量級領域適配。
06
AIGC+MMKG
第六部分,我們展望一下AIGC大模型和MMKG如何進一步合作。
我們認為,走向通用人工智能需要AIGC大模型和MMKG攜手并進。在未來,基于知識工程和統計模型的語言認知和多模態感知將會相互結合,并且借助MMKG和AIGC大模型,共同走向多模態認知的發展道路上。從視覺感知和語言認知到多模態認知,從連接主義和符號主義到神經符號主義,通用人工智能必將是一條融合之路。
AIGC和MMKG的第一種融合方式是注入知識以增強預訓練大模型**。**目前知識增強的預訓練語言模型已有多種路徑實現。在多模態知識增強預訓練的方向上,也有工作將場景圖知識融入視覺語言預訓練模型的預訓練過程中以增強跨模態語言理解能力。未來還有很多方式方法來將MMKG中的知識以更多方式融入到大模型當中。
AIGC和MMKG的第二種融合方式是基于知識檢索增強的多模態生成**。**例如,給定文本提示,訪問外部多模態知識庫以檢索相關圖文對,將其用作生成圖像的參考。
AIGC和MMKG的第三種融合方式是因果知識增強的多模態生成**。**已有工作利用因果圖譜中的因果關系和圖推理能力,輔助大模型的因果決策,通過在因果圖譜上的檢索、推理和融合將因果信息融入大模型推理中。可以展望,未來因果知識也可被用在對多模態大模型的理解與生成能力優化上。
AIGC和MMKG的第四種融合方式是個性化知識接入的多模態生成**。**在未來,或許每個個體或企業都會擁有AI私有化助手,那么如何管理個性化多模態知識,諸如個人畫像知識圖譜、企業畫像知識圖譜、價值觀知識圖譜、自媒體知識圖譜等,將這些知識以一種可插拔式的方式接入AIGC大模型中,提高大模型的個性化生成能力將是非常值得探索的方向。
實際上,Microsoft 365 Copilot就可以看作是知識庫與大模型良好協作的一款劃時代產品。借助Microsoft Graph(可以看做是一種知識庫)與AIGC大模型的協作融合,助力Word、PowerPoint、Excel的生產力大提升。
此外,在行業落地層面,AIGC大模型和MMKG的融合更具價值**。**由于利用海量通用語料和通用知識訓練的通用大模型與行業應用場景之間依然存在鴻溝,因此需要進行行業數據挖掘和行業特色知識獲取來進一步訓練更加實用的行業大模型。
基于上述原因,行業落地往往需要多層次的模型,并有效與知識庫和外部工具進行配合,才能真正解決好行業問題。通用多模態預訓練生成大模型、行業領域預訓練模型、任務小模型以及行業知識庫、外部工具將構成一個模型共同體,協作解決行業復雜問題。
07
總 結
最后總結一下本次分享的主要觀點。首先,AIGC技術的發展必將加速邁向通用人工智能的步伐。但是僅憑AIGC技術無法真正實現通用人工智能。在多模態領域,MMKG的構建與應用仍具重要價值。我們認為,AIGC和MMKG應該相互借力,我們分別從AIGC用于MMKG、MMKG用于AIGC、MMKG和AIGC如何融合三方面給出了二者競合方式的探索和展望。未來,符號知識和統計模型的競合方式有待進一步深入探索。
(在此感謝輔助完成分享PPT材料的課題組同學們,包括陳石松、朱祥茹、王續武、查志偉、王小丹、趙一聰、鄒健。演講稿的文字記錄與整理由查志偉同學完成。)
分享人簡介
李直旭,復旦大學研究員、博士生導師,上海市數據科學重點實驗室主任助理,復旦大學知識工場實驗室執行副主任,曾兼任科大訊飛蘇州研究院副院長,博士畢業于澳大利亞昆士蘭大學。主要研究方向為認知智能與知識工程、多模態知識圖譜、大數據分析與挖掘等。在領域主流期刊和國際會議上發表論文150余篇,主持十余項國家和省部級科研項目。
來源:商湯智能產業研究院
2021年是元宇宙元年,隨著元宇宙概念的火爆也一同帶動了數字人市場的快速升溫。據計算全球平均每天都會誕生一個數字人。數字人正成為一股潮流,涌入人們的日常生活。
從電影中逼真的CG人物,到能夠與我們面對面進行互動的智能服務助手,數字人會經歷幾級進化?
數字人正在從有顏無智的“CG數字模特”,進化為可提高生產力、驅動創新服務的“擬人服務式AI”,融入數字中國的千行百業,成為數字經濟的新交互媒介、新商業智能服務、新政務便民窗口。
近日,商湯科技聯合中國增強現實核心技術產業聯盟(CARA)共同發布AI數字人白皮書——《企業級AI數字人 數字經濟發展“新動能”》,定義數字人的發展五階段,并作出未來十大展望。
從L1到L5 AI數字人階梯式進化
從形象寫實到理解智能,從手工制作到自動生產,整個AI數字人的進化歷程,可以劃分為五個階段:
L1級:主要以人工制作為主
L2級:依靠動捕設備采集表情、肢體等動作,例如電影動畫制作
L3級:可依靠算法驅動口型、表情和動作,例如虛擬化身實時互動
L4級:實現部分智能化交互,在垂直領域創新服務模式
L5級:實現完全智能化交互,打造真正的個性化虛擬助手
達到L4級別,意味著數字人實現了AI仿真動畫生成能力與自然語言理解能力的結合。
此時的數字人,可通過學習大量真人會話、語氣、表情和動作,根據表達內容生成相應神態和全身動作,輸出栩栩如生的擬人效果。同時,結合AI算法在制作流程中的深度融合(AIGC),制作效率也得到了大幅提升。
也只有達到L4或更高級別,AI數字人才能真正走入千行百業,推動生產力變革。
日前,在“2021大數據產業峰會成果發布會”上,中國信通院云計算與大數據研究所所長何寶宏發布了《2021大數據十大關鍵詞》并對其進行了解讀。十大關鍵詞分別為:數據要素、數據安全、DataOps、隱私計算、服務體系、與云融合、實時計算、數據湖、數字孿生、硬件變革。十大關鍵詞指出了2020-2021年間,大數據在政策、技術、產業、應用等方面呈現出的特點,為產業下一步演進提供了依據。
關鍵詞一:數據要素市場化
中央正式提出“加快培育數據要素市場”已滿一年,2021年產業各界在法規、機制、技術等方面開始了諸多探索。一是數據相關立法正在完善,《數據安全法》正式頒發,《個人信息保護法(草案)》即將出臺,相關法律的陸續完善為數據要素市場化提供了保障基礎,同時深圳、上海、安徽等地方政府正在積極制定地方數據條例,探索地方發展數據產業的道路。
二是數據交易開始探索新模式,山東、北京、北部灣等新一批成立的大數據交易所紛紛開始探索數據登記、數據信托、數據運營管理、數據資產證券化等新型業務模式,推進打造規范化、一體化的數據流通市場生態。
三是企業數據資產化開啟實踐浪潮,南方電網、光大銀行、浦發銀行等領先企業開始在業務數據分類、數據估值和定價等方面進行更深層的數據資產化探索。但是,數據要素市場化配置并非一蹴而就,面對數據權屬、數據流通規則、數據安全保護等難題,我們仍然任重道遠。
關鍵詞二:數據安全治理兼顧安全與發展
數字經濟時代,數據價值的釋放在于其流通與共享,這種天然的流動性,導致傳統的信息安全防護措施已經不再適用。2021年6月初《數據安全法》頒發,明確要求企業“建立健全數據安全治理體系,提高數據安全保障能力”,企業必須在業務發展與數據安全之間尋求平衡點。
數據安全治理是指在數據安全戰略的指導下,為確保數據及其應用的合規利用和風險管控,而采取的覆蓋數據全生命周期的組織架構、制度流程、技術工具和人員能力的方法論,是實現安全與發展雙向促進的有效抓手。
然而當前產業缺少基于良好實踐的方法論和精準衡量企業治理能力的評估工具,中國信通院聯合聯通數科、百度、奇安信、螞蟻等20多家企業制定了團體標準《數據安全治理能力評估框架》,已經在今年4月份在中國互聯網協會正式發布。基于標準的首個市場化評估已經同步推出,首批完成了百度、螞蟻、聯通數科、電信云、度小滿等5家企業的評估,第二批試點評估正在征集中。
關鍵詞三:DataOps從概念到實踐
DataOps是數據管理發展到一定階段的產物。2018年Gartner提出DataOps,將其納入數據管理HypeCycle的三項技術之一。同時期,國內企業開始逐步建立數據管理意識,引入數據管理能力成熟度(DCMM)評估,逐步構建企業級數據管理能力。部分數據管理能力相對領先的企業嘗試引入DataOps理念,關注數據管理流程和技術的優化,以及數據運營模式的創新。
DataOps理念從2017年興起,在2021年實現了從概念到實踐的突破。一方面,相關技術產品加快推出。以華為云、騰訊云、阿里云、亞信科技為代表的大數據技術服務商,快速響應需求方數據管理模式的轉變,沿用DataOps理念,對數據管理產品組件進行了重構,紛紛推出了數據開發治理的產品。
另一方面,領先企業持續實踐DataOps理念。工商銀行、騰訊游戲、浙江移動等企業優化了數據管理思路,不斷嘗試踐行DataOps“敏捷、自動化、協同、價值導向”的理念,打通了數據生產、管理、消費、運營的全鏈條,將數據標準、數據質量管控嵌入數據開發治理過程中,注重數據的運營和服務,使得企業數據管理更高效。
【導讀】以圖神經網絡為代表的圖機器學習在近兩年成為研究熱點之一。近日,圖機器學習專家 Sergei Ivanov 為我們解讀了他總結出來的 2020 年圖機器學習的四大熱門趨勢,包括
Sergei Ivanov在這個領域已經工作了幾年,很高興看到這個領域發展很快,經常有非常有趣的想法出現。在這篇綜述中,我分析了提交給ICLR 2020的150篇論文,ICLR 2020是機器學習的主要會議之一。我讀了大部分的論文,試圖了解什么會對這一領域的發展產生重大影響。趨勢列表是我自己的,但是我很想知道你是否知道我最近錯過的有趣的論文,所以請在下面評論。
2020年才剛剛開始,我們已經可以在最新的研究論文中看到圖機器學習(GML)的發展趨勢。以下是我對2020年GML的重要內容的看法以及對這些論文的討論。
概述
本文寫作目的并非介紹圖機器學習的基本概念,如圖神經網絡(Graph Neural Network,GNN),而是揭示我們可以在頂級學術會議上看到的前沿研究。首先,我把在圖機器學習的研究成果的論文提交到 ICLR 2020闡述了GNN的論文情況
49篇ICLR2020高分「圖機器學習GML」接受論文及代碼
有 150 篇論文涉及圖機器學習,其中三分之一的論文已被接受。這大約相當于所有被接受論文的 10%。
在閱讀了大部分關于圖機器學習的論文之后,我整理出了 2020 年圖機器學習的趨勢,如下所列:
讓我們來看看這些趨勢。
1. 圖神經網絡的理論理解
從目前發展趨勢看,圖機器學習的領域在進展迅速,但是圖神經網絡還有很多工作要做。但關于圖神經網絡的工作原理,已經有了一些重要的研究結果! 洛桑聯邦理工學院 Andreas Loukas 的這篇論文《What graph neural networks cannot learn: depth vs width》,無論在影響力、簡潔性還是對理論理解的深度上,無疑是論文中的代表作。
論文表明,如果我們希望圖神經網絡能夠計算一個流行的圖問題(如循環檢測、直徑估計、頂點覆蓋等等),那么節點嵌入的維數(網絡寬度 w)乘以層數(網絡深度 d) 應與圖 n 的大小成正比,即 dw=O(n)。 但現實是當前的GNN的許多實現都無法達到此條件,因為層數和嵌入的尺寸與圖的大小相比還不夠大。另一方面,較大的網絡在實際操作中不合適的,這會引發有關如何設計有效的GNN的問題,當然這個問題也是研究人員未來工作的重點。需要說明的是,這篇論文還從80年代的分布式計算模型中汲取了靈感,證明了GNN本質上是在做同樣的事情。
與此類似,Oono 與 Suzuki、Barcelo 等人的另外兩篇論文也研究了圖神經網絡的威力。在第一篇論文《圖神經網絡在節點分類的表達能力呈指數級下降》(Graph Neual Networks Exponentially Lose Expressive Power for Node Classification)中,論文指出:
在一定的權重條件下,當層數增加時,GCN 只能學習節點度和連通分量(由拉普拉斯譜(the spectra of the Laplacian)確定),除此之外什么也學不到。
這個結果推廣了馬爾科夫過程(Markov Processes)收斂到唯一平衡點的著名性質,其中收斂速度由轉移矩陣的特征值決定。
在第二篇論文《圖神經網絡的邏輯表達》(The Logical Expressiveness of Graph Neural Network)中,作者展示了圖神經網絡和它們可以捕獲的節點分類器類型之間的聯系。我們已經知道,一些圖神經網絡和圖同構的威斯費勒 - 萊曼(Weisfeiler-Leman,WL)算法一樣強大,也就是說,當且僅當兩個節點被圖神經網絡分類為相同時,威斯費勒 - 萊曼算法才會將它們著色為相同的顏色。但是,圖神經網絡可以捕獲其他分類函數嗎?例如,假設一個布爾函數,當且僅當一個圖有一個孤立的頂點時,該函數才會將 ture 賦值給所有的節點。圖神經網絡能捕捉到這一邏輯嗎?從直觀上來看是不能,因為圖神經網絡是一種消息傳遞機制,如果圖的一部分和另一部分(兩個連接的組件)之間沒有鏈接,那么這兩者之間將不會傳遞消息。因此,一個建議的簡單解決方案是在鄰域聚合之后添加一個讀出操作,這樣當每個節點更新所有特性時,它就擁有了關于圖中所有其他節點的信息。
理論方面的其他工作包括 Hou 等人的圖神經網絡測量圖信息的使用,以及 Srinivasan 與 Ribeiro 提出的基于角色和基于距離的節點嵌入的等價性。
2. 圖神經網絡的更多應用
在過去的一年中,GNN已經在一些實際任務中進行了應用。包括修復 JavaScript 中的 Bug、玩游戲、回答類似 IQ 的測試、優化 TensorFlow 計算圖、分子生成以及對話系統中的問題生成。
在論文中,作者其提出了一種在Javascript代碼中同時檢測和修復錯誤的方法(HOPPITY: LEARNING GRAPH TRANSFORMATIONS TO DETECT AND FIX BUGS IN PROGRAMS)。具體操作是將代碼轉換為抽象語法樹,然后讓GNN進行預處理以便獲得代碼嵌入,再通過多輪圖形編輯運算符(添加或刪除節點,替換節點值或類型)對其進行修改。為了理解圖形的哪些節點應該修改,論文作者使用了一個指針網絡(Pointer network),該網絡采用了圖形嵌入來選擇節點,以便使用LSTM網絡進行修復。當然,LSTM網絡也接受圖形嵌入和上下文編輯。 類似的應用還體現在上面這篇論文中《LambdaNet: Probabilistic Type Inference using Graph Neural Networks》。來自得克薩斯大學奧斯汀分校的作者研究了如何推斷像Python或TypeScript此類語言的變量類型。更為具體的,作者給出了一個類型依賴超圖(type dependency hypergraph),包含了程序作為節點的變量以及它們之間的關系,如邏輯關系、上下文約束等;然后訓練一個GNN模型來為圖和可能的類型變量產生嵌入,并結合似然率進行預測。 在智商測試類的應用中,上面這篇論文《Abstract Diagrammatic Reasoning with Multiplex Graph Networks》展示了GNN如何進行IQ類測試,例如瑞文測驗(RPM)和圖三段論(DS)。具體的在RPM任務中,矩陣的每一行組成一個圖形,通過前饋模型為其獲取邊緣嵌入,然后進行圖形匯總。由于最后一行有8個可能的答案,因此將創建8個不同的圖,并將每個圖與前兩行連接起來,以通過ResNet模型預測IQ得分。如下圖所示:
DeepMind 的一篇論文《用于優化計算圖的增強遺傳算法學習》(Reinforced Genetic Algorithm Learning for Optimizing Computation Graphs)提出了 一種強化學習算法,可以優化 TensorFlow 計算圖的成本。這些圖是通過標準的消息傳遞圖神經網絡來處理的,圖神經網絡生成與圖中每個節點的調度優先級相對應的離散化嵌入。這些嵌入被輸入到一個遺傳算法 BRKGA 中,該算法決定每個節點的設備放置和調度。通過對該模型進行訓練,優化得到的 TensorFlow 圖的實際計算成本。
類似的炫酷應用還有Chence Shi的分子結構生成《Graph Convolutional Reinforcement Learning》和Jiechuan Jiang玩游戲以及Yu Chen的玩游戲等等《Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation》。
3. 知識圖譜將會變得更為流行
在ICLR2020會議上,有很多關于知識圖譜推理的論文。從本質上講,知識圖譜是一種表示事實的結構化方法。與一般的圖不同,知識圖譜中的節點和邊實際上具有某種意義,例如,演員的名字或在電影中的表演(見下圖)。知識圖譜的一個常見問題是回答一些復雜的查詢,例如“在 2000 年前,Steven Spielberg 的哪些電影獲得了奧斯卡獎?”可以將其轉換成邏輯查詢 ∨ {Win(Oscar, V) ∧ Directed(Spielberg, V) ∧ ProducedBefore(2000, V) }。
知識圖譜例子
在 斯坦福大學Ren 等人的論文《Query2box:基于框嵌入的向量空間中知識圖譜的推理》(Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings)中,作者建議 將查詢嵌入到潛在空間中作為矩形框形式,而不是作為單點形式。這種方法允許執行自然的相交操作,即合取 ∧,因為它會產生新的矩形框。但是,對聯合(即析取 ∨)進行建模并不是那么簡單,因為它可能會導致不重疊的區域。此外,為了精確建模任何帶有嵌入的查詢,用 VC 維(Vapnik-Chervonenkis Dimension)度量的嵌入之間的距離函數的復雜度應與圖中實體的數量成正比。取而代之的一個很好的技巧是,將一個析取式查詢替換為 DNF 形式,其中只有在計算圖的末尾才會出現聯合,這可以有效地減少對每個子查詢的簡單舉例計算。
Query2Box 推理框架
在類似的主題中,Wang 等人在題為《知識圖譜中數字規則的可微學習》(Differentiable Learning of Numerical Rules in Knowledge Graphs)中,提出了一種使用處理數值實體和規則的方法。例如,對于引用知識圖譜,可以有一個規則 influences(Y,X) ← colleagueOf(Z,Y) ∧ supervisorOf(Z,X) ∧ hasCitation>(Y,Z),它指出,學生 X 通常會受到他們的導師 Z 的同事 Y 的影響,后者被引用的次數更多。這個規則右邊的每個關系都可以表示為一個矩陣,尋找缺失鏈接的過程可以通過實體向量的連續矩陣乘法,這一過程稱為規則學習(Rule Learning)。由于矩陣的構造方式,神經方法只能在諸如 colleagueOf(z,y) 這樣的分類規則下工作。該論文作者的貢獻在于,他們提出了一種新穎的方法,通過顯示實際上無需顯式地物化這樣的矩陣,顯著地減少了運行時間,從而有效地利用 hasCitation(y,z) 和否定運算符等數值規則。
引用知識圖譜(Citation KG)示例
在今年的圖神經網絡(或者說機器學習)中經常出現的一個研究方向是:對現有模型的重新評估,以及在一個公平環境中進行測評。
上面這篇文章即是其中一個,他們的研究表明,新模型的性能往往取決于試驗訓練中的“次要”細節,例如損失函數的形式、正則器、采樣的方案等。在他們進行的大型消融研究中,作者觀察到將舊的方法(例如RESCAL模型)的超參數進行適當調整就可以獲得SOTA性能。
當然在這個領域還有許多其他有趣的工作,Allen et al. 基于對詞嵌入的最新研究,進一步探究了關系與實體的學習表示的隱空間。Asai et al. 則展示了模型如何在回答給定query的Wikipedia圖譜上檢索推理路徑。Tabacof 和 Costabello 討論了圖嵌入模型的概率標定中的一個重要問題,他們指出,目前流行的嵌入模型TransE 和ComplEx(通過將logit函數轉換成sigmoid函數來獲得概率)均存在誤校,即對事實的存在預測不足或預測過度。
4. 新的圖嵌入框架將出現
圖嵌入是圖機器學習的一個長期的研究主題,今年有一些關于我們應該如何學習圖表示的新觀點出現。
康奈爾的Chenhui Deng等人的《GraphZoom: A Multi-level Spectral Approach for Accurate and Scalable Graph Embedding》提出了一種改善運行時間和準確率的方法,可以應用到任何無監督嵌入方法的節點分類問題。
這篇文章的總體思路是,首先將原始圖簡化為更小的圖,這樣可以快速計算節點嵌入,然后再回復原始圖的嵌入。
最初,根據屬性相似度,對原始圖進行額外的邊擴充,這些便對應于節點的k近鄰之間的鏈接。隨后對圖進行粗化:通過局部譜方法將每個節點投影到低維空間中,并聚合成簇。任何無監督的圖嵌入方法(例如DeepWalk、Deep Graph Infomax)都可以在小圖上獲得節點嵌入。在最后一步,得到的節點嵌入(本質上表示簇的嵌入)用平滑操作符迭代地進行廣播,從而防止不同節點具有相同的嵌入。在實驗中,GraphZoom框架相比node2vec和DeepWalk,實現了驚人的 40 倍的加速,準確率也提高了 10%。 已有多篇論文對圖分類問題的研究成果進行了詳細的分析。比薩大學的Federico Errica 等人提出《A Fair Comparison of Graph Neural Networks for Graph Classification 》在圖分類問題上,對GNN模型進行了重新評估。
他們的研究表明,一個不利用圖的拓撲結構(僅適用聚合節點特征)的簡單基線能獲得與SOTA GNN差不多的性能。事實上,這個讓人驚訝的發現,Orlova等人在2015年就已經發表了,但沒有引起大家的廣泛關注。 Skolkovo 科學技術研究院的Ivanov Sergey等人在《Understanding Isomorphism Bias in Graph Data Sets》研究中發現,在MUTAG和IMDB等常用數據集中,即使考慮節點屬性,很多圖也都會具有同構副本。而且,在這些同構圖中,很多都有不同的target標簽,這自然會給分類器引入標簽噪聲。這表明,利用網絡中所有可用的元信息(如節點或邊屬性)來提高模型性能是非常重要的。 另外還有一項工作是UCLA孫怡舟團隊的工作《Are Powerful Graph Neural Nets Necessary? A Dissection on Graph Classification 》。這項工作顯示如果用一個線性近鄰聚合函數取代原有的非線性近鄰聚合函數,模型的性能并不會下降。這與之前大家普遍認為“圖數據集對分類的影響并不大”的觀點是相反的。同時這項工作也引發一個問題,即如何為此類任務找到一個合適的驗證框架。
結論
隨著頂會的論文提交量的增長,我們可以預計,2020 年圖機器學習領域將會涌現許多有趣的成果。我們已經目睹這一領域的轉變,從圖的深度學習的啟發式應用,到更合理的方法和關于圖波形范圍的基本問題。圖神經網絡找到了它的位置,作為一個有效的解決許多實際問題的方法,這些問題可以用圖來表達,但我認為,總體而言,圖機器學習只不過是觸及了我們可以實現的圖論和機器學習的交叉點上所能取得的成果的皮毛,我們應該繼續關注即將到來的結果。
參考鏈接:
//towardsdatascience.com/top-trends-of-graph-machine-learning-in-a3
AI前線:2020 年圖機器學習的熱門趨勢
AI科技評論 火爆的圖機器學習,2020年將有哪些研究趨勢?