【導讀】最近在人工智能和機器學習方面的研究開始越來越多的強調通用學習以及越來越大的訓練集和越來越多的計算。相比之下,作者提出了一種混合的、知識驅動的、基于推理的方法,該方法以認知模型為核心。與目前的方法相比,作者提出的模型可以為人工智能提供更豐富、更健壯的基礎。
1.朝著‘強‘’人工智能前進
雖然沒有人確切地知道在未來的幾十年里,深度學習或人工智能將會發展成什么樣子,但如果我們要達到一個新的水平,有必要考慮一下我們從過去十年中學到了什么,以及接下來應該研究什么。
讓我們暫且稱呼這種新級別的人工智能為‘強’人工智能:智能,盡管不一定是具有超人一樣的能力或者能夠自我提高的能力,但是我們可以指望這種級別的智能能夠以一種系統和可靠的方式把它所知道的應用到廣泛的問題上,綜合各種來源的知識,能夠靈活和動態地對世界進行推理。把它在一種環境中所學習到的東西遷移到另一種環境中,就像我們期望一個普通成年人能夠舉一反三一樣。
2.一種混合的,知識驅動的,基于認知模型的方法
許多認知科學家,包括我自己,都把認知視為一種循環:生物從外界獲取感知信息,他們會基于他們所獲取到的信息構建一個模型,然后根據這些認知模型作出決定。這其中可能會包括在外部世界中包含哪些種類的實體信息,他們的屬性是什么,這些實體之間是如何關聯到一起的。盡管認知科學家普遍將這些認知模型視為不完善或者不精確的模型,但是依舊把它們看作是生物體看待世界的核心。即使是不完美的,認知模型也可以作為一個強大的指南來認知世界。在很大程度上,一個有機體在世界上的繁榮程度取決于這些內部認知模型的好壞。
2.1混合架構
我們對變量符號的操作提供了一個潛在的答案——這一解決方案每天都要被使用數萬億次,幾乎是全世界所有軟件的基礎。特別是,幾乎每個計算機程序都有四個基本概念作為基礎:變量、實例、將變量綁定到實例以及變量上的操作。而混合本身并不是什么新鮮事:Pinker和我三十年前就提出孩子們學習英語過去式的最好方法就是混合模式:規則(在動詞干上加-ed),用于形成規則動詞的過去式,以及類似神經網絡的系統,用于獲取和檢索不規則動詞。事實上,將符號知識和感性知識結合的需求由來已久(如人們希望通過把對馬的外貌的感性認識與把斑馬比作條紋馬的口頭定義結合起來識別斑馬)。而計算機科學家在90年代就開始提倡混合模型,并且已經證明了將有限的邏輯子集轉化為神經網絡是可能的。
2.2大規模的數據當中有些是抽象的,具有因果關系的
我們可以操作符號對抽象知識進行表示,但如何積累和表示抽象知識到目前為止依舊是一項艱苦的工作,所取得的成績遠遠不能令人滿意。另外目前的大型數據庫如谷歌知識圖譜、Freebase和YAGO主要關注事實而不是常識,這導致我們不能很好的理解和使用這些抽象的知識數據。
2.3推理
推理提供了另外一種選擇;你不需要記住所有的東西,也不需要在你之前可能遇到過的近鄰之間進行插值,你只需要進行推理。而不是強行記住一些東西。你需要學習一個普遍的真理:所有人類都是終有一死的,并根據需要將這一普遍真理應用于這一范疇內的所有具體實例。正如我們所看到的那樣,諸如Transformers這樣的神經網絡也不能作出值得信賴的推理。它們有時可能奏效,但效果不佳;但是好在只要有足夠的知識,他們至少提供了朝著正確方向前進的希望。
2.4 認知模型
特殊類型的知識是隨著時間的推移積累起來的關于事物特定狀態的知識,諸如在一次交談之中我們會對朋友有所了解,閱讀新聞時會對國家的某些事物有所了解。在認知心理學中,我們把這種累積表征稱為認知模型。總的來說,認知模型大體上有一些實體知識(故事中的人物和他們擁有的物品),一些屬性和一些時間,事件信息(人物x在時間t會見了人物y,在時間t,人物x了解到了什么信息)組成。
3.討論
3.1 把持久的知識作為基礎的智能
沒有我們,或者像我們這樣的其他生物,世界將繼續存在,但它不會被描述、提煉或理解。鳥兒可能會拍打翅膀,鳥兒可能會飛翔。事物之間也許會有關聯,但沒有因果描述。人類的生活將充滿抽象和因果。我們的孩子會花大量時間問為什么;科學家提出這些問題是為了得出理論。我們力量的一個重要部分來自于我們以科學、文化和技術的形式去努力理解和描述這個世界。這些努力大多以知識的形式表現出來,有些是具體的,有些是籠統的,有些是口頭的,有些是寫于紙面的。經典人工智能的主要目標是將這些知識提煉成機器可解釋的形式。
3.2 逐步窺探事物全貌
深度學習向我們展示了從大量數據中可以學到多少有用的東西。同現統計和類似的統計可能只是可靠知識的影子,但肯定有很多類似影子,也許我們可以利用這些影子。只要我們敏銳地意識到它們的長處和局限性就可以掌握更加復雜的技術。
3.3 結論,展望和啟示
我提出了一個四步走方案:首先完善神經-符號混合架構,然后是建立豐富的、具有認知能力的框架和大規模的知識數據庫,隨后進一步開發能夠用在此類框架上進行抽象推理的工具,最后,發展更復雜的認知模型和歸納機制。綜上所述,這四個先決條件的進展可以為更豐富、更智能的系統提供基礎。我認為這將重新定義我們學習的意義,產生一種(也許是新的)學習方式,通過抽象的、類似語言的歸納,從數據到知識和認知模型,將推理真正作為學習過程的一部分。
指南簡介
最近神經網絡在計算機視覺、機器翻譯和時間序列預測等問題上得到了重大突破,但它們也可以與強化學習算法相結合,創造出像AlphaGo這樣令人震驚的東西。強化學習指的是面向目標的算法,它學習如何獲得復雜的目標(目標)或在許多步驟中沿著特定的維度最大化;例如,在許多動作中最大化在游戲中贏得的分數。他們可以從一塊白板開始,在適當的條件下,他們可以達到超人的表現。就像一個被鞭打和糖果激勵的孩子,當他們做出錯誤的決定時,這些算法會受到懲罰,當他們做出正確的決定時,這些算法會得到獎勵——這就是強化。包含深度學習的強化算法可以在圍棋游戲中擊敗世界冠軍,也可以在玩許多阿塔里電子游戲的人類專家。雖然這聽起來微不足道,但與他們之前的成就相比,這是一個巨大的進步,目前的技術正在迅速進步。強化學習解決了將即時行為與其產生的延遲回報關聯起來的難題。與人類一樣,強化學習算法有時需要等待一段時間才能看到決策的成果。它們在延遲返回的環境中運行,在這種環境中,很難理解在許多時間步驟中哪些操作會導致哪些結果。強化學習算法可以期望在更模糊、真實的環境中執行得越來越好,同時可以從任意數量的可能動作中進行選擇,而不是從視頻游戲的有限選項中進行選擇。也就是說,隨著時間的推移,我們期望它們對實現現實世界中的目標是有價值的。Skymind將深度強化學習應用于真實世界用例的模擬,以幫助企業優化他們如何建立工廠、員工呼叫中心、建立倉庫和供應鏈以及管理流量。
內容目錄