亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在過去的十年中,神經網絡在自然語言處理(NLP)領域已經取得了顯著的進展,特別是因為它們能夠從大量的未標記語料庫中學習相關的單詞表征。這些詞嵌入可以在監督訓練中進行遷移移和微調應用到不同的終端應用。最近,在2018年,整個預訓練語言模型的遷移和上下文化能力的保留使得幾乎在每一個NLP基準上都達到了前所未有的性能,有時甚至超過了人類的基準。然而,當模型達到如此令人印象深刻的分數時,它們的理解能力仍然顯得很膚淺,這揭示了基準的局限性,不能為它們的表現因素提供有用的見解,并準確地衡量理解能力。

在本論文中,我們研究了最SOTA模型在兩個重要的信息提取任務(命名實體識別(NER)和關系提取(RE))中關于在未見事實的泛化性能。事實上,傳統基準在提到和關系之間存在重要的詞匯重疊,用于訓練和評估模型,而信息提取的主要興趣是提取以前未知的信息。我們提出了基于提及和與訓練集的關系重疊來分離性能的實證研究,發現預訓練的語言模型主要有利于檢測未見提及,特別是域外提及。雖然這使得它們適合于真正的用例,但可見和未見提及之間仍然存在性能差距,這不利于對新事實的歸納。特別是,即使是最先進的ERE模型也依賴于淺層記憶啟發式,其預測更多地基于論據表面形式而不是上下文。

在這項工作中,我們還鞏固了端到端關系提取評估的基礎,這一基礎被以前的不正確的比較所破壞,并提出了一個更細粒度的評估和理解端到端關系提取模型,以泛化到新的關系。最后,我們提出了在創建未來的模型和數據集時改進上下文合并的想法。

付費5元查看完整內容

相關內容

自然語言處理(NLP)是語言學,計算機科學,信息工程和人工智能的一個子領域,與計算機和人類(自然)語言之間的相互作用有關,尤其是如何對計算機進行編程以處理和分析大量自然語言數據 。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

知識庫上的問答(QA)提供了一種用戶友好的方式來訪問存儲在知識庫中的大量信息。由于最近在深度神經模型的表征學習方面取得的進展,我們在QA系統的性能上取得了巨大的進步。然而,這種深度模型作為黑盒的功能,具有不透明的推理過程,很脆弱,并且提供非常有限的控制(例如,用于調試錯誤的模型預測)。目前還不清楚如何可靠地添加或更新存儲在其模型參數中的知識。

本論文提出了用于回題的非參數模型,該模型將邏輯與知識分離開來。對于一個給定的查詢,所提出的模型能夠從訓練集中的其他上下文相似的查詢中 "即時"得出可解釋的推理模式。我們表明,我們的模型可以無縫地處理新的知識(新的實體和關系),因為它們被不斷地添加到知識庫中。我們的模型對需要子圖推理模式的復雜和組合性自然語言查詢是有效的,甚至在推理模式(邏輯形式)的注釋不可用時也能工作,在多個基準上取得了新的最先進的結果。利用我們的非參數化方法,我們還證明有可能糾正深度QA模型的錯誤預測,而不需要重新訓練,從而為建立更加可控和可調試的QA系統鋪平道路。最后,與深度參數模型相比,本論文證明了非參數推理模型(i)可以更好地概括需要復雜推理的問題,特別是在訓練期間看到的問題數量有限的情況下(ii)可以在新數據增加時更有效地推理,(iii)為其預測提供更多的可解釋性,(iv)更可控和可調試

第一章 引言

自動推理,即計算系統從觀察到的證據中做出新推論的能力,一直是人工智能的一個長期目標。我們對具有豐富多樣語義類型的大型知識庫(KBs)的自動推理感興趣(157;7;14)。無論是自動還是手動構建的知識庫,往往都是不完整的。然而,許多有效的未觀察到的事實可以通過推理從觀察到的KB事實中推斷出來。存儲在知識庫中的大部分信息都是形式為(e1,r, e2)的符號事實,其中e1, e2表示實體,r表示語義關系。因此,知識庫可以被自然地描述為一個圖,其中實體是節點,關系是標記的邊。

訪問存儲在知識庫中的信息的一個有效和用戶友好的方法是向它發出查詢。這種查詢可以是結構化的(如預訂航班的查詢)或非結構化的(如自然語言查詢)。在知識庫上的問答(QA)系統面臨的一個挑戰是處理那些答案沒有直接存儲在知識庫中(作為一個簡單的事實)的查詢,相反,QA模型需要推理,以便從其他觀察到的事實中得出答案。這篇論文的重點是在結構化的KB上建立能夠進行這種推理的QA系統。

由于最近深度神經模型在表征學習方面的進展,我們在QA和KB完成系統的性能方面取得了巨大的進步。然而,這樣的深度模型也有很多實際的不足之處。比如說:

  • 目前的質量保證和知識庫完成模型通常是黑盒式的評分函數,學習實體和關系的固定詞匯的向量表示(9;155;162;55)。模型的參數同時存儲了邏輯和知識,使得模型所使用的底層推理過程不透明,也不清楚。

  • 可以向質量保證系統提出的問題類型基本上是沒有限制的,因此,模型必須學習并存儲在其參數中的推理模式類型是巨大的。此外,在訓練過程中,一個模型可能只遇到每種問題類型的幾個訓練實例。我們表明,KBQA的參數化模型在這樣的環境中很困難(29)。

  • 我們生活在一個不斷發展的世界中,有很多異質性,同時新的實體和關系也在不斷被創造。例如,描述新實體事實的科學論文和維基百科頁面被不斷添加。這些新的發現進一步引發了更多新的事實的推論,每一個事實都有其不同的推理。由于固定的預定義詞匯,目前的知識庫完成模型不能處理新增加的實體和關系,也不能對新數據進行推理。

  • 隨著我們觀察到新證據(數據),人類的推理過程變得更加細微,即新的推理規則出現,現有的推理規則隨著新數據的加入而演變。目前還不清楚如何穩健地更新深度神經模型的參數來編碼更新的(和新的推理規則)。正如我們在論文后面所顯示的,模型在對新到的數據進行訓練時,往往會出現災難性的遺忘,即模型已經忘記了它之前所學的東西(28;31)。

  • 最后,當模型對一個給定的問題輸出錯誤的預測時,它們為我們提供的見解和對錯誤預測的調試控制非常有限(31)。我們表明,非參數模型讓我們有新的機會來修復錯誤的模型預測,讓我們向KNN記憶 "注入 "案例,使模型更有可解釋性和可控性。

1.1 期望

我們希望為大型知識庫的問答設計準確的模型,并具有以下理想的特性:

  • 適用于新加入的數據。我們需要能夠與動態世界無縫推理的模型。這意味著模型應該能夠處理新的實體和關系,以及隨著新數據的加入而出現的新的(潛在的)推理規則。

  • 準確地回答需要復雜推理模式的各種自然語言查詢。知識庫的自然語言界面為存儲在其中的信息提供了一種用戶友好的訪問方式。自然語言查詢還允許我們提出更復雜的問題,這些問題很難用單一的知識庫關系來表達。此外,看似簡單的問題可能需要涉及KB中多個事實的復雜推理(例如,居里家族的成員獲得了多少諾貝爾獎?) 回答許多這樣的問題所需要的推理模式是子圖的形狀,而且往往比簡單的推理鏈更復雜。我們需要能夠對復雜的(潛在的)子圖圖譜進行所需的推理的模型,以準確回答此類問題。

  • 具有可控性和可調試性的可解釋推理過程。目前的QA和KB完成模型作為黑盒的功能,對其推理過程提供了有限的見解。此外,當它們對一個查詢輸出錯誤的預測時,除了在失敗的輸入上重新訓練模型外,我們沒有什么可以做的。我們需要的模型不僅在如何得出查詢的答案方面提供更多的透明度,而且是可控制和可調試的,對如何修復錯誤的模型預測提供更好的洞察力。

1.2 已完成的工作總結

本論文提出建立模型,將邏輯與存儲在模型參數中的數據分離開來。所建議的模型不是記憶數據并將其存儲在參數中,而是學習如何瀏覽知識圖譜來回答一個給定的查詢。我們提出的解決方案MINERVA(26),將知識圖譜(KG)視為強化學習(RL)框架中的一個環境。從對應于查詢實體的節點開始,MINERVA通過從所有邊的集合(行動空間)中選擇一條出站邊來遍歷知識圖譜。這樣重復進行,直到代理決定在它認為是答案的節點上停止。在訓練過程中,如果終端節點是給定查詢的答案,環境就會給予積極的獎勵。應該強調的是,MINERVA不是記憶KG,而是學習如何為給定的查詢進行導航。這使得MINERVA能夠泛化到包含未見過的實體的圖的新部分。此外,所穿越的關系邊的序列也為模型所采用的推理過程提供了可解釋性。然而,瀏覽KG的邏輯,即下一步選擇哪條關系邊緣,完全是由模型的參數來編碼的。這意味著MINERVA將無法適應添加到KG中的新關系,因為沒有經過訓練的參數來適應它們。另外,隨著新信息的加入,現有的規則會不斷演變,新的推理規則也會出現。隨著新數據的加入,MINERVA將無法使用新的(或進化的)規則進行推理(無需重新訓練)。

為了能夠對動態世界進行推理,我們提出了能夠進行非參數和背景推理的模型(27)。給定一個關于新實體的查詢,我們的模型在我們觀察到查詢關系的KG中找到其他上下文相似的實體。接下來,我們收集多個推理路徑,將檢索到的實體與使用查詢關系的實體相連接。最后,這些推理路徑會在查詢實體周圍的子圖中被遍歷,從而得出答案。這種非參數化的方法使我們能夠與新到達的數據進行無縫推理。回答一個新增加的實體的查詢所需的推理模式可以從知識庫中的現有實體中導出。同樣地,任何新增加的數據都可以被納入,以完善對現有實體的查詢的預測。(27)中提出的算法對從上下文實體中收集的所有路徑進行了平等處理。然而,并不是所有的路徑對推理都同樣重要。事實上,經常存在一些 "虛假 "的路徑,它們將問題實體與答案實體連接起來,但并不是有效的推理鏈。為了處理這種情況,我們提出了一種概率方法,用先驗分和精確分來衡量每條推理路徑(28)。我們證明了我們簡單的基于CBR的方法不僅在各種知識庫完成基準上取得了最先進的性能(168;187),而且在一個具有挑戰性的開放世界知識庫完成設置中,以很大的幅度超過了SOTA模型,在這個世界中,新的實體和事實正在不斷地被添加。

本論文到目前為止所描述的工作,接受結構化查詢(e1,r,?)作為輸入。如前所述,知識庫的自然語言界面為用戶提供了對知識庫中存儲信息的友好訪問。自然語言(NL)查詢也允許我們提出難以用單一KB關系表達的問題。為了處理復雜的NL查詢,我們引入了一種非參數化的語義解析方法,從訓練集中檢索其他類似的NL查詢及其邏輯形式。然后,一個神經編碼器-解碼器模型以檢索到的案例為條件,得出給定查詢的邏輯形式(31)。我們表明,我們提出的方法對復雜的組合性問題非常有效,這些問題需要在訓練過程中沒有看到的新的KB關系組合,從而在多個KBQA數據集(192;164;77)中獲得最先進的結果。

上述方法讓人想起幾十年前經典人工智能中提出的非參數框架--基于案例的推理(147;84)。一個CBR系統(1)的簡圖包括:(i)一個檢索模塊,其中檢索與給定問題相似的 "案例",(ii)一個重用模塊,其中重新使用檢索到的案例的解決方案來合成一個新的解決方案。通常情況下,新的解決方案不起作用,需要更多的修改,這由(iii)修改模塊來處理。最近,在質量保證方面有很多工作,從非參數存儲器中檢索相關證據(59;94;75)。另一項工作(96)是從文件中預先生成一個大的問題集。回答一個問題可以歸結為在生成的列表中找到最相似的問題解析(使用KNN搜索)并返回相應的答案。

相比之下,我們的CBR方法是從訓練數據(或KG)中檢索與給定查詢有關聯的查詢(或一個實體)。檢索到的查詢不需要是轉述,但應該有關系上的相似性(例如,對于 "哪些國家與美國接壤?"的查詢,一個最近的鄰居問題可能是 "哪些國家與印度接壤?") 接下來,它找到解釋解決所檢索查詢的推理模式(KG路徑或子圖)。最后,檢索到的推理模式被用來推導出一個適用于給定查詢的推理模式。與(96)提出的方法相比,我們認為我們的方法(31)是一種更穩健的非參數推理方式,因為不能保證所有問題都能從文檔中預先生成。

然而,以前的工作(31)需要在訓練過程中對邏輯形式進行注釋,這對大規模的注釋來說是非常昂貴的。此外,一個模式的注釋并不能推廣到不同的模式。我們假設在一個大的知識庫中,回答一個查詢類型所需的推理模式在它們各自的子圖鄰域中的各種實體中重復出現(29)。利用不同子圖的局部鄰域之間的這種結構相似性,我們引入了一個半參數模型,包括:(i)一個非參數組件,對于每個查詢,動態地檢索其他類似的k-近鄰(KNN)訓練查詢以及查詢特定的子圖;(ii)一個參數組件,它被訓練來識別來自KNN查詢子圖的(潛在)推理模式,然后將其應用于目標查詢的子圖。我們還提出了一種新的算法,從大規模知識圖譜(KG)中選擇一個特定于查詢的緊湊子圖,使我們能夠擴展到包含數十億條邊的完整Freebase KG。

最后,本論文探討了非參數模型的另一個有用屬性。當QA模型對一個查詢輸出錯誤的預測時,非參數模型給我們提供了一個機會,通過向KNN索引注入相關案例來 "修復 "錯誤的預測。另一個選擇是在失敗的輸入上訓練模型,但我們發現,除非在失敗的例子上進行仔細的微調,否則模型經常表現出災難性的遺忘。相反,我們表明,在向KNN索引添加一些簡單的案例(查詢,邏輯形式對)時,我們的模型能夠檢索到新添加的案例,并使用它來推導出正確的邏輯形式,本質上修復了錯誤的預測。我們利用這一特性來證明,一個質量保證模型可以被用來回答那些需要關系的查詢,而該模型從未被訓練過,這為實現實用的生產準備模型鋪平了道路。

1.3 本文背景下的推理

歸納推理是一種邏輯推理的形式,它使用觀察結果來合成一般原則,而這些原則又被用來對未觀察到的事物進行預測(72)。大多數機器學習(ML)方法都可以說是屬于這一類推理,其中學習的參數編碼了這些一般原則,對未觀察到的數據的預測涉及模型參數與輸入特征的加權組合。ML方法(尤其是深度神經網絡)在泛化精度上有了很大的提高,然而,要理解模型參數中所捕捉到的基本泛化原則變得越來越困難。

相反,演繹推理從一組前提(如一組規則)開始,然后根據這些規則得出新的結論。任何通過演繹得出的新結論都可以通過遵循推導過程中使用的推理步驟來清晰地理解。然而,在大多數實際案例中,完整的規則/前提集是未知的。

本論文中提出的大多數工作都結合了歸納推理和演繹推理的優點。例如,MINERVA(第2章)從數據中誘導出通用角條款并將其存儲在其參數中,但是在推理過程中,它不是直接輸出一個答案實體,而是通過遵循學到的推理規則遍歷KG。同樣地,CBR(第3章)從KB中針對一個給定的查詢實體,從其他類似的實體中飛快地誘導出象征性的加權角條款,最終的答案是通過這些規則的演繹而得到的。在CBR-KBQA(第四章)中,一個神經網絡學習從類似查詢的注釋規則中復制相關關系。然后,神經網絡輸出查詢的邏輯形式(歸納法),然后針對KB執行(演繹法)。因為有了歸納和演繹的成分,論文中的模型享有很高的準確性和可解釋性。

我還想指出,本論文中提出的工作也不同于Peirce的歸納推理(63),其目的是找到最可能解釋觀察的規則。相反,本論文中的所有工作都推導出多種推理規則,并利用這些規則推導出結論。

表1.1: 本論文中提出的方法在學習的規則結構方面的分類,它們被儲存在哪里,以及這些規則如何被模型執行。

表1.1對本文介紹的方法進行了分類,包括所學規則的結構、存儲位置以及規則的執行方式。在MINERVA和CBR中,學到的規則是一連串的KB關系或代表角句的關系鏈。在CBR-KBQA中,規則采取任意子圖的形式(表示為SPARQL查詢),而在CBR-SUBG中,規則是(潛在的)子圖模式,在多個近鄰查詢的子圖中重復。在MINERVA中,規則被編碼在策略網絡的參數中。在CBR中,對于一個給定的查詢實體和關系,規則是從其他類似的實體中即時衍生出來的。這些規則是符號化的,存儲在表格中。在PRCBR(28)中,每個規則都與所有可能的KB查詢關系的標量分數有關。在CBR-KBQA和CBR-SUBG中,規則是根據上下文檢索的。例如,對于CBR-KBQA,每個檢索到的問題都與一個注釋的SPARQL查詢配對,對于CBR-SUBG,每個檢索到的查詢子圖都包含潛在的推理子圖。CBR-KBQA和CBR-SUBG的參數組件學習從上下文中存在的規則中識別所需的關系集,并輸出一個邏輯形式(對于CBR-KBQA)或一個答案實體節點(對于CBR-SUBG)。最后,對于MINERVA和CBR來說,規則是通過遵循誘導規則遍歷KG來執行的(推理)。在CBR-KBQA中,學到的規則可以用SPARQL解釋器針對KB執行。最后,在CBR-SUBG中,節點表示是通過消息傳遞形成的,它(希望)在回答節點的表示中編碼推理子圖。然后,查詢子圖中的答案節點通過對檢索到的KNN問題的已知答案節點進行相似性搜索來確定。

1.4 本文組織

本論文建議文件組織如下。

第二章,介紹了我們提出的模型(MINERVA),該模型參數中的邏輯與知識解耦。我們將演示MINERVA如何在KG上行走,以找到一個給定查詢的答案。

第三章,我們描述了我們的非參數推理方法來完成知識庫,并在一個具有挑戰性的開放世界的知識圖譜完成環境中證明了其功效。

第四章將我們的非參數方法擴展到自然語言中復雜的組合查詢。利用我們模型的非參數屬性,我們表明有可能 "修復 "深度QA模型的錯誤預測,而不需要重新訓練它們。

第五章,描述了我們的解決方案,即對需要復雜子圖推理模式的問題進行KBQA,而不需要在訓練中注釋邏輯形式。我們表明,我們提出的模型(CBR-SUBG)可以回答需要復雜推理模式的問題,即使它在訓練期間只看到少數問題類型的例子;可以泛化到包含全新實體的圖,并令人信服地超過基于路徑的模型。我們還表明,模型的性能,以真正的非參數方式,隨著更多證據(類似問題)的檢索而增加。

付費5元查看完整內容

隨著互聯網的興起,每天都有不同形式的大量的文本數據產生:新聞、研究文獻、 博客、論壇文字以及社交媒體評論等。很多重要有用的信息隱藏在其中,如何從這些自 由文本中自動抽取所需要的信息是一個關鍵并且重要的一步。信息抽取任務就是為此目 標而誕生。本文主要研究信息抽取子任務之一的實體關系抽取任務。該任務旨在識別文 本中出現的實體,并判斷出實體之間存在的關系。

傳統的有監督實體關系抽取通常采用基于流水線的方法,即實體模型和關系模型 分開訓練。在測試階段,先用實體模型識別出實體,然后關系模型找出這些實體之間的 關系。這種流水線的方法存在著錯誤傳播的缺點,前一個任務的錯誤會累積到后一個任 務。為了緩解這一問題,研究人員提出了聯合模型。聯合模型將兩個子模型統一建模, 可以進一步利用兩個任務之間的潛在信息,以緩解錯誤傳播的缺點。聯合模型的難點是 如何加強實體模型和關系模型之間的交互,比如實體模型和關系模型的輸出之間存在著 一定的約束,在建模的時候考慮到此類約束將有助于聯合模型的性能。

另一方面,為了解決實體關系抽取數據集難以獲得的問題,遠程監督的方法也被提 出來。其主要思想是利用知識庫和大規模文本數據對齊,自動構建大規模的訓練集。然 而,遠程監督方法的缺點是自動構建的訓練集中存在著很多的噪音數據,這些噪音數據 的存在對遠程監督實體關系抽取有著很大的負面影響。此外,在有些應用場景中可能沒 有現成的知識庫可以用來進行遠程監督,如何解決類似的數據噪音和數據缺失問題也是 一大挑戰。

根據實體關系抽取方法的研究現狀,本文從數據和聯合模型兩個角度探索了幾種實 體關系抽取聯合模型,并且探究了所提出模型的優勢和不足。具體來說,本文的主要貢 獻有

    1. 為了緩解遠程監督中的噪音樣本問題,本文提出利用少量高質量異構的人工標注 數據集幫助遠程監督實體關系抽取任務。本文設計了一個基于多任務學習的融合 框架,并且在融合過程中考慮到子模型之間的一致性約束,從而實現知識的遷移。本文提出的系統在標準遠程監督數據集能夠顯著的提高聯合抽取的性能(數據角 度)。
    1. 為了解決某些領域沒有現成知識庫無法進行遠程監督的問題,本文提出利用語言 學規則進行遠程監督。首先應用領域無關的語言學規則自動構建訓練集,然后使用 分類器在得到的訓練集上進行訓練,最后利用分類器進一步抽取語言學規則無法 覆蓋的新的實體關系。本文提出的算法很快并且適用于大規模數據。在 Amazon 在 i 線評論數據集上的實驗表明了本文提出的算法明顯優于多個基準模型(數據角度)。
    1. 為了加強實體模型和關系模型之間的交互,本文提出基于風險最小化訓練方法的 聯合實體關系抽取模型,通過優化全局的損失函數以達到加強實體模型和關系模 型之間聯系的目的。在 ACE05 數據集上的實驗證明了提出模型的有效性(聯合模 型角度)。
    1. 為了同時考慮到實體類型和關系類型的信息,本文提出一個基于圖卷積網絡的聯 合模型用于實體關系抽取。我們構造了實體-關系二分圖,并在圖上運行圖卷積網 絡,從而捕獲多個實體和多個關系之間的信息。在 ACE05 數據集上的實驗證明了 提出模型的有效性(聯合模型角度)。

//www.czsun.site/

付費5元查看完整內容

作者:秦禹嘉、林衍凱、高信龍一、劉知遠、李鵬、季姮、黃民烈、孫茂松、周杰

類型:Long Paper

摘要:預訓練語言模型在各種自然語言處理任務上顯示出卓越的性能。但是常規的預訓練語言模型并未學會在文本中建模實體的關系事實(relational facts),而這對于理解文本至關重要。為了解決這個問題,我們提出了一種新穎的對比學習框架ERICA,以幫助預訓練模型深入了解文本中的實體(entity)及其關系(relation)。具體來說,我們定義了兩個新穎的預訓練任務:(1)實體區分(entity discrimination)任務,給定頭部實體和關系,訓練模型推斷出對應尾部實體;(2)關系區分(relation discrimination)任務,區分兩個關系在語義上是否接近,這涉及復雜的關系推理。實驗結果表明,ERICA可以在多種語言理解任務(包括關系抽取,實體類型分辨和問答),尤其是在資源匱乏的環境下,提升預訓練模型的性能。該工作與騰訊微信模式識別中心、伊利諾伊大學厄巴納-香檳分校(UIUC)合作完成。

付費5元查看完整內容

持續學習變得越來越重要,因為它使NLP模型能夠隨著時間的推移不斷地學習和獲取知識。以往的持續學習方法主要是為了保存之前任務的知識,并沒有很好地將模型推廣到新的任務中。在這項工作中,我們提出了一種基于信息分解的正則化方法用于文本分類的持續學習。我們提出的方法首先將文本隱藏空間分解為對所有任務都適用的表示形式和對每個單獨任務都適用的表示形式,并進一步對這些表示形式進行不同的規格化,以更好地約束一般化所需的知識。我們還介紹了兩個簡單的輔助任務:下一個句子預測和任務id預測,以學習更好的通用和特定表示空間。在大規模基準上進行的實驗證明了我們的方法在不同序列和長度的連續文本分類任務中的有效性。

付費5元查看完整內容

本篇推薦來自CMU-LTI的小姐姐Zhuyun Dai博士論文《Neural Matching and Importance Learning in Information Retrieval》,是信息檢索領域值得關注的最新工作。

作者介紹:

Zhuyun Dai

卡內基梅隆大學語言技術學院(LTI)的博士生。研究方向是提升當今信息檢索系統的語言理解能力,構建下一代信息助理系統,幫助人們無縫地獲取世界上的知識。

//www.cs.cmu.edu/~zhuyund/index.html

信息檢索中的神經匹配與重要性學習

地址:

在50-60年的時間里,信息檢索(IR)系統依賴于詞匯袋方法。盡管詞包檢索有一些長期存在的限制,但解決這些問題的嘗試大多是不成功的。最近,神經網絡為自然語言建模提供了一種新的范式。這篇論文的目的是結合IR的觀點和神經網絡的關鍵優勢,以帶來更深入的語言理解IR。

本論文的第一部分主要研究如何匹配查詢和文檔。 最先進的排序器以前依賴于精確的詞匯匹配,這導致了眾所周知的詞匯不匹配問題。本文開發了將軟匹配引入相關性排序的神經模型。利用分布式文本表示,我們的模型可以對每個查詢詞和每個文檔詞進行軟匹配。由于軟匹配信號有噪聲,本文提出了一種新的核池技術,該技術根據軟匹配對相關性的貢獻對軟匹配進行分組。本文還研究了預訓練好的模型參數是否可以改善低資源域,以及模型架構在非文本檢索任務中是否可重用。我們的方法比以前最先進的排名系統有很大的優勢。

本論文的第二部分主要研究如何表示查詢和文檔。一個典型的搜索引擎使用頻率統計來確定單詞的權重,但是頻繁的單詞對文本的意義不一定是必要的。本論文開發的神經網絡,以估計詞的重要性,基于如何相互作用的語言語境。開發了一種弱監督方法,允許在沒有任何人工注釋的情況下訓練我們的模型。我們的模型可以離線運行,在不影響效率的前提下顯著提高了第一階段的檢索。

總之,本文提出了一種新的神經檢索范式,克服了傳統檢索模型在匹配和重要性加權方面的局限性。在神經相關性排序、深度檢索模型和深度文檔理解等方面提出了一些有前景的方法。

付費5元查看完整內容

論文摘要:

教機器理解人類語言文檔是人工智能中最難以捉摸和長期存在的挑戰之一。本文探討了閱讀理解的問題:如何構建計算機系統來閱讀文章和回答理解問題。一方面,我們認為閱讀理解是評價計算機系統對人類語言理解程度的一項重要任務。另一方面,如果我們能夠構建高性能的閱讀理解系統,那么它將成為問答和對話系統等應用的關鍵技術。本文以神經閱讀理解為研究對象:一種基于深度神經網絡的閱讀理解模型。與傳統的稀疏的、手工設計的基于特征的模型相比,這些端到端神經模型在學習豐富的語言現象方面更加有效,并且在所有現代閱讀理解基準上的表現都有很大的提高。本文由兩部分組成。第一部分是對神經閱讀理解的本質進行概括,介紹我們在構建有效的神經閱讀理解模型方面所做的努力,更重要的是了解神經閱讀理解模型實際學到了什么,以及解決當前任務需要什么樣的語言理解深度。我們還總結了該領域的最新進展,討論了該領域的未來發展方向和有待解決的問題。在本文的第二部分,我們探討了如何在最近神經閱讀理解成功的基礎上建立實際應用。特別是,我們開創了兩個新的研究方向:1)如何將信息檢索技術與神經閱讀理解相結合,解決大規模開放領域的問題;(2)如何從當前的單圈、跨步閱讀理解模式中構建會話問答系統。我們在DrQA和CoQA項目中實現了這些想法,并證明了這些方法的有效性。我們相信他們對推動未來的語言技術有很大幫助。

付費5元查看完整內容
北京阿比特科技有限公司