• / 44
  • 下載費用:30 金幣  

多詞單元提取方法和設備及人工神經網絡訓練方法和設備.pdf

關 鍵 詞:
單元 提取 方法 設備 人工 神經網絡 訓練
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201210320806.X

申請日:

2012.08.31

公開號:

CN103678318A

公開日:

2014.03.26

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20120831|||公開
IPC分類號: G06F17/30; G06N3/08 主分類號: G06F17/30
申請人: 富士通株式會社
發明人: 付亦雯; 葛乃晟; 鄭仲光; 孟遙; 于浩
地址: 日本神奈川縣
優先權:
專利代理機構: 北京集佳知識產權代理有限公司 11227 代理人: 王萍;李春暉
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201210320806.X

授權公告號:

||||||

法律狀態公告日:

2016.12.21|||2014.04.23|||2014.03.26

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本申請公開了一種多詞單元提取方法和設備及人工神經網絡訓練方法和設備。提取多詞單元的方法包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的語言學特征作為特征量;將特征量作為參數輸入到人工神經網絡中;采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一和第二可能性判斷該分詞是否為多詞單元的一部分;提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞以形成多詞單元;以及獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。

權利要求書

權利要求書
1.  一種提取語句中的多詞單元的方法,包括:
針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;
將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;
采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及
提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,
其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。

2.  根據權利要求1中所述的方法,還包括:
依次將所述語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數。

3.  根據權利要求2所述的方法,還包括:
將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及
根據所述泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將所述詞性容錯信息也作為所述N元組中的分詞的特征量。

4.  一種提取語句中的多詞單元的設備,包括:
語言學特征獲取單元,其針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;
輸入單元,其將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;
判斷單元,其采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及
提取單元,其提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,
其中,所述設備還包括:反饋信息獲取單元,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。

5.  根據權利要求4所述的設備,還包括:
組合單元,其依次將所述語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數。

6.  根據權利要求5,還包括:
泛化單元,其將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及
詞性容錯信息獲取單元,其根據所述泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將所述詞性容錯信息也作為所述N元組中的分詞的特征量。

7.  一種訓練人工神經網絡的方法,所述人工神經網絡用于提取語句中的多詞單元,所述方法包括:
針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,所述訓練語句中的多詞單元已被標注;
將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;
采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及
根據判斷的結果和標注的結果,來訓練所述人工神經網絡,
其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。

8.  根據權利要求7所述的方法,還包括:
依次將所述訓練語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數。

9.  根據權利要求8所述的方法,還包括:
將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及
根據標注的結果和所述泛化N元組中的分詞的詞形特征和詞性特征,計算所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,以生成詞性容錯模板。

10.  一種訓練人工神經網絡的設備,所述人工神經網絡用于提取語句中的多詞單元,所述設備包括:
語言學特征獲取裝置,其針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,所述訓練語句中的多詞單元已被標注;
輸入裝置,其將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;
判斷裝置,采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及
訓練裝置,其根據判斷的結果和標注的結果,來訓練所述人工神經網絡,
其中,所述設備還包括:反饋信息獲取裝置,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊的特征量。

說明書

說明書多詞單元提取方法和設備及人工神經網絡訓練方法和設備
技術領域
本申請總體上涉及自然語言處理的領域,尤其涉及提取語句中的多詞單元的方法和設備以及訓練用于提取語句中的多詞單元的人工神經網絡的方法和設備。
背景技術
經典的自然語言處理系統通常假設每個詞為一個語義單元,但是這并沒有包含多詞單元的情形。多詞單元跨越詞的邊界,因而多詞單元有著特殊的解讀方法。識別和提取多詞單元是多詞單元處理領域的主要關注點,并且也被認為是進一步研究的瓶頸。多詞單元是自然語言處理中比較普遍并且沒有精確定義的一個概念。一般,多詞單元指的是兩個或兩個以上的詞單元同時出現在一起的概率相對較高的詞組合,并且該詞組合具有完整的語義。多詞單元在自然語言處理領域是相當普遍的現象,因此多詞單元的識別和提取非常重要。由于沒有充足的詞搭配知識,并且詞組合信息分散于各個分詞之中,因此將分開的詞根據原意重新組合以成為獨立語義單元,從而獲得原來的完整語義是非常困難的,尤其是處理像中文這種文字間沒有分割的語言。
多詞單元的識別和提取可廣泛應用于機器翻譯、高效句法分析、優化信息檢索和詞義消歧等方面。目前普遍應用于識別和提取多詞單元的方法有排序方法、局部最大值方法(Local Maxima)和條件隨機場方法(Conditional Random Fields)等。在識別和提取多詞單元時使用的特征值包括分詞間互信息、t分數、熵和共現頻率等。另外,識別和提取多詞單元還涉及分詞工具、詞形標注工具、詞性標注工具和停詞表等的使用。
現有技術中的識別和提取多詞單元的方法基本上采用如下過程:對目標語句進行分詞和/或詞性標注;根據分析和/或詞性標注的結果計算相應的特征值,例如頻率、分詞共現率和互信息等;以及根據所計算的特征值使用特定算法或模型對候選多詞單元進行篩選,從而得到比較準確的多詞單元。但是,現有技術中的方法無法保證對目標語句進行分詞和/或詞性 標注的準確性,從而經常引入錯誤信息,導致訓練過程中的信息本身就包含相互矛盾的數據,或者導致實際應用中的特征值本身與實際情況有偏差。
多詞單元是與短語或詞塊不同的概念,因此多詞單元的識別和提取方法不同于短語或詞塊的識別和提取方法。具體地,短語中的某些介詞短語并不具有完整的語義,因此利用短語的識別和提取方法來識別和提取多詞單元并不能取得良好的效果。另外,詞塊是定義在句法層面中的,因此在識別和提取詞塊時需要考慮組成詞塊的句法信息和詞性信息,對于語義的完整性并沒有嚴格的要求,所以將詞塊的識別和提取方法應用到多詞單元的識別和提取也是不可行的。
因此,期望提供一種提取語句中的多詞單元的方法和設備,其能夠提高多詞單元的識別和提取的準確性和效率。
發明內容
在下文中將給出關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
本發明將人工神經網絡應用到多詞單元的識別和提取。人工神經網絡是一種模擬動物神經網絡行為特征來進行分布式并行信息處理的算法模型。人工神經網絡依靠系統的復雜程度,通過調整內部大量節點之間的相互連接關系,達到處理信息的目的。人工神經網絡包括大量的節點及其之間的相互連接。人工神經網絡中的每個節點表示一種特定的輸出函數,節點之間的連接表示對應于該連接的加權值,稱之為權重,其相當于人工神經網絡的記憶。人工神經網絡的輸出根據人工神經網絡的連接方式、權重值和輸出函數的不同而不同。
根據本發明的實施例,提供了一種提取語句中的多詞單元的方法,包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;將特征量作為人工神經網絡的參數輸入到人工神經網絡中;采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一 部分的第二可能性,并且根據第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,該方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
根據上述提取語句中的多詞單元的方法,還包括:依次將語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
根據上述提取語句中的多詞單元的方法,還包括:將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及根據泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將詞性容錯信息也作為N元組中的分詞的特征量。
根據本發明的另一實施例,提供了一種提取語句中的多詞單元的設備,包括:語言學特征獲取單元,其針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;輸入單元,其將特征量作為人工神經網絡的參數輸入到人工神經網絡中;判斷單元,其采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取單元,其提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,該設備還包括:反饋信息獲取單元,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊的特征量。
根據上述提取語句中的多詞單元的設備,還包括:組合單元,其依次將語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
根據上述提取語句中的多詞單元的設備,還包括:泛化單元,其將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及詞性容錯信息獲取單元,其根據泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將詞性容錯信息也作為N元組中的分詞的特征量。
根據本發明的又一實施例,提供了一種訓練人工神經網絡的方法,人工神經網絡用于提取語句中的多詞單元,該方法包括:針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,訓練語句中的多詞單元已被標注;將特征量作為人工神經網絡的參數輸入到人工神經網絡中;采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及根據判斷的結果和標注的結果,來訓練人工神經網絡,其中,該方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
根據上述一種訓練人工神經網絡的方法,還包括:依次將訓練語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
根據上述一種訓練人工神經網絡的方法,還包括:將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及根據標注的結果和泛化N元組中的分詞的詞形特征和詞性特征,計算泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,以生成詞性容錯模板。
根據本發明的再一實施例,提供了一種訓練人工神經網絡的設備,該人工神經網絡用于提取語句中的多詞單元,該設備包括:語言學特征獲取裝置,其針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,訓練語句中的多詞單元已被標注;輸入裝置,其將特征量作為人工神經網絡的參數輸入到人工神經網絡中;判斷裝置,采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及訓練裝置,其根據判斷的結果和標注的結果,來訓練人工神經網絡,其中,該設備還包括:反饋信息獲取裝置,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
根據本發明,通過將具有反饋配置的人工神經網絡應用于多詞單元的識別和提取,可以提高多詞單元的識別和提取的準確性和效率。
附圖說明
本發明可以通過參考下文中結合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本發明的優選實施例和解釋本發明的原理和優點。在附圖中:
圖1是示出根據本發明的實施例的提取語句中的多詞單元的方法的示意性流程圖;
圖2是示出根據本發明的實施例的利用具有反饋配置的人工神經網絡提取語句中的多詞單元的示意圖;
圖3是示出根據本發明的實施例的采用N元組來提取語句中的多詞單元的方法的示意性流程圖;
圖4是示出根據本發明的實施例的采用N元組來提取語句中的多詞單元的示意圖;
圖5是示出根據本發明的實施例的采用N元組來獲取詞形提取概率和/或詞性提取概率的方法的示意性流程圖;
圖6是示出根據本發明的實施例的采用N元組進行詞性容錯的方法的示意性流程圖;
圖7是示出根據本發明的實施例的采用N元組進行詞性容錯的示意圖;
圖8是示出根據本發明的實施例的提取語句中的多詞單元的設備的示意性框圖;
圖9是示出根據本發明的另一實施例的提取語句中的多詞單元的設備的示意性框圖;
圖10是示出根據本發明的另一實施例的提取語句中的多詞單元的設備的示意性框圖;
圖11是示出根據本發明的另一實施例的提取語句中的多詞單元的設備的示意性框圖;
圖12是示出根據本發明的實施例的訓練用于提取語句中的多詞單元 的人工神經網絡的方法的示意性流程圖;
圖13是示出根據本發明的實施例的采用N元組來訓練用于提取語句中的多詞單元的人工神經網絡的方法的示意性流程圖;
圖14是示出根據本發明的實施例的采用N元組生成詞形模板和/或詞性模板的方法的示意性流程圖;
圖15是示出根據本發明的實施例的采用N元組生成詞性容錯模板的方法的示意性流程圖;
圖16是示出根據本發明的實施例的采用N元組生成詞性容錯模板的示意圖;
圖17是示出根據本發明的實施例的訓練用于提取語句中的多詞單元的人工神經網絡的設備的示意性框圖;
圖18是示出根據本發明的另一實施例的訓練用于提取語句中的多詞單元的人工神經網絡的設備的示意性框圖;
圖19是示出根據本發明的另一實施例的訓練用于提取語句中的多詞單元的人工神經網絡的設備的示意性框圖;
圖20是示出根據本發明的另一實施例的訓練用于提取語句中的多詞單元的人工神經網絡的設備的示意性框圖;以及
圖21是示出可用于作為實施根據本發明的實施例的信息處理設備的示意性框圖。
具體實施方式
在下文中將結合附圖對本發明的示例性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發任何這種實際實施方式的過程中可以做出很多特定于實施方式的決定,以便實現開發人員的具體目標,并且這些決定可能會隨著實施方式的不同而有所改變。
在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本發明,在附圖中僅僅示出了與根據本發明的方案密切相關的裝置結構,而省略了與本發明關系不大的其他細節。
下面將結合圖1和圖2來描述根據本發明的實施例的提取語句中的多 詞單元的方法。圖1是示出根據本發明的實施例的提取語句中的多詞單元的方法的示意性流程圖,而圖2是示出根據本發明的實施例的利用具有反饋配置的人工神經網絡提取語句中的多詞單元的示意圖。
如圖1所示,該處理在S100開始。接著,該處理前進到S102。
在S102,針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量。
對語料中的語句進行分詞,從而將語句切分為多個分詞塊,其中分詞塊中可以包含至少一個分詞。對切分得到的多個分詞塊中的每個分詞塊中的分詞按照其在原來的語句中的語序依次進行處理。例如,可以對分詞塊中的分詞進行處理以獲取分詞的一個或多個語言學特征。例如,分詞的語言學特征可以為以下中的一個或更多個:分詞的詞性、分詞的詞形、分詞序號或分詞出現概率。本領域技術人員應當理解,分詞的語言學特征不限于上面列舉的示例。在獲取分詞的語言學特征之后,可以將獲得的分詞的語言學特征作為特征量以用于后續的處理。
例如,對于語句“最初施用引物的步驟”,對該語句進行分詞,從而得到如下的分詞結果“最初/施用/引/物/的/步驟”,也就是說,將語句“最初施用引物的步驟”切分為以下多個分詞塊{“最初”,“施用”,“引”,“物”,“的”,“步驟”},其中每個分詞塊中包含一個分詞。接著,對得到的多個分詞塊中的每個分詞塊中的分詞{“最初”,“施用”,“引”,“物”,“的”,“步驟”}按照“最初”→“施用”→“引”→“物”→“的”→“步驟”的順序依次進行處理。例如,可以對多個分詞{“最初”,“施用”,“引”,“物”,“的”,“步驟”}進行處理以分別得到上述各個分詞的詞性{“(最初)形容詞”,“(施用)動詞”,“(引)名詞”,“(物)名詞”,“(的)介詞”,“(步驟)名詞”}。本領域技術人員應當理解,還可以獲得上述多個分詞{“最初”,“施用”,“引”,“物”,“的”,“步驟”}的其它語言學特征,這里不再贅述。
在S102之后,該處理前進到S104。在S104,將特征量作為人工神經網絡的參數輸入到人工神經網絡中。
如圖2所示,人工神經網絡205中的每個圓圈代表一個或多個神經元,用來處理圓圈內標識的信息。人工神經網絡205中的神經元分為三個層次組合在一起,分別為:輸入層202、隱匿層203和輸出層204。后一層的神經元的值由前一層的神經元的值計算得到。圖2中的黑箭頭代表人工神 經網絡205中信息的流動方向,相鄰的兩層神經元是完全連接的,并且信息由前一層流向后一層。本領域技術人員應當理解,雖然圖2中的隱匿層203僅示出了一層,但是根據實際需要,隱匿層203可以包括兩層或更多層。
如圖2所示,在人工神經網絡205的輸入層202中,將當前正處理的分詞的t個特征量{特征量1,特征量2,…,特征量i,…,特征量t-1,特征量t}作為人工神經網絡205的參數輸入到人工神經網絡205中,其中,i和t均為大于或等于1的自然數,并且1≤i≤t。可以將上述步驟S102中提取的分詞的一個或多個語言學特征作為上述特征量。例如,可以將分詞的詞性、分詞的詞形、分詞序號或分詞出現概率作為上述特征量。
還是以語句“最初施用引物的步驟”為例,對于分詞“最初”,例如可以獲取分詞“最初”的詞性“名詞”、分詞“最初”的詞形“最初”、分詞“最初”的序號“1”和分詞“最初”的出現概率“0.43”等作為分詞“最初”的特征量,并且將分詞“最初”的上述特征量作為人工神經網絡205的參數輸入到人工神經網絡205中。
在S104之后,該處理前進到S106。在S106,采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分。
在將特征量作為人工神經網絡205的參數輸入到人工神經網絡205中之后,人工神經網絡205根據下面的公式來確定當前神經元的值:
f(x)=K((∑iwi×gi(x))+biasW+biasV)
其中,K表示活化函數,例如可以將用作活化函數。wi表示當前神經元與前一層神經元中的第i個神經元之間的權重,在圖2中由黑線表示。gi(x)表示在前一層神經元中由黑線連接到當前神經元的所有神經元的值。biasW和biasV分別表示當前神經元的偏置權重和偏置值。本領域技術人員應當理解,上述活化函數和用來確定當前神經元的值的公式僅是示例性的,還可以采用其它形式的活化函數,或者采用其它形式的公式來確定當前神經元的值。
在圖2所示的人工神經網絡205中,輸入層202中的神經元的值就是特征量本身的值,每一條黑線代表一個特定的權重。除輸入層202中的神經元以外,隱匿層203和輸出層204中的神經元都有偏置權重和偏置值。
如圖2所示,人工神經網絡205中的輸出層204包括兩個神經元:表示當前處理的分詞是多詞單元的一部分的第一可能性的神經元206,和表示當前處理的分詞不是多詞單元的一部分的第二可能性的神經元207。具體地,神經元206的值表示通過人工神經網絡205計算得到的確定當前處理的分詞是多詞單元的一部分的可能性或概率。例如,如果神經元206的值為0.9,則表示人工神經網絡205通過計算確定當前處理的分詞是多詞單元的一部分的可能性或概率為0.9。類似地,神經元207的值表示通過人工神經網絡205計算得到的確定當前處理的分詞不是多詞單元的一部分的可能性或概率。例如,如果神經元207的值為0.6,則表示人工神經網絡205通過計算確定當前處理的分詞不是多詞單元的一部分的可能性或概率為0.6。
在計算得到由神經元206的值表示的第一可能性和由神經元207的值表示的第二可能性之后,如圖2中的208所示的,可以對第一可能性和第二可能性進行比較。如果第一可能性大于等于第二可能性,則如圖2中的210所示的,判斷當前處理的分詞是多詞單元的一部分。如果第一可能性小于第二可能性,則如圖2中的209所示的,判斷當前處理的分詞不是多詞單元的一部分。例如,針對當期處理的分詞,如果由神經元206的值表示的第一可能性為0.9,而由神經元207的值表示的第二可能性為0.6,則由于第一可能性0.9大于第二可能性0.6,所以判斷當前處理的分詞為多詞單元的一部分。然后,可以在圖2的211處將分詞的序號n加1得到序號為n+1的分詞,以便對序號為n+1的分詞進行處理。
在S106之后,該處理前進到S108。在S108,提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元。
還是以語句“最初施用引物的步驟”為例,在分詞得到的多個分詞塊中的分詞{“最初”,“施用”,“引”,“物”,“的”,“步驟”}中,假設分詞“引”和分詞“物”被判斷為是多詞單元的一部分,并且由于分詞“引”和分詞“物”是相鄰的兩個分詞,因此提取分詞“引”和分詞“物”以形成多詞單元“引物”。如果有多于兩個的相鄰分詞被判斷為均為多詞單元的一部分,則也將這樣的多于兩個的相鄰分詞提取出來以形成多詞單元。
在S108之后,該處理前進到S110。在S110,獲取與當前分詞塊相鄰 的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
如圖2所示,假設n和n+1等表示所處理的分詞塊的序號,則當處理完序號為n的分詞塊之后,緊接著將序號加1以處理下一個分詞塊(即序號為n+1的分詞塊)。此時,序號為n+1的分詞塊成為當前分詞塊,而序號為n的分詞塊為與當前分詞塊相鄰的先前分詞塊。因為已經對序號為n的先前分詞塊進行了處理,所以已經獲取了序號為n的先前分詞塊中的分詞是多詞單元的一部分還是不是多詞單元的一部分的判斷結果。因此,如圖2所示,可以將序號為n的先前分詞塊的判斷結果作為反饋信息反饋回到人工神經網絡205的輸入層202,并且在對序號為n+1的當前分詞塊進行處理時,將該反饋信息也作為序號為n+1的當前分詞塊中的分詞的特征量輸入到人工神經網絡205中。也就是說,使序號為n的先前分詞塊的判斷結果參與到序號為n+1的當前分詞塊的判斷處理中。
由于人工神經網絡205具有反饋配置,即人工神經網絡205在判斷當前分詞塊中的分詞是否為多詞單元的一部分時,還考慮與當前分詞塊相鄰的先前分詞塊中的分詞是否為多詞單元的一部分,所以人工神經網絡205判斷分詞是否為多詞單元的一部分的準確性和效率可以在很大程度上得到提高。
最后,該處理在S112處結束。
根據本實施例的方法,通過將具有反饋配置的人工神經網絡應用于多詞單元的識別和提取,可以提高多詞單元的識別和提取的準確性和效率。
下面結合圖3和圖4來描述根據本發明的實施例的采用N元組來提取語句中的多詞單元的方法。圖3是示出根據本發明的實施例的采用N元組來提取語句中的多詞單元的方法的示意性流程圖,而圖4是示出根據本發明的實施例的采用N元組來提取語句中的多詞單元的示意圖。
如圖3所示,該處理在S300開始。接著,該處理前進到S302。
在S302,依次將語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
可以將語句中相鄰的N個分詞組合為N元組以形成分詞塊,并且以N元組為單位進行后續的處理。例如,可以將與當前分詞左右相鄰的兩個分詞與當前分詞組合為三元組。對于在句首的分詞,三元組的第一個元素為空;對于在句尾的分詞,三元組的最后一個元素為空。
還是以語句“最初施用引物的步驟”為例,可以如圖4中的黑方框所示,依次將上述語句中的分詞“最初”和“施用”組合為三元組<NULL,最初,施用>,將分詞“最初”、“施用”和“引”組合為三元組<最初,施用,引>,……,將分詞“的”和“步驟”組合為三元組<的,步驟,NULL>,其中,NULL表示空。容易理解,在此,三元組即是包含有三個分詞的分詞塊的一種示例。
在確定N元組之后,可以獲取N元組中的每個元素的語言學特征。例如,可以用詞性分析工具獲取N元組中的每個元素的詞性。例如,可以使用斯坦福詞性分析工具來獲取N元組中的每個元素的詞性。如圖4所示,對于三元組<最初,施用,引>,可以分別獲得其中的第一個元素“最初”的詞性為形容詞JJ,第二個元素“施用”的詞性為動詞VBG,以及第三個元素“引”的詞性為名詞NN。另外,也可以采用相應的工具獲取N元組中的每個元素的其它語言學特征,這里不再贅述。
在獲取了N元組中的每個元素的語言學特征之后,可以將獲取的每個元素的語言學特征均作為該元素的屬性。例如,如圖4所示,針對N元組中的每個元素,總共列出了m個屬性{屬性1,屬性2,屬性3,…,屬性m},其中m為大于或等于1的自然數。上述m個屬性例如可以是分詞的詞性、分詞的詞形、分詞序號或分詞出現概率等等,但不限于此。例如,對于三元組<最初,施用,引>中的第一個元素“最初”,可以獲取其屬性1的值為“1”,屬性2的值為“2”,屬性3的值為“23”,……,屬性m的值為“假”。
可以以N元組為單位,依次將N元組中的每個元素的m個屬性作為特征量輸入到人工神經網絡(ANN)205中進行計算,以判斷該元素是否為多詞單元的一部分,其具體判斷過程及后續處理與圖1中的步驟S106至步驟S110的處理類似,只是分詞塊中所包含的分詞的數量不同而已,因此其具體細節在此不再贅述。圖4中的叉號表示對應的元素被判斷為不是多詞單元的一部分,而對號表示對應的元素被判斷為是多詞單元的一部分。兩個或兩個以上連續的對號表示一個完整的多詞單元。如圖4所示,因為元素“引”對應對號,元素“物”也對應對號,并且元素“引”和“物”彼此相鄰,因此將“引物”提取為多詞單元。
最后,該處理在S304處結束。
根據本實施例的方法,可以以N元組為單位進行處理以提取語句中的多詞單元,從而進一步提高多詞單元的識別和提取的準確性和效率。
下面結合圖5來描述根據本發明的實施例的采用N元組來獲取詞形提取概率和/或詞性提取概率的方法。圖5是示出根據本發明的實施例的采用N元組來獲取詞形提取概率和/或詞性提取概率的方法的示意性流程圖。
如圖5所示,該處理開始于S500。接著,該處理前進到S502。
在步驟S502,根據N元組中的分詞的詞形特征,從詞形模板中獲取N元組中的分詞是多詞單元的一部分的詞形提取概率,并且將詞形提取概率也作為N元組中的分詞的特征量。
例如,對于三元組<最初,施用,引>,該三元組<最初,施用,引>中的分詞的詞形特征為“最初,施用,引”。可以根據上述詞形特征“最初,施用,引”在詞形模板中查找對應的詞形,從而得到與該詞形對應的詞形提取概率,該詞形提取概率表示該三元組<最初,施用,引>中的分詞“最初”、“施用”或“引”是多詞單元的一部分的概率。然后,可以將獲取的詞形提取概率也作為該三元組<最初,施用,引>中的分詞的特征量輸入到人工神經網絡205中。如果沒有查找到詞形提取概率,則按照預設的默認概率進行處理。詞形模板中預先存儲了N元組的詞形及其對應的詞形提取概率,該詞形提取概率表示該N元組中的分詞為多詞單元的一部分的概率。本領域技術人員可以理解,詞形模板可以預先設定。另外,作為替代,詞形模板也可以通過對人工神經網絡205進行訓練來生成。作為非限制性的示例,下文中將對如何通過對人工神經網絡205進行訓練來生成詞形模板進行詳細描述。
在S502之后,該處理前進到S504。在S504,根據N元組中的分詞的詞性特征,從詞性模板中獲取N元組中的分詞是多詞單元的一部分的詞性提取概率,并且將詞性提取概率也作為N元組中的分詞的特征量。
類似地,例如,對于三元組<最初,施用,引>,該三元組<最初,施用,引>中的分詞的詞性特征為“形容詞,動詞,名詞”。可以根據上述詞性特征“形容詞,動詞,名詞”在詞性模板中查找對應的詞性,從而得到與該詞性對應的詞性提取概率,該詞性提取概率表示該三元組<最初,施用,引>中的分詞“最初”、“施用”或“引”是多詞單元的一部分的概率。然后,可以將獲取的詞性提取概率也作為該三元組<最初,施用,引>中的分詞的特征量輸入到人工神經網絡205中。如果沒有查找到詞性提取概率,則按照預設的默認概率進行處理。詞性模板中預先存儲了N元組的詞性及其對應的詞性提取概率,該詞性提取概率表示該N元組中的分詞 為多詞單元的一部分的概率。本領域技術人員可以理解,詞性模板可以預先設定。另外,作為替代,詞性模板也可以通過對人工神經網絡205進行訓練來生成。作為非限制性的示例,下文中將對如何通過對人工神經網絡205進行訓練來生成詞性模板進行詳細描述。
最后,該處理在S506處結束。
本領域技術人員應當理解,圖5中所示的步驟S502和S504可以順序執行,也可以并行執行,或者可以僅執行步驟S502和S504中的任一個。根據本實施例的方法,可以根據N元組從詞形模板和詞性模板中獲取詞形提取概率和/或詞性提取概率,以利用有關多詞單元的已有知識并且增加輸入到人工神經網絡中的特征量,從而進一步提高了多詞單元的識別和提取的準確性和效率。
下面結合圖6和圖7來描述根據本發明的實施例的采用N元組進行詞性容錯的方法。圖6是示出根據本發明的實施例的采用N元組進行詞性容錯的方法的示意性流程圖,而圖7是示出根據本發明的實施例的采用N元組進行詞性容錯的示意圖。
如圖6所示,該處理開始于S600。接著,該處理前進到S602。
在步驟S602,將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組。
下面結合圖7來描述根據本發明的實施例的采用N元組進行詞性容錯的方法。如圖7所示,在702處,選擇要進行處理的可能包含錯誤詞性的N元組。例如,對于語句“抗原釋放物釋放抗原”進行分詞后得到的多個分詞{“抗原”,“釋放”,“物”,“釋放”,“抗原”},可將分詞“抗原”、“釋放”和“物”形成為一個三元組<抗原,釋放,物>,其中分詞“抗原”的詞性被標注為“名詞”,分詞“釋放”的詞性被標注為“動詞”,分詞“物”的詞性被標注為“名詞”。假設要處理的三元組為<抗原,釋放,物>,并且“抗原釋放物”應該是一個多詞單元,但是由于其中的分詞“釋放”的詞性被錯誤地標注為動詞,所以在分析“釋放”這個分詞時不會將其標注為多詞單元的一部分,從而無法正確識別整個多詞表達“抗原釋放物”。
如圖7所示,在704處進行N元組泛化。下面結合圖16來描述N元組的泛化過程。如圖16所示,在1602處確定需要泛化的N元組,并且確定該N元組中的元素的個數N。在1604處,選擇要泛化的元素的個數 x,x一般從1開始,根據x的值將任意x個分詞泛化為詞性。在1606處,根據x的值從待泛化的N元組中選擇x個元素,并列出所有可能的組合,將該元素以其詞性代替詞形放回N元組中,并存儲所有可能的泛化后的N元組。在1608處判斷x是否等于N,如果為否,則在1610處將x加1,以在1612處得到新的x值。然后,根據新的x值重復1604、1606和1608處的處理,直至x等于N為止。
還是以語句“抗原釋放物釋放抗原”進行分詞后得到的多個分詞{“抗原”,“釋放”,“物”,“釋放”,“抗原”}為例,假設要對三元組<抗原,釋放,物>進行泛化,則該三元組中的元素的個數N為3,x可以為1、2或3。當x為1時,將三元組<抗原,釋放,物>中的一個元素的詞形替換為詞性,從而可以得到如下的泛化后的三元組:<名詞,釋放,物>,<抗原,動詞,物>,<抗原,釋放,名詞>。當x為2時,將三元組<抗原,釋放,物>中的兩個元素的詞形替換為詞性,從而可以得到如下的泛化后的三元組:<名詞,動詞,物>,<抗原,動詞,名詞>,<名詞,釋放,名詞>。當x為3時,將三元組<抗原,釋放,物>中的三個元素的詞形替換為詞性,從而可以得到如下的泛化后的三元組:<名詞,動詞,名詞>。
在S602之后,該處理前進到S604。在S604,根據泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將詞性容錯信息也作為N元組中的分詞的特征量。
通過上述步驟S602的處理可以得到所有可能的泛化后的N元組。然后,如圖7所示,在706處,可以根據所有可能的泛化后的N元組,分別在詞性容錯模板中查找對應的泛化N元組,從而獲取與泛化N元組對應的提取概率作為詞性容錯信息,該提取概率表示該泛化N元組中的分詞是多詞單元的一部分的概率。可以將獲取的詞性容錯信息也作為N元組中的分詞的特征量輸入到人工神經網絡205中,并且結合在708處的人工神經網絡的其它特征量進行訓練,從而在710處使人工神經網絡強化對判斷結果的影響。因此,如在712處所述的,可以在錯誤詞性出現在目標元素中時,降低詞性錯誤造成的偏差,從而實現詞性容錯。
如果沒有查找到作為詞性容錯信息的提取概率,則按照預設的默認概率進行處理。詞性容錯模板中預先存儲了泛化N元組及其對應的提取概率,該提取概率表示該泛化N元組中的分詞為多詞單元的一部分的概率。本領域技術人員可以理解,詞性容錯模板可以預先設定。另外,作為替代, 詞性容錯模板也可以通過對人工神經網絡205進行訓練來生成。作為非限制性的示例,下文中將對如何通過對人工神經網絡205進行訓練來生成詞性容錯模板進行詳細描述。
還是以上述三元組<抗原,釋放,物>為例,通過泛化可以得到以下一系列的泛化三元組:<名詞,釋放,物>,<抗原,動詞,物>,<抗原,釋放,名詞>,<名詞,動詞,物>,<抗原,動詞,名詞>,<名詞,釋放,名詞>,<名詞,動詞,名詞>。根據上述一系列的泛化三元組中的每個,分別在詞性容錯模板中查找對應的泛化三元組,從而得到三元組<抗原,釋放,物>中的分詞為多詞單元的一部分的提取概率作為詞性容錯信息。
最后,該處理在S606處結束。
根據本實施例的方法,可以緩解由詞性標注錯誤引起的特征值的偏差,因此即使在詞性標注過程中引用了錯誤信息,也可以正確地識別和提取語句中的多詞單元,從而可以進一步提高多詞單元的識別和提取的準確性和效率。
下面結合圖8至圖11來說明根據本發明的實施例的提取語句中的多詞單元的設備。
圖8是示出根據本發明的實施例的提取語句中的多詞單元的設備的示意性框圖。如圖8所示,提取語句中的多詞單元的設備800包括:語言學特征獲取單元802,其針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;輸入單元804,其將特征量作為人工神經網絡的參數輸入到人工神經網絡中;判斷單元806,其采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;提取單元808,其提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元;以及反饋信息獲取單元810,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
需要指出的是,在與設備有關的實施例中所涉及的相關術語或表述與以上對根據本發明的實施例的方法的實施例闡述中所使用的術語或表述對應,在此不再贅述。
圖9是示出根據本發明的另一實施例的提取語句中的多詞單元的設 備的示意性框圖。如圖9所示,提取語句中的多詞單元的設備900包括語言學特征獲取單元802、輸入單元804、判斷單元806、提取單元808、反饋信息獲取單元810和組合單元902。提取語句中的多詞單元的設備900中的語言學特征獲取單元802、輸入單元804、判斷單元806、提取單元808和反饋信息獲取單元810與提取語句中的多詞單元的設備800中的語言學特征獲取單元802、輸入單元804、判斷單元806、提取單元808和反饋信息獲取單元810相同,其細節在此不再贅述。另外,提取語句中的多詞單元的設備900中的組合單元902用于依次將語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
圖10是示出根據本發明的另一實施例的提取語句中的多詞單元的設備的示意性框圖。如圖10所示,提取語句中的多詞單元的設備1000包括語言學特征獲取單元802、輸入單元804、判斷單元806、提取單元808、反饋信息獲取單元810、組合單元902、詞形提取概率獲取單元1002和詞性提取概率獲取單元1004。提取語句中的多詞單元的設備1000中的語言學特征獲取單元802、輸入單元804、判斷單元806、提取單元808、反饋信息獲取單元810和組合單元902與提取語句中的多詞單元的設備900中的語言學特征獲取單元802、輸入單元804、判斷單元806、提取單元808、反饋信息獲取單元810和組合單元902相同,其細節在此不再贅述。另外,提取語句中的多詞單元的設備1000中的詞形提取概率獲取單元1002,其根據N元組中的分詞的詞形特征,從詞形模板中獲取N元組中的分詞是多詞單元的一部分的詞形提取概率,并且將詞形提取概率也作為N元組中的分詞的特征量;詞性提取概率獲取單元1004,其根據N元組中的分詞的詞性特征,從詞性模板中獲取N元組中的分詞是多詞單元的一部分的詞性提取概率,并且將詞性提取概率也作為N元組中的分詞的特征量。
圖11是示出根據本發明的另一實施例的提取語句中的多詞單元的設備的示意性框圖。如圖11所示,提取語句中的多詞單元的設備1100包括語言學特征獲取單元802、輸入單元804、判斷單元806、提取單元808、反饋信息獲取單元810、組合單元902、泛化單元1102和詞性容錯信息獲取單元1104。提取語句中的多詞單元的設備1100中的語言學特征獲取單元802、輸入單元804、判斷單元806、提取單元808、反饋信息獲取單元810和組合單元902與提取語句中的多詞單元的設備900中的語言學特征獲取單元802、輸入單元804、判斷單元806、提取單元808、反饋信息獲取單元810和組合單元902相同,其細節在此不再贅述。另外,提取語句中的多詞單元的設備1100中的泛化單元1102將N元組中的分詞的詞形替 換為相應的詞性,以得到混合了詞形與詞性的泛化模板;詞性容錯信息獲取單元1104獲取泛化模板中的中間分詞為多詞單元的一部分的概率作為詞性容錯信息,并且將詞性容錯信息也作為N元組中的每個分詞的特征量。
上述圖8至圖11中的各個裝置和/或單元例如可以被配置成按照相應方法中的相應步驟的工作方式來操作。細節參見上述針對根據本申請的實施例的方法所闡述的實施例。在此不再贅述。
下面將結合圖12來描述根據本發明的實施例的訓練用于提取語句中的多詞單元的人工神經網絡的方法。圖12是示出根據本發明的實施例的訓練用于提取語句中的多詞單元的人工神經網絡的方法的示意性流程圖。
如圖12所示,該處理在S1200開始。接著,該處理前進到S1202。
在S1202,針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,訓練語句中的多詞單元已被標注。
除了是處理對每個訓練語句進行分詞得到的多個分詞塊之外,S1202的處理與圖1中的S102的處理基本相同,其具體細節在此不再贅述。另外,關于訓練語句,已經對其中的多詞單元進行了標注。
在S1202之后,該處理前進到S1204。在S1204,將特征量作為人工神經網絡的參數輸入到人工神經網絡中。
除了是處理對每個訓練語句進行分詞得到的多個分詞塊之外,S1204的處理與圖1中的S104的處理基本相同,其具體細節在此不再贅述。
在S1204之后,該處理前進到S1206。在S1206,采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分。
除了是處理對每個訓練語句進行分詞得到的多個分詞塊之外,S1206的處理與圖1中的S106的處理基本相同,其具體細節在此不再贅述。
在S1206之后,該處理前進到S1208。在S1208,根據判斷的結果和標注的結果,來訓練人工神經網絡。
人工神經網絡205的訓練過程就是對人工神經網絡205中的權值進行求解的過程。本發明中采用BP(Back Propagation,誤差反向傳播)算 法來進行人工神經網絡205的訓練。具體過程如下:
a)初始化人工神經網絡205,選用隨機產生的權重;
b)將帶有期望值的訓練數據的項目逐一輸入到人工神經網絡205中,并且計算輸出值;
c)比較輸出值與期望值之間的差異,計算人工神經網絡205中的每個神經元的誤差;
d)調整權重并減小誤差;
e)重復執行步驟b)-d),直至誤差小于預定的閾值為止。本領域技術人員應當理解,可以根據經驗值、或者根據實驗來設定上述預定的閾值。
訓練人工神經網絡205的過程由輸出層神經元權值向隱匿層神經元權重逐一進行求解,分別計算每個權重的變化量。首先,按照下面的公式求解每個輸出層神經元的誤差:其中,是第i個神經元所期望的輸出值,是第i個神經元的實際輸出值,是活化函數的導數。按照下面的公式計算隱匿層神經元的誤差:其中,wij是第j個輸出層神經元與第i個隱匿層神經元之間的權值,是第i個輸出層神經元的誤差,是第i個隱匿層神經元的實際輸出值,其中h表示該神經元是隱匿層神經元。輸入層神經元的輸入值即為輸出值,因此沒有誤差。
計算出每個神經元的誤差后,可以計算權重的調整幅度:Δw=ρ×δi×ni,其中ρ是學習率,δi是第i個神經元的誤差,ni是當前神經元的值。新的權重就是當前權重加上Δw。
本領域技術人員應當理解,上述訓練人工神經網絡205的方法僅是示例性的,還可以采用其它的方法來訓練人工神經網絡205。
在S1208之后,該處理前進到S1210。在S1210,獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞的特征量。
除了是處理對每個訓練語句進行分詞得到的多個分詞塊之外,S1210的處理與圖1中的S110的處理基本相同,其具體細節在此不再贅述。
最后,該處理在S1212處結束。
根據本實施例的方法,通過訓練可以得到具有反饋配置的人工神經網絡,將訓練得到的人工神經網絡應用于多詞單元的識別和提取,可以提高多詞單元的識別和提取的準確性和效率。
下面結合圖13來描述根據本發明的實施例的采用N元組來訓練用于提取語句中的多詞單元的人工神經網絡的方法。圖13是示出根據本發明的實施例的采用N元組來訓練用于提取語句中的多詞單元的人工神經網絡的方法的示意性流程圖。
如圖13所示,該處理在S1300開始。接著,該處理前進到S1302。
在S1302,依次將訓練語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
除了是處理對每個訓練語句進行分詞得到的多個分詞塊之外,S1302的處理與圖3中的S302的處理基本相同,其具體細節在此不再贅述。
最后,該處理在S1304處結束。
根據本實施例的方法,可以根據N元組的諸如詞性組合知識、詞形組合知識等已有知識來訓練人工神經網絡,將訓練得到的人工神經網絡應用于提取語句中的多詞單元,可以進一步提高多詞單元的識別和提取的準確性和效率。
下面結合圖14來描述根據本發明的實施例的采用N元組生成詞形模板和/或詞性模板的方法。圖14是示出根據本發明的實施例的采用N元組生成詞形模板和/或詞性模板的方法的示意性流程圖。
如圖14所示,該處理開始于S1400。接著,該處理前進到S1402。
在步驟S1402,根據標注的結果和N元組中的分詞的詞形特征,計算N元組中的分詞被標注為多詞單元的一部分的詞形提取概率,以生成詞形模板。
例如,對于三元組<最初,施用,引>,其中的分詞“最初”和“施用”被標注為不是多詞單元的一部分,而其中的分詞“引”被標注為是多詞單元的一部分,并且該三元組<最初,施用,引>中的分詞的詞形特征為“最初,施用,引”。可以根據上述信息,通過人工神經網絡205來計算該三元組<最初,施用,引>中的分詞“最初”、“施用”或“引”被標注多詞單元的一部分的詞形提取概率,并且相關聯地存儲該詞形提取概率和當前分詞所對應的三元組,從而生成詞形模板。
在步驟S1404,根據標注的結果和N元組中的分詞的詞性特征,計算N元組中的分詞是多詞單元的一部分的詞性提取概率,以生成詞性模板。
類似地,例如,對于三元組<最初,施用,引>,其中的分詞“最初”和“施用”被標注為不是多詞單元的一部分,而其中的分詞“引”被標注為是多詞單元的一部分,并且該三元組<最初,施用,引>中的分詞的詞性特征為“形容詞,動詞,名詞”。可以根據上述信息,通過人工神經網絡205來計算該三元組<最初,施用,引>中的分詞“最初”、“施用”或“引”被標注多詞單元的一部分的詞性提取概率,并且相關聯地存儲該詞性提取概率和當前分詞所對應的三元組,從而生成詞性模板。
最后,該處理在S1406處結束。
本領域技術人員應當理解,圖14中所示的步驟S1402和S1404可以順序執行,也可以并行執行,或者可以僅執行步驟S1402和S1404中的任一個。根據本實施例的方法,可以采用N元組來訓練人工神經網絡以生成詞形模板或詞性模板,將生成的詞形模板和詞性模板應用于多詞單元的識別和提取,可以進一步提高多詞單元的識別和提取的準確性和效率。
下面結合圖15和圖16來描述根據本發明的實施例的采用N元組生成詞性容錯模板的方法。圖15是示出根據本發明的實施例的采用N元組生成詞性容錯模板的方法的示意性流程圖。圖16是示出根據本發明的實施例的采用N元組生成詞性容錯模板的示意圖。
如圖15所示,該處理開始于S1500。接著,該處理前進到S1502。
在步驟S1502,將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組。
除了是處理對每個訓練語句進行分詞得到的多個分詞之外,S1502的處理與圖6中的S602的處理基本相同,其具體細節在此不再贅述。
在S1502之后,該處理前進到S1504。在S1504,根據標注的結果和 泛化N元組中的分詞的詞形特征和詞性特征,計算泛化N元組中的分詞被標注多詞單元的一部分的提取概率作為詞性容錯信息,以生成詞性容錯模板。
通過上述步驟S1502的處理可以得到所有可能的泛化后的N元組。然后,可以根據標注的結果和所有可能的泛化后的N元組,分別計算泛化N元組中的分詞被標注多詞單元的一部分的提取概率作為詞性容錯信息。
還是以上述三元組<抗原,釋放,物>為例,其中分詞“抗原”、“釋放”和“物”均被標注為是多詞單元的一部分,上述三元組通過泛化可以得到以下一系列的泛化三元組:<名詞,釋放,物>,<抗原,動詞,物>,<抗原,釋放,名詞>,<名詞,動詞,物>,<抗原,動詞,名詞>,<名詞,釋放,名詞>,<名詞,動詞,名詞>。因此,如圖16所示,在1614處,根據上述標注的結果和上述一系列的泛化三元組中的每個,分別計算上述泛化三元組中的分詞被標注為多詞單元的一部分的提取概率作為詞性容錯信息,并且相關聯地存儲該詞性容錯信息和當前分詞所對應的三元組,從而生成詞性容錯模板。
由于大部分詞性容錯模板中均包含詞性信息和詞形信息,并且N元組模板中不僅包含當前目標分詞還包含當前分詞的前后分詞信息,所以可以極大地弱化單個錯誤詞性所造成的影響,當將錯誤詞性輸入到人工神經網絡中,詞性容錯模板中的分詞是多詞單元的一部分的概率可以通過人工神經網絡的計算來抑制錯誤詞性對最終判斷結果的影響。
最后,該處理在S1506處結束。
根據本實施例的方法,可以在訓練人工神經網絡的過程中緩解由詞性標注錯誤引起的特征值的偏差,并且生成詞性容錯模板,如果將生成的詞性容錯模板應用于多詞單元的識別和提取,則即使在詞性標注過程中引用了錯誤信息,也可以正確地識別和提取語句中的多詞單元,從而可以進一步提高多詞單元的識別和提取的準確性和效率。
下面結合圖17至圖20來說明根據本發明的實施例的訓練用于提取語句中的多詞單元的人工神經網絡的設備。
圖17是示出根據本發明的實施例的訓練用于提取語句中的多詞單元的人工神經網絡的設備的示意性框圖。如圖17所示,訓練用于提取語句中的多詞單元的人工神經網絡的設備1700包括:語言學特征獲取裝置 1702,其針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,訓練語句中的多詞單元已被標注;輸入裝置1704,其將特征量作為人工神經網絡的參數輸入到人工神經網絡中;判斷裝置1706,其采用人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;訓練裝置1708,其根據判斷的結果和標注的結果,來訓練人工神經網絡;以及反饋信息獲取裝置1710,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
需要指出的是,在與設備有關的實施例中所涉及的相關術語或表述與以上對根據本發明的實施例的方法的實施例闡述中所使用的術語或表述對應,在此不再贅述。
圖18是示出根據本發明的另一實施例的訓練用于提取語句中的多詞單元的人工神經網絡的設備的示意性框圖。如圖18所示,訓練用于提取語句中的多詞單元的人工神經網絡的設備1800包括語言學特征獲取裝置1702、輸入裝置1704、判斷裝置1706、訓練裝置1708、反饋信息獲取裝置1710和組合裝置1802。訓練用于提取語句中的多詞單元的人工神經網絡的設備1800中的語言學特征獲取裝置1702、輸入裝置1704、判斷裝置1706、訓練裝置1708和反饋信息獲取裝置1710與訓練用于提取語句中的多詞單元的人工神經網絡的設備1700中的語言學特征獲取裝置1702、輸入裝置1704、判斷裝置1706、訓練裝置1708和反饋信息獲取裝置1710相同,其細節在此不再贅述。另外,訓練用于提取語句中的多詞單元的人工神經網絡的設備1800中的組合裝置1802依次將訓練語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
圖19是示出根據本發明的另一實施例的訓練用于提取語句中的多詞單元的人工神經網絡的設備的示意性框圖。如圖19所示,訓練用于提取語句中的多詞單元的人工神經網絡的設備1900包括語言學特征獲取裝置1702、輸入裝置1704、判斷裝置1706、訓練裝置1708、反饋信息獲取裝置1710、組合裝置1802、詞形模板生成裝置1902和詞性模板生成裝置1904。訓練用于提取語句中的多詞單元的人工神經網絡的設備1900中的語言學特征獲取裝置1702、輸入裝置1704、判斷裝置1706、訓練裝置1708、反饋信息獲取裝置1710和組合裝置1802與訓練用于提取語句中的多詞單 元的人工神經網絡的設備1800中的語言學特征獲取裝置1702、輸入裝置1704、判斷裝置1706、訓練裝置1708、反饋信息獲取裝置1710和組合裝置1802相同,其細節在此不再贅述。另外,訓練用于提取語句中的多詞單元的人工神經網絡的設備1900中的詞性模板生成裝置1902,其根據標注的結果和N元組中的分詞的詞形特征,計算N元組中的分詞是多詞單元的一部分的詞形提取概率,以生成詞形模板;和/或詞性模板生成裝置1904,其根據標注的結果和N元組中的分詞的詞性特征,計算N元組中的分詞是多詞單元的一部分的詞性提取概率,以生成詞性模板。
圖20是示出根據本發明的另一實施例的訓練用于提取語句中的多詞單元的人工神經網絡的設備的示意性框圖。如圖20所示,訓練用于提取語句中的多詞單元的人工神經網絡的設備2000包括語言學特征獲取裝置1702、輸入裝置1704、判斷裝置1706、訓練裝置1708、反饋信息獲取裝置1710、組合裝置1802、泛化裝置2002和詞性容錯模板生成裝置2004。訓練用于提取語句中的多詞單元的人工神經網絡的設備2000中的語言學特征獲取裝置1702、輸入裝置1704、判斷裝置1706、訓練裝置1708、反饋信息獲取裝置1710和組合裝置1802與訓練用于提取語句中的多詞單元的人工神經網絡的設備1800中的語言學特征獲取裝置1702、輸入裝置1704、判斷裝置1706、訓練裝置1708、反饋信息獲取裝置1710和組合裝置1802相同,其細節在此不再贅述。另外,訓練用于提取語句中的多詞單元的人工神經網絡的設備2000中的泛化裝置2002,將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;詞性容錯模板生成裝置2004,其根據標注的結果和泛化N元組中的分詞的詞形特征和詞性特征,計算泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,以生成詞性容錯模板。
本領域技術人員理解,在上面描述的根據本發明各實施例的提取語句中的多詞單元的方法中的各步驟或者提取語句中的多詞單元的設備中的各功能單元,可以根據實際需要進行任意的組合,即,一個提取語句中的多詞單元的方法實施例中的處理步驟可以與其它提取語句中的多詞單元的方法實施例中的處理步驟進行組合,或者,一個提取語句中的多詞單元的設備實施例中的功能單元可以與其它提取語句中的多詞單元的設備實施例中的功能單元進行組合,以便實現所期望的技術目的。類似地,在上面描述的根據本發明各實施例的訓練人工神經網絡的方法中的各步驟或者訓練人工神經網絡的設備中的各功能單元,可以根據實際需要進行任意的組合,即,一個訓練人工神經網絡的方法實施例中的處理步驟可以與其 它訓練人工神經網絡的方法實施例中的處理步驟進行組合,或者,一個訓練人工神經網絡的設備實施例中的功能單元可以與其它訓練人工神經網絡的設備實施例中的功能單元進行組合,以便實現所期望的技術目的
此外,本申請的實施例還提出了一種程序產品,該程序產品承載機器可執行的指令,當在信息處理設備上執行指令時,指令使得信息處理設備執行根據上述本發明的實施例的提取語句中的多詞單元的方法。類似地,本申請的實施例還提出了一種程序產品,該程序產品承載機器可執行的指令,當在信息處理設備上執行指令時,指令使得信息處理設備執行根據上述本發明的實施例的訓練人工神經網絡的方法。
此外,本申請的實施例還提出了一種存儲介質,該存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行程序代碼時,程序代碼使得信息處理設備執行根據上述本發明的實施例的提取語句中的多詞單元的方法。類似地,本申請的實施例還提出了一種存儲介質,該存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行程序代碼時,程序代碼使得信息處理設備執行根據上述本發明的實施例的訓練人工神經網絡的方法。
相應地,用于承載上述存儲有機器可讀取的指令代碼的程序產品的存儲介質也包括在本發明的公開中。存儲介質包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等等。
根據本發明的實施例的提取語句中的多詞單元的設備及其各個組成單元可通過軟件、固件、硬件或其組合的方式進行配置。類似地,根據本發明的實施例的訓練人工神經網絡的設備及其各個組成單元也可通過軟件、固件、硬件或其組合的方式進行配置。配置可使用的具體手段或方式為本領域技術人員所熟知,在此不再贅述。在通過軟件或固件實現的情況下,從存儲介質或網絡向具有專用硬件結構的信息處理設備(例如圖21所示的通用計算機2100)安裝構成該軟件的程序,該計算機在安裝有各種程序時,能夠執行各種功能等。
在圖21中,中央處理單元(CPU)2101根據只讀存儲器(ROM)2102中存儲的程序或從存儲部分2108加載到隨機存取存儲器(RAM)2103的程序執行各種處理。在RAM 2103中,也根據需要存儲當CPU 2101執行各種處理等等時所需的數據。CPU 2101、ROM 2102和RAM 2103經由總線2104彼此連接。輸入/輸出接口2105也連接到總線2104。
下述部件連接到輸入/輸出接口2105:輸入部分2106(包括鍵盤、鼠 標等等)、輸出部分2107(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等)、存儲部分2108(包括硬盤等)、通信部分2109(包括網絡接口卡比如LAN卡、調制解調器等)。通信部分2109經由網絡比如因特網執行通信處理。根據需要,驅動器2110也可連接到輸入/輸出接口2105。可拆卸介質2111比如磁盤、光盤、磁光盤、半導體存儲器等等根據需要被安裝在驅動器2110上,使得從中讀出的計算機程序根據需要被安裝到存儲部分2108中。
在通過軟件實現上述系列處理的情況下,從網絡比如因特網或存儲介質比如可拆卸介質2111安裝構成軟件的程序。
本領域的技術人員應當理解,這種存儲介質不局限于圖21所示的其中存儲有程序、與設備相分離地分發以向用戶提供程序的可拆卸介質2111。可拆卸介質2111的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(CD-ROM)和數字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器。或者,存儲介質可以是ROM 2102、存儲部分2108中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分發給用戶。
指令代碼由機器讀取并執行時,可執行上述根據本發明實施例的方法。
最后,還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。此外,在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括要素的過程、方法、物品或者設備中還存在另外的相同要素。再者,由措辭“第一”,“第二”,“第三”等等限定的技術特征或者參數,并不因為這些措辭的使用而具有特定的順序或者優先級或者重要性程度。換句話說,這些措辭的使用只是為了區分或識別這些技術特征或者參數而沒有任何其他的限定含義。
通過以上的描述不難看出,本發明的實施例提供的技術方案包括但不限于:
附記1、一種提取語句中的多詞單元的方法,包括:
針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分 詞塊中分詞的一個或多個語言學特征作為特征量;
將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;
采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及
提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,
其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。
附記2、根據附記1所述的方法,其中,所述語言學特征為以下中的一個或更多個:分詞的詞性、分詞的詞形、分詞序號或分詞出現概率。
附記3、根據附記1-2中任一項所述的方法,還包括:
依次將所述語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
附記4、根據附記3所述的方法,還包括:
根據所述N元組中的分詞的詞形特征,從詞形模板中獲取所述N元組中的分詞是多詞單元的一部分的詞形提取概率,并且將所述詞形提取概率也作為所述N元組中的分詞的特征量;和/或
根據所述N元組中的分詞的詞性特征,從詞性模板中獲取所述N元組中的分詞是多詞單元的一部分的詞性提取概率,并且將所述詞性提取概率也作為所述N元組中的分詞的特征量。
附記5、根據附記4所述的方法,還包括:
將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及
根據所述泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將所述詞性容錯信息也作為所述N元組中的分詞的特征量。
附記6、一種提取語句中的多詞單元的設備,包括:
語言學特征獲取單元,其針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;
輸入單元,其將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;
判斷單元,其采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及
提取單元,其提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,
其中,所述設備還包括:反饋信息獲取單元,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。
附記7、根據附記6所述的設備,其中,所述語言學特征為以下中的一個或更多個:分詞的詞性、分詞的詞形、分詞序號或分詞出現概率。
附記8、根據附記6-7中任一項所述的設備,還包括:
組合單元,其依次將所述語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
附記9、根據附記8所述的設備,還包括:
詞形提取概率獲取單元,其根據所述N元組中的分詞的詞形特征,從詞形模板中獲取所述N元組中的分詞是多詞單元的一部分的詞形提取概率,并且將所述詞形提取概率也作為所述N元組中的分詞的特征量;和/或
詞性提取概率獲取單元,其根據所述N元組中的分詞的詞性特征,從詞性模板中獲取所述N元組中的分詞是多詞單元的一部分的詞性提取概率,并且將所述詞性提取概率也作為所述N元組中的分詞的特征量。
附記10、根據附記8所述的設備,還包括:
泛化單元,其將所述N元組中的分詞的詞形替換為相應的詞性,以 得到混合了詞形與詞性的泛化N元組;以及
詞性容錯信息獲取單元,其根據所述泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將所述詞性容錯信息也作為所述N元組中的每個分詞的特征量。
附記11、一種訓練人工神經網絡的方法,所述人工神經網絡用于提取語句中的多詞單元,所述方法包括:
針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,所述訓練語句中的多詞單元已被標注;
將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;
采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及
根據判斷的結果和標注的結果,來訓練所述人工神經網絡,
其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。
附記12、根據附記11所述的方法,其中,所述語言學特征為以下中的一個或更多個:分詞的詞性、分詞的詞形、分詞序號或分詞出現概率。
附記13、根據附記11或12所述的方法,還包括:
依次將所述訓練語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
附記14、根據附記13所述的方法,還包括:
根據標注的結果和所述N元組中的分詞的詞形特征,計算所述N元組中的分詞是多詞單元的一部分的詞形提取概率,以生成詞形模板;和/或
根據標注的結果和所述N元組中的分詞的詞性特征,計算所述N元組中的分詞是多詞單元的一部分的詞性提取概率,以生成詞性模板。
附記15、根據附記13所述的方法,還包括:
將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及
根據標注的結果和所述泛化N元組中的分詞的詞形特征和詞性特征,計算所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,以生成詞性容錯模板。
附記16、一種訓練人工神經網絡的設備,所述人工神經網絡用于提取語句中的多詞單元,所述設備包括:
語言學特征獲取裝置,其針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,所述訓練語句中的多詞單元已被標注;
輸入裝置,其將所述特征量作為人工神經網絡的參數輸入到所述人工神經網絡中;
判斷裝置,采用所述人工神經網絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據所述第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及
訓練裝置,其根據判斷的結果和標注的結果,來訓練所述人工神經網絡,
其中,所述設備還包括:反饋信息獲取裝置,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。
附記17、根據附記16所述的設備,其中,所述語言學特征為以下中的一個或更多個:分詞的詞性、分詞的詞形、分詞序號或分詞出現概率。
附記18、根據附記16或17所述的設備,還包括:
組合裝置,其依次將所述訓練語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數。
附記19、根據附記18所述的設備,還包括:
詞形模板生成裝置,其根據標注的結果和所述N元組中的分詞的詞形特征,計算所述N元組中的分詞是多詞單元的一部分的詞形提取概率, 以生成詞形模板;和/或
詞性模板生成裝置,其根據標注的結果和所述N元組中的分詞的詞性特征,計算所述N元組中的分詞是多詞單元的一部分的詞性提取概率,以生成詞性模板。
附記20、根據附記18所述的設備,還包括:
泛化裝置,其將所述N元組中的分詞的詞形替換為相應的詞形,以得到混合了詞形與詞性的泛化N元組;以及
詞性容錯模板生成裝置,其根據標注的結果和所述泛化N元組中的分詞的詞形特征和詞性特征,計算所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,以生成詞性容錯模板。
盡管已示出和描述了本發明的優選實施例,可以設想,本領域的技術人員可在所附權利要求的精神和范圍內設計對本發明的各種修改。

關于本文
本文標題:多詞單元提取方法和設備及人工神經網絡訓練方法和設備.pdf
鏈接地址:http://www.pqsozv.live/p-6180847.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
钻石光影