• / 18
  • 下載費用:30 金幣  

一種文檔結構化組織方法及裝置.pdf

關 鍵 詞:
一種 文檔 結構 組織 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201210317017.0

申請日:

2012.08.30

公開號:

CN103678302A

公開日:

2014.03.26

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20120830|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 北京百度網訊科技有限公司
發明人: 徐興軍
地址: 100085 北京市海淀區上地十街10號百度大廈2層
優先權:
專利代理機構: 北京鴻德海業知識產權代理事務所(普通合伙) 11412 代理人: 袁媛
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201210317017.0

授權公告號:

||||||

法律狀態公告日:

2018.11.09|||2015.09.02|||2014.03.26

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種文檔結構化組織方法及裝置。一種文檔結構化組織方法,包括:獲得具有層次化結構的主題框架;利用所述主題框架中的主題文本構成搜索條件;利用所述搜索條件在預置的文檔集合內進行搜索;根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中。與現有技術相比,本發明技術方案可以針對不同的知識領域,自動建立適當的分類體系。另一方面,主題框架是利用比較成熟的專家知識構建,因此能夠較好地體現各個分類的內在聯系,方便用戶系統化地對海量的文本進行閱讀。

權利要求書

權利要求書
1.  一種文檔結構化組織方法,其特征在于,包括:
獲得具有層次化結構的主題框架;
利用所述主題框架中的主題文本構成搜索條件;
利用所述搜索條件在預置的文檔集合內進行搜索;
根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中。

2.  根據權利要求1所述的方法,其特征在于,所述獲得具有層次化結構的主題框架,包括:
從已知的網站或圖書中,提取目錄內容,形成具有層次化結構的主題框架。

3.  根據權利要求1所述的方法,其特征在于,所述獲得具有層次化結構的主題框架,包括:
以目錄特征詞構成搜索條件,通過搜索發現包含目錄內容的資源;
從所發現的資源中,提取目錄內容,形成具有層次化結構的主題框架。

4.  根據權利要求1所述的方法,其特征在于,所述利用所述主題框架中的主題文本構成搜索條件,包括:
去除所述主題文本中的目錄特征詞,以剩余內容構成搜索條件。

5.  根據權利要求1所述的方法,其特征在于,所述利用所述主題框架中的主題文本構成搜索條件,包括:
利用所述層次化結構中每個節點的內容分別構成單一搜索條件。

6.  根據權利要求5所述的方法,其特征在于,所述利用所述搜索條件在預置的文檔集合內進行搜索,包括:
利用節點A內容所構成的搜索條件,在預置的文檔集合內進行搜索,得到第一搜索結果;
利用節點A的父節點內容所構成的搜索條件,在所述第一搜索結果中進 行搜索,得到第二搜索結果。

7.  根據權利要求6所述的方法,其特征在于,所述根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中,包括:
將第二搜索結果中的文檔,添加到節點A對應的主題文檔集合中;
或者
在所述第二搜索結果的數量不滿足預設需求的情況下,將第一搜索結果中的文檔,添加到節點A對應的主題文檔集合中。

8.  根據權利要求1所述的方法,其特征在于,所述利用所述主題框架中的主題文本構成搜索條件,包括:
利用所述層次化結構中具有繼承關系的至少兩級節點的文本內容構成復合搜索條件。

9.  根據權利要求8所述的方法,其特征在于,所述根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中,包括:
將符合所述復合搜索條件的文檔,添加到所述至少兩級節點中最低級節點對應的主題文檔集合中。

10.  根據權利要求1所述的方法,其特征在于,所述根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中,包括:
計算所述搜索結果與所述搜索條件的文本相似度,將相似度滿足預設要求的搜索結果添加到所述主題框架中的相應主題文檔集合中。

11.  一種文檔結構化組織裝置,其特征在于,包括:
主題框架獲得單元,用于獲得具有層次化結構的主題框架;
搜索條件構成單元,用于利用所述主題框架中的主題文本構成搜索條件;
搜索單元,用于利用所述搜索條件在預置的文檔集合內進行搜索;
組織單元,用于根據搜索結果與搜索條件的匹配情況,將文檔添加到所 述主題框架中的相應主題文檔集合中。

12.  根據權利要求11所述的裝置,其特征在于,所述主題框架獲得單元,具體用于:
從已知的網站或圖書中,提取目錄內容,形成具有層次化結構的主題框架。

13.  根據權利要求1所述的裝置,其特征在于,所述主題框架獲得單元,具體用于:
以目錄特征詞構成搜索條件,通過搜索發現包含目錄內容的資源;
從所發現的資源中,提取目錄內容,形成具有層次化結構的主題框架。

14.  根據權利要求11所述的裝置,其特征在于,所述搜索條件構成單元,具體用于:
去除所述主題文本中的目錄特征詞,以剩余內容構成搜索條件。

15.  根據權利要求1所述的裝置,其特征在于,所述搜索條件構成單元,具體用于:
利用所述層次化結構中每個節點的內容分別構成單一搜索條件。

16.  根據權利要求15所述的裝置,其特征在于,所述搜索單元,具體用于:
利用節點A內容所構成的搜索條件,在預置的文檔集合內進行搜索,得到第一搜索結果;
利用節點A的父節點內容所構成的搜索條件,在所述第一搜索結果中進行搜索,得到第二搜索結果。

17.  根據權利要求16所述的裝置,其特征在于,所述所述組織單元,具體用于:
將第二搜索結果中的文檔,添加到節點A對應的主題文檔集合中;
或者
在所述第二搜索結果的數量不滿足預設需求的情況下,將第一搜索結果中的文檔,添加到節點A對應的主題文檔集合中。

18.  根據權利要求11所述的裝置,其特征在于,所述搜索條件構成單元,具體用于:
利用所述層次化結構中具有繼承關系的至少兩級節點的文本內容構成復合搜索條件。

19.  根據權利要求18所述的裝置,其特征在于,所述組織單元,具體用于:
將符合所述復合搜索條件的文檔,添加到所述至少兩級節點中最低級節點對應的主題文檔集合中。

20.  根據權利要求11所述的方法,其特征在于,所述組織單元,具體用于:
計算所述搜索結果與所述搜索條件的文本相似度,將相似度滿足預設要求的搜索結果添加到所述主題框架中的相應主題文檔集合中。

說明書

說明書一種文檔結構化組織方法及裝置
技術領域
本發明涉及計算機應用技術領域,特別是涉及一種文檔結構化組織方法及裝置。
背景技術
隨著互聯網技術的發展,互聯網上的信息量呈爆炸式增長。為了更好地應用這些信息,需要對這些信息數據進行有效的管理。其中,文檔分類(document classification)是目前應用較為廣泛的一種管理技術。文檔分類是指按照根據文檔的內容或某種屬性,對文檔集合中的每一個文檔確定一個類別。這樣,用戶不但能夠方便地在特定的類別瀏覽文檔,而且可以通過限制搜索范圍來使文檔的查找更為容易。
然而,對于海量的文檔資源,即便是經過一定的分類處理,在每個分類下仍然會存在著大量的文檔。一方面,這些文檔可能依然對應著不同的子類,通過進一步建立各個分類的子分類,可以在一定程度上解決這個問題,但是分類體系不可能無限制地細化,而且不同的知識主題對細化的要求也是不盡相同的,難以統一管理。
另一方面,從文檔的實際內容考慮,每個分類下的文檔之間可能存在一些更為復雜的內在聯系,例如,文檔B是接續文檔A內容的、文檔C是對文檔C1、C2內容的總結或概括,等等。也就是說,文檔內容之間可能彼此存在順序或者層次化的關系,而僅憑現有的文檔分類體系,無法體現出這些關系。對于用戶而言,只能在某個分類下盲目地閱讀每篇文檔,造成理解上的困難。
發明內容
為解決上述技術問題,本發明實施例提供一種文檔結構化組織方法及裝置,從而實現對海量文檔的有序組織,技術方案如下:
一種文檔結構化組織方法,包括:
獲得具有層次化結構的主題框架;
利用所述主題框架中的主題文本構成搜索條件;
利用所述搜索條件在預置的文檔集合內進行搜索;
根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中。
根據本發明的一種具體實施方式,所述獲得具有層次化結構的主題框架,包括:
從已知的網站或圖書中,提取目錄內容,形成具有層次化結構的主題框架。
根據本發明的一種具體實施方式,所述獲得具有層次化結構的主題框架,包括:
以目錄特征詞構成搜索條件,通過搜索發現包含目錄內容的資源;
從所發現的資源中,提取目錄內容,形成具有層次化結構的主題框架。
根據本發明的一種具體實施方式,所述利用所述主題框架中的主題文本構成搜索條件,包括:
去除所述主題文本中的目錄特征詞,以剩余內容構成搜索條件。
根據本發明的一種具體實施方式,所述利用所述主題框架中的主題文本構成搜索條件,包括:
利用所述層次化結構中每個節點的內容分別構成單一搜索條件。
根據本發明的一種具體實施方式,所述利用所述搜索條件在預置的文檔集合內進行搜索,包括:
利用節點A內容所構成的搜索條件,在預置的文檔集合內進行搜索,得到第一搜索結果;
利用節點A的父節點內容所構成的搜索條件,在所述第一搜索結果中進行搜索,得到第二搜索結果。
根據本發明的一種具體實施方式,所述根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中,包括:
將第二搜索結果中的文檔,添加到節點A對應的主題文檔集合中。
根據本發明的一種具體實施方式,所述根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中,包括:
在所述第二搜索結果的數量不滿足預設需求的情況下,將第一搜索結果中的文檔,添加到節點A對應的主題文檔集合中。
根據本發明的一種具體實施方式,所述利用所述主題框架中的主題文本構成搜索條件,包括:
利用所述層次化結構中具有繼承關系的至少兩級節點的文本內容構成復合搜索條件。
根據本發明的一種具體實施方式,所述根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中,包括:
將符合所述復合搜索條件的文檔,添加到所述至少兩級節點中最低級節點對應的主題文檔集合中。
根據本發明的一種具體實施方式,所述根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中,包括:
計算所述搜索結果與所述搜索條件的文本相似度,將相似度滿足預設要求的搜索結果添加到所述主題框架中的相應主題文檔集合中。
一種文檔結構化組織裝置,其特征在于,包括:
主題框架獲得單元,用于獲得具有層次化結構的主題框架;
搜索條件構成單元,用于利用所述主題框架中的主題文本構成搜索條件;
搜索單元,用于利用所述搜索條件在預置的文檔集合內進行搜索;
組織單元,用于根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中。
根據本發明的一種具體實施方式,所述主題框架獲得單元,具體用于:
從已知的網站或圖書中,提取目錄內容,形成具有層次化結構的主題框架。
根據本發明的一種具體實施方式,所述主題框架獲得單元,具體用于:
以目錄特征詞構成搜索條件,通過搜索發現包含目錄內容的資源;
從所發現的資源中,提取目錄內容,形成具有層次化結構的主題框架。
根據本發明的一種具體實施方式,所述搜索條件構成單元,具體用于:
去除所述主題文本中的目錄特征詞,以剩余內容構成搜索條件。
根據本發明的一種具體實施方式,所述搜索條件構成單元,具體用于:
利用所述層次化結構中每個節點的內容分別構成單一搜索條件。
根據本發明的一種具體實施方式,所述搜索單元,具體用于:
利用節點A內容所構成的搜索條件,在預置的文檔集合內進行搜索,得到第一搜索結果;
利用節點A的父節點內容所構成的搜索條件,在所述第一搜索結果中進行搜索,得到第二搜索結果。
根據本發明的一種具體實施方式,所述所述組織單元,具體用于:
將第二搜索結果中的文檔,添加到節點A對應的主題文檔集合中。
根據本發明的一種具體實施方式,所述組織單元,具體用于:
在所述第二搜索結果的數量不滿足預設需求的情況下,將第一搜索結果中的文檔,添加到節點A對應的主題文檔集合中。
根據本發明的一種具體實施方式,所述搜索條件構成單元,具體用于:
利用所述層次化結構中具有繼承關系的至少兩級節點的文本內容構成復合搜索條件。
根據本發明的一種具體實施方式,所述組織單元,具體用于:
將符合所述復合搜索條件的文檔,添加到所述至少兩級節點中最低級節點對應的主題文檔集合中。
根據本發明的一種具體實施方式,所述組織單元,具體用于:
計算所述搜索結果與所述搜索條件的文本相似度,將相似度滿足預設要求的搜索結果添加到所述主題框架中的相應主題文檔集合中。
本發明實施例所提供的方案,首先在通過獲取專家知識的方式構建主題框架,進一步利用檢索技術,根據文檔與主題的相關性,將文檔分別添加至相應的主題之下,實現文檔資源的自動組織。與現有技術相比,本發明技術方案可以針對不同的知識領域,自動建立適當的分類體系。另一方面,主題框架是利用比較成熟的專家知識構建,因此能夠較好地體現各個分類的內在聯系,方便用戶系統化地對海量的文本進行閱讀。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明中記載的一些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
圖1為本發明實施例文檔結構化組織方法的一種流程圖;
圖2為本發明實施例文檔結構化組織裝置的一種結構示意圖。
具體實施方式
理想的文檔組織方式,應該具有較為清晰的層次劃分,以《專利審查指南》為例,其文檔組織結構如下:
第一部分初步審查
第一章發明專利的初步審查
1.引言
2.審查原則
3.審查程序
  3.1初步審查合格
  3.2申請文件的補正
  3.3明顯實質性缺陷的處理
       ……
     4.申請文件的形式審查
     ……
  第二章實用新型專利的初步審查
  ……
第二部分實質審查
……
第三部分進入國家階段的國際申請的審查
……
在一些UGC平臺中,用戶經常會上傳一些自有的文檔資料,供所有用戶分享,然而受到各種主觀或者客觀條件的限制,單一用戶上傳的內容可能是非常零散且沒有規律的,例如,用戶A上傳了完整第一部分,用戶B上傳第二部分的第一章、用戶C上傳了第三部分的第二章……等等。為了對用戶上傳的內容進行管理,系統一般會對用戶上傳的文檔進行分類,分類操作可以在系統側以人工或自動的方式進行,也可以請上傳用戶協助處理。但是,分類的功能十分有限,例如用戶上傳的《專利審查指南》中各章節的內容,在實際中可能會被分類至“知識產權”、“專利法”之類的分類欄目下,但是這樣的分類方式,顯然難以滿足用戶的閱讀需要:一方面,用戶很難在這種粗略的分類體系下找到自己感興趣的內容;另一方面,按照實際的閱讀習慣,很多文檔之間應該存著一定的閱讀順序,例如“第一部分初步審查”和“第二部分實質審查”。對于系統側而言,建立過于細致復雜的分類體系實現成本很高,即便在某些重要領域實現,也無法在某個分類中體現出文檔之間的內在聯系。
為解決上述問題,本發明實施例提供的一種文檔結構化組織方法,該方法可以包括以下步驟:
獲得具有層次化結構的主題框架;
利用所述主題框架中的主題文本構成搜索條件;
利用所述搜索條件在預置的文檔集合內進行搜索;
根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中。
本發明實施例中的文檔,可以表現為多種形式,例如可以是TXT、DOC、PDF等文件形式的文檔,也可以是網頁形式的文檔,這些并不影響本發明方案的實現。
本發明所提供的文檔組織方法,是在一定的文檔范圍內進行,也就是說,根據不同的應用環境,都存在一個預置的文檔集合。其中,該集合中的文檔,可以是預先處于無序無組織狀態的,例如一些UGC(User Generated Content,用戶生成內容)平臺的用戶上傳文檔文件、詞條文本、用戶提問等等。當然這些文檔也可以是預先經過分類處理、已經處于一定的分類體系中的文檔。本發明的目的,是對文檔集合中的文檔按照一種新的方式進行組織,因此文檔是否預先具有分類信息,并不會影響本發明的實現。
應用本發明所提供的技術方案,可以對特定范圍內的文檔進行組織,例如:在網絡文庫內進行組織,則文庫中所有的用戶上傳文件構成預置的文檔集合;在知識平臺進行組織,則該平臺中所有的知識主題構成預置的文檔集合;在百科平臺進行組織,則該臺中所有的百科詞條構成預置的文檔集合。當然,根據實際的應用需要,可以靈活設置需要進行組織的文檔范圍大小,小至某個具體的文檔主題類別,大至全互聯網范圍,本發明對此并不需要進行限定。
本發明實施例所提供的方案,首先通過獲取專家知識的方式構建主題框架,其中,專家知識可以人工構建,也可以從已有的資源中提取目錄的方式獲得。進一步利用檢索技術,在預置的文檔集合中找到與每個主題相關的文檔,然后將文檔分別添加至主題框架的相應主題之下,實現文檔資源的自動組織。與現有技術相比,本發明技術方案可以針對不同的知識領域,自動建立適當的分類體系。另一方面,主題框架是利用比較成熟的專家知識構建,因此能夠較好地體現各個分類的內在聯系,方便用戶系統化地對海量的文本 進行閱讀。
為了使本領域技術人員更好地理解本發明中的技術方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行詳細地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員所獲得的所有其他實施例,都應當屬于本發明保護的范圍。
圖1所示為本發明實施例所提供的一種文檔結構化組織流程圖,該方法可以包括以下步驟:
S101,得具有層次化結構的主題框架;
理想的文檔組織方式,應該具有較為清晰的層次劃分,例如,對于“知識產權”類的文檔,如果能夠按照《專利審查指南》或者其他書籍的結構,將散亂無序的文檔組織成類似以下的形式:
第一部分
    第一章
    第二章
    ……
第二部分
……
那么,這種組織方式既可以讓用戶更方便地找到自己感興趣的內容,又可以指導用戶在一個相對合理完善的體系下,按照一定的順序,有針對性地閱讀。本發明的目的,就是在一定的文檔集合范圍內,對其中散亂無序的單個文檔進行組織,使其具有一定的層次化結構,方便用戶閱讀。
為實現上述目的,首先要建立具有層次化結構的主題框架。該主題框架可以是完全人工構建,也可以通過從已有資源中提取目錄的方式獲得。
例如,可以從一些經典的書籍中,直接提取其目錄內容作為主題框架。本方法尤其適合應用在一些收費的資料平臺。在互聯網中,存在一些需要付 費才能看到圖書內容的平臺,但是允許用戶在不付費的情況下瀏覽圖書的摘要以及目錄,其中,目錄的內容可以直接用于本發明的方案。
另外,在一些知識網站或教育網站中,也存在著類似的知識架構,如果預先已知這樣的網站,也可以從這些網站中提取出相應的主題框架。
上述方案,是在已知確定的圖書資源或網站資源的前提下實施的,如果預先并不清楚哪里存在這樣的資源,則需要先進行目錄挖掘工作,具體實施方式是:利用目錄特征詞構成搜索條件,然后將特征詞發送至搜索引擎,在整個互聯網范圍或某個特定范圍內搜索到包含目錄內容的資源。其中,目錄特征詞是目錄中經常會出現的內容,除了“目錄”二字之外,還包括一些用于標識章節的特征詞,例如:“第x部分”、“第x章”、“第x節”、“1.1”“1.2”等等,利用這些關鍵詞構成單一形式或復合形式的搜索條件,可以有效地從網絡中發現包含目錄內容的資源,進一步就可以從發現的資源中提取目錄內容,形成具有層次化結構的主題框架。
S102,用所述主題框架中的主題文本構成搜索條件;
搜索引擎的基本功能,就是根據給定的搜索條件,找出與該搜索條件內容相匹配的其他網絡資源。根據搜索引擎的基本功能,在本發明中,可以利用主題文本的內容內容構成搜索條件輸入搜索引擎,在一定的文檔集合范圍內進行搜索,然后根據搜索結果對文檔集合中的文檔進行組織。
在本發明中,建立主題框架之后,利用主題文本內容構成搜索條件,以便后續利用這些搜索條件進行搜索。
例如,從《電力系統》中,經獲得目錄的主題框架內容如下:
第一章電能轉換技術
  第1.1節直流電機
  第1.2節變壓器
第二章……
……
可知,該主題框架共有兩層結構,第一層為“章”,第二層為“節”, 如果把該結構理解為樹,那么《電力系統》構成根節點,“節”構成葉子節點。
在本發明的一種實施方式中,可以利用模板匹配的方式,先將各主題文本中的目錄特征詞“第x張”、“第x節”去掉,則剩余的內容“電能轉換技術”、“直流電機”、“變壓器”構成三個關鍵詞。
在實際應用過程中,每個關鍵詞可以單獨構成搜索條件分別進行搜索,也可以彼此結合構成復合搜索條件,具體實施方式將在后面詳細描述。
S 103,用所述搜索條件在預置的文檔集合內進行搜索;
構成搜索條件之后,將搜索條件發送至搜索引擎,并且得到搜索引擎所返回的一個或多個搜索結果。
本發明方案,是直接利用已有的搜索引擎進行搜索,本身不需要對搜索引擎進行改動。根據實際的應用需求,一般會將搜索限定在特殊的范圍內。例如需要對文庫平臺中的內容進行組織,則應該將搜索條件直接輸入直接輸入該文庫平臺的搜索引擎。得到的搜索結果以文件為單位,每條搜索結果對應該文庫平臺中的一個文檔文件(例如TXT、DOC、PDF等格式);對于問答平臺,將搜索條件直接輸入該問答平臺的搜索引擎,得到的搜索結果以“問答對”為單位返回,每條搜索結果對應該問答平臺中的一個問答對;等等。
如果平臺本身已經具有一定的分類體系,那么為了保證搜索結果和主題框架的相關性,還可以進一步將搜索范圍限制在特定的分類,例如,對于已構建的《電力系統》的主題框架,如果需要對文庫中的文檔進行組織,則可以將搜索范圍限制在“電力”、“電氣”特定領域。
S 104,據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中。
最基本的一種方式,是分別以每個主題的內容構成單一的搜索關鍵詞分別進行搜索后,將滿足每個搜索條件的搜索結果,分別歸入相應的主題之下。
對于搜索引擎而言,由于搜索策略的不同,可能會返回大量的搜索結果,但是在實際應用中,有些搜索引擎可能更注重召回率而不是搜索結果的準確 性,因此,對于所得到的搜索結果,可以通過計算相似度的方式做進一步的篩選。
對于文本相似度的計算方法,從大的方面分類,可以分為字面相似與語義相似。字面相似,最基本的方法是利用“公共字串長度/當前文本總長度”的公式計算,當然也可以引入歐式距離等其他更復雜的算法計算。。語義相似,則需要在字面相似的基礎上,引入一些同義資源,對同義詞進行替換歸一,然后再計算,如“電能轉換”與“電能轉化”歸一為“電能轉化”,然后再進行字面相似度計算。字面相似在很多情況下,可以近似估計出語義相似,且不需要額外資源;語義相似則需要額外資源,但也會帶來比字面相似更準確的效果。根據實際應用需求,本領域技術人員可以靈活選擇各種文本相似的具體計算方法,本發明對此并不需要進行限定。
此外,在進行相似度計算的過程中,可以分別計算搜索關鍵詞與每條搜索結果文檔標題的文本相似度,也可以分別計算搜索關鍵詞與文檔內容的文本相似度,本發明對此同樣不需要進行限定。
計算得到文本相似度之后,根據預設的條件,將文本相似度滿足要求的搜索結果添加到主題框架中的相應主題文檔集合中。例如,將相似度滿足預設閾值的所有搜索結果添加到相應的主題文檔集合中;或者對所有搜索結果的相似度進行排序,將排名前N位(N為預設的正整數,例如N=5、N=10、N=20等等)的搜索結果添加到相應的主題文檔集合中;等等。
另外,如果搜索引擎本身比較注重搜索結果質量而不是召回率,而且搜索結果一般也都會根據與關鍵詞的相關(相似)程度進行排序,那么也可以直接對搜索結果做適當的截斷處理,例如:僅選取排名前N位的搜索結果,并將這些搜索結果添加至相應的主題文檔集合中。
例如,分別以“電能轉換技術”、“直流電機”、“變壓器”三個關鍵詞進行檢索,并且分別選取與關鍵詞的文本相似度排名前5位的搜索結果,加入相應的主題中,最終結果如下:
第一章電能轉換技術
  (一)第3章電能轉換技術
  (二)供用電常識及電能轉換技術
  (三)第七章電能傳輸及轉換技術
  (四)三相不斷電系統之電能轉換及并聯技術
  (五)光伏發電系統的并聯功率轉換技術
第1.1節直流電機
  (一)第9章直流電動機
  (二)第9章直流電動機
  (三)第3章直流電動機
  (四)直流電機
  (五)直流電機4
第1.2節:變壓器
  (一)變壓器
  (二)變壓器
  (三)變壓器
  (四)變壓器
  (五)變壓器
需要說明的是,上述下劃線標出的部分為文檔的標題,有些標題盡管名稱相同,但是對應著不同的文檔。
應用上述方案,已經可以實現最基本的文檔結構化組織功能,但是在實際應用中,可能會遇到以下問題:
在相同或不同的主題框架中,可能存在多個名稱相同的子主題,例如:在“第一章發明專利申請的初步審查”中,存在“審查原則”、“審查程序”等子主題,而在“第二章實用新型專利申請的初步審查”中,同樣存在“審查原則”、“審查程序”等同名子主題。如果應用上述的方法,可能會導致實際文檔的分類錯誤或者重復分類的情況發生。
另外,對于同一份文檔X,其內容可能同時與多層主題匹配,例如某個 文檔《變壓器》,可能其內容既能與高級主題“電能轉換技術”匹配,也能與低級主題“變壓器”匹配,從而導致同一文檔分別被歸入不同層級的主題下,而這種組織方式仍然存在不合理之處。
為進一步解決上述問題,本發明提供的一種改進的方案如下:
將層次化主題框架結構中的每一個主題看做是一個節點,對于任一個節點A(除根節點之外),首先利用節點A內容所構成的搜索條件,在預置的文檔集合內進行搜索,得到第一搜索結果;
然后利用節點A的父節點(假設為A1)內容所構成的搜索條件,在第一搜索結果中進行搜索,得到第二搜索結果。
上述方案,相當于在以A為條件的搜索結果中,利用A1為條件進行二次搜索。因此,第二搜索結果的數量不會大于第一搜索結果的數量。
例如,對于“發明專利申請的初步審查——審查原則”這一主題分支,第一次搜索用“審查原則”做關鍵詞,搜索結果為10篇文檔,這10篇文檔都與“審查原則”相關,但是卻無法確認是“發明專利審查原則”還是“實用新型專利審查原則”,因此采用“審查原則”的上一級主題,即父節點“發明專利申請的初步審查”作為關鍵詞進行二次搜索,對第一搜索結果進行限縮,就可以有效地篩選出與“發明專利”相關的“審查原則”文檔。假設二次檢索后,發現搜索結果包含有3篇文檔,那么可以將這3篇文檔加入“發明專利申請的初步審查—審查原則”的主題文檔集合中。
在實際應用過程中,如果兩次搜索結果的數量差距并不大,則認為二次搜索并不能實現有效的限縮,這種情況下,可以直接將第一搜索結果加入到相應的主題文檔集合中。另外,如果一次搜索存在結果,經過二次搜索后,發現無法命中有效的搜索結果,這種情況下,為了保證召回率,也可以直接將第一搜索結果加入到相應的主題文檔集合中。
可以理解的是,上述方案并不僅限于利用兩級節點做二次搜索,根據具體的應用需求,可以利用具有層級關系的多級節點進行檢索。例如,對于“初步審查——發明專利申請的初步審查——審查原則”這一主題分支,可以分 別利用“審查原則”、“發明專利申請的初步審查”、“初步審查”進行三次檢索,在檢索過程中,如果發現某級別的檢索結果數量不滿足預設需求,則可以停止繼續利用更高級的節點主題節點進行檢索。
在本發明的另一種實施方式中,還可以利用具有繼承關系的多級兩級節點的文本內容構成復合搜索條件,然后進行檢索。將得到的檢索結果直接加入較低節點的對應的主題文檔集合中。
例如,對于“發明專利申請的初步審查——審查原則”這一主題分支,直接利用“審查原則”和“發明專利申請的初步審查”構成復合搜索條件進行檢索,可以直接搜到3篇文檔,那么可以將這3篇文檔加入“發明專利申請的初步審查—審查原則”的主題文檔集合中。
如果發現使用復合條件沒有命中結果,那么可以將搜索條件改為由低級節點構成的單一搜索條件,從而提高召回率
類似地,上述方案并不僅限于利用兩級節點構成復合搜索條件,根據具體的應用需求,可以利用具有層級關系的多級節點構成復合搜索條件。例如,對于“初步審查——發明專利申請的初步審查——審查原則”這一主題分支,可以利用“審查原則”、“發明專利申請的初步審查”、“初步審查”構成復合搜索條件。在檢索過程中,如果發現無法命中搜索結果,則按照層級的高低,逐步減少搜索條件中的限制內容。
上述兩種方案,都可以有效解決名稱相同的子主題導致實際文檔的分類錯誤或者重復分類的情況。在本發明的一種優選實施方式中,可以按照主題級別由低向高的順序進行檢索以及文檔組織,對于已經加入低級主題文檔集合的文檔,不允許其加入同一分支中的更高級的主題文檔集合,從而有效避免同一文檔分別被歸入不同層級的主題下這種不合理情況的出現。
另外,可以理解的是,根據具體的應用需求,在上述兩種方案中,也可以利用計算文本相似度的方式、或者直接截取搜索結果前N位的方式,將滿足條件的搜索結果加入相應的主題文檔集,這里不再重復描述。
相應于上面的方法實施例,本發明還提供一種文檔結構化組織裝置,參見圖2所示,該裝置可以包括:
主題框架獲得單元210,用于獲得具有層次化結構的主題框架;
理想的文檔組織方式,應該具有較為清晰的層次劃分,例如,對于“知識產權”類的文檔,如果能夠按照《專利審查指南》或者其他書籍的結構,將散亂無序的文檔組織成類似以下的形式:
第一部分
    第一章
    第二章
    ……
第二部分
……
那么,這種組織方式既可以讓用戶更方便地找到自己感興趣的內容,又可以指導用戶在一個相對合理完善的體系下,按照一定的順序,有針對性地閱讀。本發明的目的,就是在一定的文檔集合范圍內,對其中散亂無序的單個文檔進行組織,使其具有一定的層次化結構,方便用戶閱讀。
為實現上述目的,首先要建立具有層次化結構的主題框架。該主題框架可以是完全人工構建,也可以通過從已有資源中提取目錄的方式獲得。
例如,可以從一些經典的書籍中,直接提取其目錄內容作為主題框架。本方法尤其適合應用在一些收費的資料平臺。在互聯網中,存在一些需要付費才能看到圖書內容的平臺,但是允許用戶在不付費的情況下瀏覽圖書的摘要以及目錄,其中,目錄的內容可以直接用于本發明的方案。
另外,在一些知識網站或教育網站中,也存在著類似的知識架構,如果預先已知這樣的網站,也可以從這些網站中提取出相應的主題框架。
上述方案,是在已知確定的圖書資源或網站資源的前提下實施的,如果預先并不清楚哪里存在這樣的資源,則需要先進行目錄挖掘工作,具體實施方式是:利用目錄特征詞構成搜索條件,然后將特征詞發送至搜索引擎,在 整個互聯網范圍或某個特定范圍內搜索到包含目錄內容的資源。其中,目錄特征詞是目錄中經常會出現的內容,除了“目錄”二字之外,還包括一些用于標識章節的特征詞,例如:“第x部分”、“第x章”、“第x節”、“1.1”“1.2”等等,利用這些關鍵詞構成單一形式或復合形式的搜索條件,可以有效地從網絡中發現包含目錄內容的資源,進一步就可以從發現的資源中提取目錄內容,形成具有層次化結構的主題框架。
搜索條件構成單元220,用于利用所述主題框架中的主題文本構成搜索條件;
搜索引擎的基本功能,就是根據給定的搜索條件,找出與該搜索條件內容相匹配的其他網絡資源。根據搜索引擎的基本功能,在本發明中,可以利用主題文本的內容內容構成搜索條件輸入搜索引擎,在一定的文檔集合范圍內進行搜索,然后根據搜索結果對文檔集合中的文檔進行組織。
在本發明中,建立主題框架之后,利用主題文本內容構成搜索條件,以便后續利用這些搜索條件進行搜索。
例如,從《電力系統》中,經獲得目錄的主題框架內容如下:
第一章電能轉換技術
  第1.1節直流電機
  第1.2節變壓器
  第二章……
……
可知,該主題框架共有兩層結構,第一層為“章”,第二層為“節”,如果把該結構理解為樹,那么《電力系統》構成根節點,“節”構成葉子節點。
在本發明的一種實施方式中,可以利用模板匹配的方式,先將各主題文本中的目錄特征詞“第x張”、“第x節”去掉,則剩余的內容“電能轉換技術”、“直流電機”、“變壓器”構成三個關鍵詞。
在實際應用過程中,每個關鍵詞可以單獨構成搜索條件分別進行搜索, 也可以彼此結合構成復合搜索條件,具體實施方式將在后面詳細描述。
搜索單元230,用于利用所述搜索條件在預置的文檔集合內進行搜索;
構成搜索條件之后,將搜索條件發送至搜索引擎,并且得到搜索引擎所返回的一個或多個搜索結果。
本發明方案,是直接利用已有的搜索引擎進行搜索,本身不需要對搜索引擎進行改動。根據實際的應用需求,一般會將搜索限定在特殊的范圍內。例如需要對文庫平臺中的內容進行組織,則應該將搜索條件直接輸入直接輸入該文庫平臺的搜索引擎。得到的搜索結果以文件為單位,每條搜索結果對應該文庫平臺中的一個文檔文件(例如TXT、DOC、PDF等格式);對于問答平臺,將搜索條件直接輸入該問答平臺的搜索引擎,得到的搜索結果以“問答對”為單位返回,每條搜索結果對應該問答平臺中的一個問答對;等等。
如果平臺本身已經具有一定的分類體系,那么為了保證搜索結果和主題框架的相關性,還可以進一步將搜索范圍限制在特定的分類,例如,對于已構建的《電力系統》的主題框架,如果需要對文庫中的文檔進行組織,則可以將搜索范圍限制在“電力”、“電氣”特定領域。
組織單元240,用于根據搜索結果與搜索條件的匹配情況,將文檔添加到所述主題框架中的相應主題文檔集合中。
最基本的一種方式,是分別以每個主題的內容構成單一的搜索關鍵詞分別進行搜索后,將滿足每個搜索條件的搜索結果,分別歸入相應的主題之下。
對于搜索引擎而言,由于搜索策略的不同,可能會返回大量的搜索結果,但是在實際應用中,有些搜索引擎可能更注重召回率而不是搜索結果的準確性,因此,對于所得到的搜索結果,可以通過計算相似度的方式做進一步的篩選。
對于文本相似度的計算方法,從大的方面分類,可以分為字面相似與語義相似。字面相似,最基本的方法是利用“公共字串長度/當前文本總長度”的公式計算,當然也可以引入歐式距離等其他更復雜的算法計算。。語義相似,則需要在字面相似的基礎上,引入一些同義資源,對同義詞進行替換歸 一,然后再計算,如“電能轉換”與“電能轉化”歸一為“電能轉化”,然后再進行字面相似度計算。字面相似在很多情況下,可以近似估計出語義相似,且不需要額外資源;語義相似則需要額外資源,但也會帶來比字面相似更準確的效果。根據實際應用需求,本領域技術人員可以靈活選擇各種文本相似的具體計算方法,本發明對此并不需要進行限定。
此外,在進行相似度計算的過程中,可以分別計算搜索關鍵詞與每條搜索結果文檔標題的文本相似度,也可以分別計算搜索關鍵詞與文檔內容的文本相似度,本發明對此同樣不需要進行限定。
計算得到文本相似度之后,根據預設的條件,將文本相似度滿足要求的搜索結果添加到主題框架中的相應主題文檔集合中。例如,將相似度滿足預設閾值的所有搜索結果添加到相應的主題文檔集合中;或者對所有搜索結果的相似度進行排序,將排名前N位(N為預設的正整數,例如N=5、N=10、N=20等等)的搜索結果添加到相應的主題文檔集合中;等等。
另外,如果搜索引擎本身比較注重搜索結果質量而不是召回率,而且搜索結果一般也都會根據與關鍵詞的相關(相似)程度進行排序,那么也可以直接對搜索結果做適當的截斷處理,例如:僅選取排名前N位的搜索結果,并將這些搜索結果添加至相應的主題文檔集合中。
例如,分別以“電能轉換技術”、“直流電機”、“變壓器”三個關鍵詞進行檢索,并且分別選取與關鍵詞的文本相似度排名前5位的搜索結果,加入相應的主題中,最終結果如下:
第一章電能轉換技術
  (一)第3章電能轉換技術
  (二)供用電常識及電能轉換技術
  (三)第七章電能傳輸及轉換技術
  (四)三相不斷電系統之電能轉換及并聯技術
  (五)光伏發電系統的并聯功率轉換技術
第1.1節直流電機
  (一)第9章直流電動機
  (二)第9章直流電動機
  (三)第3章直流電動機
  (四)直流電機
  (五)直流電機4
第1.2節:變壓器
  (一)變壓器
  (二)變壓器
  (三)變壓器
  (四)變壓器
  (五)變壓器
需要說明的是,上述下劃線標出的部分為文檔的標題,有些標題盡管名稱相同,但是對應著不同的文檔。
應用上述方案,已經可以實現最基本的文檔結構化組織功能,但是在實際應用中,可能會遇到以下問題:
在相同或不同的主題框架中,可能存在多個名稱相同的子主題,例如:在“第一章發明專利申請的初步審查”中,存在“審查原則”、“審查程序”等子主題,而在“第二章實用新型專利申請的初步審查”中,同樣存在“審查原則”、“審查程序”等同名子主題。如果應用上述的方法,可能會導致實際文檔的分類錯誤或者重復分類的情況發生。
另外,對于同一份文檔X,其內容可能同時與多層主題匹配,例如某個文檔《變壓器》,可能其內容既能與高級主題“電能轉換技術”匹配,也能與低級主題“變壓器”匹配,從而導致同一文檔分別被歸入不同層級的主題下,而這種組織方式仍然存在不合理之處。
為進一步解決上述問題,本發明提供的一種改進的方案如下:
將層次化主題框架結構中的每一個主題看做是一個節點,對于任一個節點A(除根節點之外),首先利用節點A內容所構成的搜索條件,在預置的 文檔集合內進行搜索,得到第一搜索結果;
然后利用節點A的父節點(假設為A1)內容所構成的搜索條件,在第一搜索結果中進行搜索,得到第二搜索結果。
上述方案,相當于在以A為條件的搜索結果中,利用A1為條件進行二次搜索。因此,第二搜索結果的數量不會大于第一搜索結果的數量。
例如,對于“發明專利申請的初步審查——審查原則”這一主題分支,第一次搜索用“審查原則”做關鍵詞,搜索結果為10篇文檔,這10篇文檔都與“審查原則”相關,但是卻無法確認是“發明專利審查原則”還是“實用新型專利審查原則”,因此采用“審查原則”的上一級主題,即父節點“發明專利申請的初步審查”作為關鍵詞進行二次搜索,對第一搜索結果進行限縮,就可以有效地篩選出與“發明專利”相關的“審查原則”文檔。假設二次檢索后,發現搜索結果包含有3篇文檔,那么可以將這3篇文檔加入“發明專利申請的初步審查—審查原則”的主題文檔集合中。
在實際應用過程中,如果兩次搜索結果的數量差距并不大,則認為二次搜索并不能實現有效的限縮,這種情況下,可以直接將第一搜索結果加入到相應的主題文檔集合中。另外,如果一次搜索存在結果,經過二次搜索后,發現無法命中有效的搜索結果,這種情況下,為了保證召回率,也可以直接將第一搜索結果加入到相應的主題文檔集合中。
可以理解的是,上述方案并不僅限于利用兩級節點做二次搜索,根據具體的應用需求,可以利用具有層級關系的多級節點進行檢索。例如,對于“初步審查——發明專利申請的初步審查——審查原則”這一主題分支,可以分別利用“審查原則”、“發明專利申請的初步審查”、“初步審查”進行三次檢索,在檢索過程中,如果發現某級別的檢索結果數量不滿足預設需求,則可以停止繼續利用更高級的節點主題節點進行檢索。
在本發明的另一種實施方式中,還可以利用具有繼承關系的多級兩級節點的文本內容構成復合搜索條件,然后進行檢索。將得到的檢索結果直接加入較低節點的對應的主題文檔集合中。
例如,對于“發明專利申請的初步審查——審查原則”這一主題分支,直接利用“審查原則”和“發明專利申請的初步審查”構成復合搜索條件進行檢索,可以直接搜到3篇文檔,那么可以將這3篇文檔加入“發明專利申請的初步審查—審查原則”的主題文檔集合中。
如果發現使用復合條件沒有命中結果,那么可以將搜索條件改為由低級節點構成的單一搜索條件,從而提高召回率
類似地,上述方案并不僅限于利用兩級節點構成復合搜索條件,根據具體的應用需求,可以利用具有層級關系的多級節點構成復合搜索條件。例如,對于“初步審查——發明專利申請的初步審查——審查原則”這一主題分支,可以利用“審查原則”、“發明專利申請的初步審查”、“初步審查”構成復合搜索條件。在檢索過程中,如果發現無法命中搜索結果,則按照層級的高低,逐步減少搜索條件中的限制內容。
上述兩種方案,都可以有效解決名稱相同的子主題導致實際文檔的分類錯誤或者重復分類的情況。在本發明的一種優選實施方式中,可以按照主題級別由低向高的順序進行檢索以及文檔組織,對于已經加入低級主題文檔集合的文檔,不允許其加入同一分支中的更高級的主題文檔集合,從而有效避免同一文檔分別被歸入不同層級的主題下這種不合理情況的出現。
另外,可以理解的是,根據具體的應用需求,在上述兩種方案中,也可以利用計算文本相似度的方式、或者直接截取搜索結果前N位的方式,將滿足條件的搜索結果加入相應的主題文檔集,這里不再重復描述。
為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本發明時可以把各單元的功能在同一個或多個軟件和/或硬件中實現。
通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本發明可借助軟件加必需的通用硬件平臺的方式來實現。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品可以存儲在存儲介質中,如ROM/RAM、 磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執行本發明各個實施例或者實施例的某些部分所述的方法。
本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術人員在不付出創造性勞動的情況下,即可以理解并實施。
本發明可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執行特定任務或實現特定抽象數據類型的例程、程序、對象、組件、數據結構等等。也可以在分布式計算環境中實踐本發明,在這些分布式計算環境中,由通過通信網絡而被連接的遠程處理設備來執行任務。在分布式計算環境中,程序模塊可以位于包括存儲設備在內的本地和遠程計算機存儲介質中。
以上所述僅是本發明的具體實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護范圍。

關于本文
本文標題:一種文檔結構化組織方法及裝置.pdf
鏈接地址:http://www.pqsozv.live/p-6180725.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
钻石光影