• / 7
  • 下載費用:30 金幣  

一種基于HADOOP平臺的DEEPWEB查詢接口聚類方法.pdf

關 鍵 詞:
一種 基于 HADOOP 平臺 DEEPWEB 查詢 接口 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201310562974.4

申請日:

2013.11.14

公開號:

CN103678490A

公開日:

2014.03.26

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20131114|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 桂林電子科技大學; 強保華
發明人: 強保華
地址: 541004 廣西壯族自治區桂林市七星區金雞路1號
優先權:
專利代理機構: 桂林市華杰專利商標事務所有限責任公司 45112 代理人: 劉梅芳
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201310562974.4

授權公告號:

||||||

法律狀態公告日:

2017.01.11|||2014.04.23|||2014.03.26

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種基于Hadoop平臺的Deep?Web查詢接口聚類方法,包括:通過本體對Deep?Web查詢接口進行語義擴展,并對Deep?Web查詢接口進行潛在語義分析;選取支撐分布式并行計算的聚類算法,將所選取的聚類算法進行并行化改造,分別設計map函數、combine函數和reduce函數。所述方法還包括:配置用于減少網絡數據傳輸量的數據壓縮函數;搭建分布式平臺,在集群上運行。本發明通過構建集群,充分利用并行處理的優勢,將待聚類的查詢接口分發到多臺機器上,每臺機器進行初步聚類后匯總結果,再次分發待聚類數據到不同機器上,直到結果收斂。同時,能夠保證聚類結果的正確性與可靠性。解決了單機情況下遇到的難題。

權利要求書

權利要求書
1.  一種基于Hadoop平臺的Deep Web查詢接口聚類方法,包括:
通過本體對Deep Web查詢接口進行語義擴展,并對Deep Web查詢接口進行潛在語義分析;
選取支撐分布式并行計算的聚類算法,將所選取的聚類算法進行并行化改造,分別設計map函數、combine函數和reduce函數。

2.  根據權利要求1所述的方法,其中所述通過本體對Deep Web查詢接口進行語義擴展的具體步驟包括:
(1)確定領域本體的范圍,從Deep Web查詢接口中獲取核心屬性,并挖掘出屬性之間的語義關系、每個領域的查詢接口屬性,選擇出現頻率高于10的屬性;
(2)根據挖掘的屬性關系,構建概念之間的部分與整體關系、繼承關系、概念與實例關系、概念與屬性關系;
(3)使用本體描述語言構建核心領域本體;
(4)根據核心領域本體的屬性,從結果頁面中定位所需的目標數據區域;
(5)提取結果頁面的模式;
(6)將結果頁面中的概念和實例合并入領域核心本體;
(7)如果某一查詢接口中的屬性出現在本體中,則將該詞匯的上下文路徑上的所有屬性添加到該查詢接口的屬性集中。

3.  根據權利要求1所述的方法,其中所述對Deep Web查詢接口進行潛在語義分析的具體步驟包括:
(1)根據經過語義擴展后的查詢接口集構建Deep Web查詢接口的向量空間模型,即“查詢接口-屬性”矩陣;
(2)對第一步生成的“查詢接口-屬性”矩陣進行矩陣分解,然后選取K值,得到低秩逼近矩陣Ck;其中:K為聚類領域的個數。

4.  根據權利要求3所述的方法,其中所述的矩陣分解是采用SVD分解法分解。

5.  根據權利要求1-4中任一項所述的方法,其中所述的聚類算法是K-Means算法。

6.  根據權利要求5所述的方法,還包括:搭建分布式平臺,在集群上運行。

7.  根據權利要求6所述的方法,其中所述的分布式平臺包括名稱節點和備份 名稱節點。

8.  根據權利要求7所述的方法,還包括:配置用于減少網絡數據傳輸量的數據壓縮函數。

說明書

說明書一種基于Hadoop平臺的Deep Web查詢接口聚類方法
技術領域
本發明涉及服務計算技術領域,具體涉及一種基于Hadoop平臺的Deep Web查詢接口聚類方法。 
背景技術
隨著計算機技術的高速發展和互聯網應用的日益普及。Web中蘊含的信息也在極速的擴張著。目前,主流的搜索引擎,如百度、Google等搜索引擎的搜索范圍僅僅覆蓋了“表層網”(Surface Web),而對蘊含信息量占網絡總信息量70%的“深層網”(Deep Web)卻是束手無策。“深層網”具有如下4個特點:(1)用戶通過填寫表單來獲取信息;(2)蘊含的信息質量高、信息量大;(3)領域特征明顯;(4)大部分信息,用戶可以免費獲取。由于“深層網”自身的特點,以及其蘊含信息的巨大的價值,學術界和商業界對“深層網”搜索技術展開了廣泛的研究。面對浩如煙海的Deep Web數據,研究“深層網”搜索技術遇到各種困難,包括:(1)Deep Web查詢接口數量巨大且增長速度快、呈現出海量的特性;(2)用戶只能通過填寫Form表單獲取信息;(3)用戶提交的查詢需求差異性大;(4)數據的獲取具有動態性;(5)如何將用戶的請求轉化為具體的Deep Web數據源的請求。針對上面這5點難題,目前一種有效的策略是基于領域的Deep Web查詢接口集成,因為同一領域的Deep Web具有很強的共性。而如何對Deep Web查詢接口進行聚類便是這一策略需要解決的核心問題之一。傳統的單機的Deep Web查詢接口聚類處理方式在遇到海量的Deep Web查詢接口時,在時間復雜度和空間復雜度上遇到了瓶頸。 
發明內容
針對現有技術的不足,本發明提供一種基于Hadoop平臺的Deep Web查詢接口聚類方法,用戶可以輕松的搭建自己的分布式平臺,利用集群的計算和存儲能力完成海量數據的處理,并且能夠保證聚類結果的正確性與可靠性。 
本發明的技術方案如下所述。 
一種基于Hadoop平臺的Deep Web查詢接口聚類方法,包括: 
通過本體對Deep Web查詢接口進行語義擴展,并對Deep Web查詢接口進行 潛在語義分析; 
選取支撐分布式并行計算的聚類算法,將所選取的聚類算法進行并行化改造,分別設計map函數、combine函數和reduce函數。 
所述通過本體對Deep Web查詢接口進行語義擴展的具體步驟包括: 
(1)確定領域本體的范圍,從Deep Web查詢接口中獲取核心屬性,并挖掘出屬性之間的語義關系、每個領域的查詢接口屬性,選擇出現頻率高于10的屬性; 
(2)根據挖掘的屬性關系,構建概念之間的部分與整體關系、繼承關系、概念與實例關系、概念與屬性關系; 
(3)使用本體描述語言構建核心領域本體; 
(4)根據核心領域本體的屬性,從結果頁面中定位所需的目標數據區域; 
(5)提取結果頁面的模式; 
(6)將結果頁面中的概念和實例合并入領域核心本體; 
(7)如果某一查詢接口中的屬性出現在本體中,則將該詞匯的上下文路徑上的所有屬性添加到該查詢接口的屬性集中。 
所述對Deep Web查詢接口進行潛在語義分析的具體步驟包括: 
(1)根據經過語義擴展后的查詢接口集構建Deep Web查詢接口的向量空間模型,即“查詢接口-屬性”矩陣; 
(2)對第一步生成的“查詢接口-屬性”矩陣進行矩陣分解,然后選取K值,得到低秩逼近矩陣Ck;其中:K為聚類領域的個數。 
另外,本發明所述方法還包括:配置用于減少網絡數據傳輸量的數據壓縮函數;搭建分布式平臺,在集群上運行。 
本發明的有益效果: 
本發明通過構建集群,充分利用多臺計算機并行處理的優勢,將待聚類的查詢接口分發到多臺機器上,每臺機器進行初步聚類后,匯總結果,再次分發待聚類數據到不同機器上,直到結果收斂。同時,在聚類之前引入本體語義擴展和潛在語義分析的方法,增加同一領域Deep Web查詢接口之間的語義相似度,最終解決了單機情況下遇到的難題。 
附圖說明
圖1為本發明的拓撲結構示意圖。 
圖2為本發明的流程框圖。 
具體實施方式
下面結合附圖和實施例對本發明做進一步詳細描述。 
Hadoop是一個能夠對海量數據進行分布式處理的軟件架構。以Hadoop分布式文件系統(HDFS)和MapReduce為核心的Hadoop為用戶提供了系統底層透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優點使得用戶可以將Hadoop部署在低廉的硬件上,形成分布式系統;Mapreduce編程模型允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序。因此,用戶可以輕松的搭建自己的分布式平臺,利用集群的計算和存儲能力完成海量數據的處理。因此在對海量Deep Web查詢接口聚類時,引入Hadoop平臺是一個極好的選擇。同時為了保證聚類結果的正確性與可靠性,在聚類之前,使用本體對Deep Web查詢接口進行語義擴展,并對Deep Web查詢接口進行潛在語義分析(LSA)。 
通過本體對Deep Web查詢接口語義擴展的具體步驟如下: 
1.確定領域本體的范圍,從Deep Web查詢接口中獲取核心屬性,并挖掘出屬性之間的語義關系。每個領域的查詢接口屬性,選擇出現頻率高于10的屬性; 
2.根據挖掘的屬性關系,構建概念之間的部分與整體關系、繼承關系、概念與實例關系、概念與屬性關系; 
3.使用本體描述語言構建核心領域本體; 
4.根據核心領域本體的屬性,從結果頁面中定位所需的有用數據區域; 
5.提取結果頁面的模式; 
6.將結果頁面中的概念和實例合并入領域核心本體; 
7.如果某一查詢接口中的屬性出現在本體中,則將該詞匯的上下文路徑上的所有屬性添加到該查詢接口的屬性集中。 
基于LSA的Deep Web查詢接口聚類的具體步驟如下: 
1.根據經過語義擴展后的查詢接口集構建Deep Web查詢接口的向量空間模型,即“查詢接口-屬性”矩陣。 
2.對第一步生成的矩陣進行SVD的分解,然后選取K值,得到低秩逼近矩陣Ck;其中:K為聚類領域的個數。 
3.選取K-Means算法,對Deep Web查詢接口進行聚類。 
Hadoop平臺下Deep Web查詢接口聚類的具體步驟如下: 
1.選取K-Means算法。 
2.搭建分布式平臺,對平臺的正確性和可靠性進行測試。其中兩臺分別是名稱節點(NameNode)和備份名稱節點(seconderayNameNode),以防系統崩潰及用于數據恢復。 
3.將K-Means算法進行并行化改造,分別設計map函數、combine函數和reduce函數。 
4.配置數據壓縮函數減少網絡數據傳輸量。 
5.設置合理的reduce個數。 
6.在集群上運行。 
如圖1所示,基于Hadoop平臺的Deep Web查詢接口聚類方法,展示了整個系統的數據處理流程和拓撲結構。Hadoop集群中的計算節點和NameNode之間通過高速網絡相連。數據在網絡傳輸之前先進行壓縮,減少網絡帶寬壓力,提高聚類的速度。 
Hadoop數據處理具體步驟為: 
1.名稱節點(NameNode)接收到輸入數據,分片之后,將數據分發到數據節點(DataNode)上。 
2.DataNode接收到數據,將數據轉化為<keyInit,valueInit>,隨后Map函數來處理<keyInit,valueInit>輸入,然后計算產生一個中間的<keyTmp,valueTmp>對集合。 
3.DataNode上的Combine函數在本地將<keyTmp,valueTmp>根據keyTmp值,合并成<keyTmp,list(valueTmp)>,然后將<keyTmp,list(valueTmp)>進行壓縮后發送到運行Reduce函數的節點。 
4.Reduce函數處理接收到的<keyTmp,list(valueTmp)>,根據keyTmp排序后,進行進一步處理,得到最終的結果<keyResult,valueResult>,并輸出到分布式文件系統上。 

關于本文
本文標題:一種基于HADOOP平臺的DEEPWEB查詢接口聚類方法.pdf
鏈接地址:http://www.pqsozv.live/p-6180724.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
钻石光影