• / 7
  • 下載費用:30 金幣  

一種不依賴樣本的釣魚網站檢測方法.pdf

關 鍵 詞:
一種 不依賴 樣本 釣魚 網站 檢測 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201210333169.X

申請日:

2012.09.07

公開號:

CN103685174A

公開日:

2014.03.26

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):H04L 29/06申請日:20120907|||公開
IPC分類號: H04L29/06; G06F17/30 主分類號: H04L29/06
申請人: 中國科學院計算機網絡信息中心
發明人: 耿光剛; 洪博
地址: 100190 北京市海淀區中關村南四街4號
優先權:
專利代理機構: 北京君尚知識產權代理事務所(普通合伙) 11200 代理人: 余長江
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201210333169.X

授權公告號:

||||||

法律狀態公告日:

2016.12.21|||2014.04.23|||2014.03.26

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明涉及一種不依賴樣本的釣魚網站檢測方法本發明釣魚網站檢測方法,1)根據待檢測網頁的目標統一資源定位符TargetURL提取得到域名,將所述域名進行PageRank和/或Alexa排名值查詢;2)對所述待檢測網頁進行標題抓取,提取出網頁標題字符串,根據所述字符串和釣魚敏感詞進行匹配;3)在搜索引擎上以所述網頁標題為查詢關鍵字進行檢索;4)查詢TargetURL和待測網頁標題完全相同的網頁集合中對應的域名服務器NS和服務器IP地址是否相同,來判斷待檢測網站為釣魚網站。本發明充分利用釣魚網站的共性特點,通過互聯網公開資源(PageRank、Alexa排名、網站在通用搜索引擎中收錄和排名情況),不僅克服了釣魚樣本收集難的問題,同時對針對新出現目標的釣魚有良好的適應檢測能力。

權利要求書

權利要求書
1.  一種不依賴樣本的釣魚網站檢測方法,其步驟包括:
1)根據待檢測網頁的目標統一資源定位符TargetURL提取得到域名,將所述域名進行PageRank和/或Alexa排名值查詢;
2)對在設定排名范圍內的所述待檢測網頁進行標題抓取,提取出網頁標題字符串,根據所述字符串和釣魚關鍵詞進行匹配;
3)對于匹配的待檢測網頁,在搜索引擎上以所述網頁標題為查詢關鍵字進行檢索;
4)若所述搜索引擎返回結果中沒有TargetURL且該返回結果中存在與待測網頁標題完全相同的網頁集合,則查詢所述TargetURL和所述待測網頁標題完全相同的網頁集合中對應的域名服務器NS和服務器IP地址是否相同,將不相同的待檢測網站判定為釣魚網站。

2.  如權利要求1所述的不依賴樣本的釣魚網站檢測方法,其特征在于,步驟3)還包括對所述TargetURL進行網頁抓取并對所述抓取到網頁進行解析,判斷該網頁中是否存在與所述待檢測網頁標題完全相同的網頁集合所指向的域名鏈接。

3.  如權利要求1所述的不依賴樣本的釣魚網站檢測方法,其特征在于,所述釣魚關鍵詞通過統計算法自動統計詞頻獲得。

4.  如權利要求1所述的不依賴樣本的釣魚網站檢測方法,其特征在于,所述排名范圍是PageRank值大于K和/或Alexa排名值大于M,其中,K、M為可調節參數,K取值為1或2,M取0。

5.  如權利要求1所述的不依賴樣本的釣魚網站檢測方法,其特征在于,所述待檢測網頁進行抓取在Linux系統下運行Shell命令wget TargetUrl抓取。

6.  如權利要求5所述的不依賴樣本的釣魚網站檢測方法,其特征在于,所述網頁標題的提取方法是對所述抓取得到網頁進行字符串匹配,獲取<title>和</title>標簽內容。

7.  如權利要求1所述的不依賴樣本的釣魚網站檢測方法,其特征在于,所述搜索引擎檢索所述網頁標題時,所述搜索引擎返回結果為前L個,其中L不大于30。

8.  如權利要求1所述的不依賴樣本的釣魚網站檢測方法,其特征在于,所述域名服務器NS和服務器IP地址查詢可以通過Linux系統中的dig命令或whois命令或Windows Bind下查詢。

9.  如權利要求1所述的不依賴樣本的釣魚網站檢測方法,其特征在于,所述搜索引擎使用Google或者Bing。

說明書

說明書一種不依賴樣本的釣魚網站檢測方法
技術領域
本發明涉及釣魚網站的檢測方法,具體涉及一種利用釣魚網站的共性特點,通過互聯網公開資源對釣魚網站進行檢測的方法,屬于互聯網安全領域。
背景技術
網絡釣魚,是指通過偽裝成與目標網站非常相似的網站,引誘用戶訪問,并獲取收信人在此網站上輸入的個人敏感信息的網絡犯罪行為。由于電子商務和互聯網應用的普及和發展,網絡釣魚造成的損失日益嚴重。國內最大的安全廠商360安全7月份發布的《2011上半年中國網絡安全報告》顯示網絡釣魚欺詐成為網絡安全的最大威脅。另據國際反釣魚聯盟發布的報告,近年來網絡釣魚攻擊的數量大幅上升,尋找有效的釣魚檢測方法變得尤為緊迫。
網絡釣魚是指通過偽裝成與目標組織的網站非常相似的網站,引誘用戶訪問,并獲取收信人在此網站上輸入的個人敏感信息的網絡犯罪行為。網絡釣魚作為一種犯罪行為,與現實社會中的流竄作案相似,一個釣魚網站從建立到消亡往往在幾天內,甚至幾小時,這一顯著特點決定了互聯網公開資源(搜索引擎、排名服務等)對釣魚網站的索引、評價等都在一個極低的范圍內。
另一方面,釣魚的本質決定了釣魚網站需要偽裝,從表面上看起來與被釣魚目標具有高度的相似性,以期以假亂真,從而達到謀求不當利益的目標。這種相似性首先體現在頁面的相似性,如果拿網站內容與所有目標網站進行匹配,擇需要事先收集所有被釣魚目標,這是一項復雜的工作,特別是新的釣魚目標不斷出現,使得該項工作更會是無休止的繼續。退一步,釣魚偽裝的相似性首先體現在標題相似性上,而這種相似性我們可以借助公開的搜索引擎進行比對,免去了釣魚目標的收集工作。
目前,在檢測釣魚網站的技術領域中主要包括三大類的技術手段:黑名單技術、基于URL特征的檢測技術和基于網頁內容特征的檢測技術。黑名單技術是通過用戶舉報或評價來維護一個不斷更新的釣魚網站名單列表,從而阻止更多的用戶不要訪問已發現的釣魚網站。基于URL特征釣魚檢測,是通過分析URL的元素構成,多輔以注冊、解析信息進行釣魚與否的判斷,該方法往往用于初步檢測,最終的判定一般也要基于內容。基于網頁內容特征的釣魚檢測是通過分析網頁與目標網頁的內容相似度進行判定的方法。
以上三種常用的檢測技術:黑名單技術的滯后性是其最大缺陷。基于URL的放方法需要 事先收集被釣魚網站的URL,對新釣魚目標無能為力。同樣,基于內容分析的方法需要目標網頁的先驗知識和大量的釣魚樣本收集,該方法對針對新目標的釣魚攻擊也無能為力。
Alexa排名是指網站的世界排名NNT流量,主要分兩種:綜合排名和分類排名,Alexa提供了包括綜合排名、到訪量排名、頁面訪問量排名等多個評價指標信息,大多數人把它當作當前較為權威的網站訪問量評價指標。Alexa每三個月公布一次新的網站綜合排名。此排名的依據是用戶鏈接數(Users Reach)和頁面瀏覽數(Page Views)三個月累積的幾何平均值。
PageRank是Google排名運算法則(排名公式)的一部分,是Google用來標識網頁的等級/重要性的一種方法,是Google用來衡量一個網站的好壞的唯一標準。在揉合了諸如(標題)Title標識和(關鍵詞)Keywords標識等所有其它因素之后,Google通過PageRank來調整結果,使那些更具“等級/重要性”的網頁在搜索結果中另網站排名獲得提升,從而提高搜索結果的相關性和質量。
基于以上情況,本發明提出一種多尺度釣魚判定方法,該方法不需要任何釣魚目標網站信息、不需要收集任何釣魚樣本數據,通過Alexa排名和PageRank可以對新出現的針對新目標的釣魚攻擊進行準確檢測判定。
發明內容
本發明的目是通過分析釣魚網站的共性,提供一種不依賴于釣魚樣本庫和釣魚目標信息的簡單易用,而有準確率高的釣魚網站檢測判定方法。
針對現有技術的不足,本發明的技術方案如下:一種不依賴樣本的釣魚網站檢測方法,其步驟包括:
1)根據待檢測網頁的目標統一資源定位符TargetURL提取得到域名,將所述域名進行PageRank和/或Alexa排名值查詢;
2)對在設定排名范圍內的所述待檢測網頁進行標題抓取,提取出網頁標題字符串,根據所述字符串和釣魚關鍵詞進行匹配;
3)對于匹配的待檢測網頁,在搜索引擎上以所述網頁標題為查詢關鍵字進行檢索;
4)若所述搜索引擎返回結果中沒有TargetURL且該返回結果中存在與待測網頁標題完全相同的網頁集合,則查詢所述TargetURL和所述待測網頁標題完全相同的網頁集合中對應的域名服務器NS和服務器IP地址是否相同,將不相同的待檢測網站判定為釣魚網站。
步驟3)還包括對所述TargetURL進行網頁抓取并對所述抓取到網頁進行解析,判斷該網頁中是否存在與所述待檢測網頁標題完全相同的網頁集合所指向的域名鏈接。
所述釣魚關鍵詞通過統計算法自動統計詞頻獲得。
所述排名范圍是PageRank值大于K和/或Alexa排名值大于M,其中,K、M為可調節參數,K取值為1或2,M取0。
所述待檢測網頁進行抓取在Linux系統下運行Shell命令wget TargetUrl抓取。
所述網頁標題的提取方法是對所述抓取得到網頁進行字符串匹配,獲取<title>和</title>標簽內容。
所述搜索引擎檢索所述網頁標題時,所述搜索引擎返回結果為前L個,其中L不大于30。
所述域名服務器NS和服務器IP地址查詢可以通過Linux系統中的dig命令或whois命令或Windows Bind下查詢。
所述搜索引擎使用Google或者Bing。
本發明的有益效果:
本發明充分利用了釣魚攻擊的最本質特點,簡單易用,不僅克服了釣魚樣本收集難的問題,同時對針對新目標的釣魚有良好的適應檢測能力。該方法不利用任何的釣魚目標信息和釣魚樣本庫。該發明的方法,綜合利用互聯網資源,包括PageRank查詢接口、通用搜索引擎和Alexa排名值等,同時對針對新出現目標的釣魚有良好的適應檢測能力,方法易于使用,對待檢測目標的URL和頁面標題進行分析,從而確定頁面是否釣魚。
附圖說明
圖1為本發明不依賴樣本的釣魚網站檢測方法具體實施例的流程示意圖。
具體實施方式
下面結合附圖和具體實施例進一步說明本發明實施例的技術方案。本實施例涉及的搜索引擎,不限于具體哪個,可以為任何通用搜索引擎。本發明隨機選擇了中國反釣魚聯盟2012年上半年800個釣魚舉報網站和www.dmoz.org上的1300個非釣魚網站,構建了一個釣魚數據集。利用該發明的方法進行試驗驗證,表現出良好的檢測性能,其中釣魚檢測的召回率為100%,準確率達到100%,誤檢率為0,實驗結果證明本發明方法的可行性和有效性。
本發明通過獲取和分析待檢測網站的PageRank值、Alexa排名值、搜索引擎網頁收錄和排名情況等,做出網站釣魚與否的綜合判斷。PageRank和Alexa排名在本文中僅僅是一個粗過濾,可以肯定的是:釣魚網站PageRank值很小,Alexa排名很低或沒有排名。
圖1為本發明不依賴樣本的釣魚網站檢測方法具體實施例的流程示意圖,如圖1所示,本發明釣魚攻擊檢測方法包括以下步驟:
步驟100、根據待檢測網頁的統一資源定位符(TargetUrl),提取唯一對應的域名,并基 于域名獲取PageRank值和Alexa排名值。提取域名指提取目標Url(TargetUrl)的域名部分,例如:“http://item.taobao.com3358.tk/trade/batch payment.htm.asp”的對應域名為“com3358.tk”。獲取PageRank值的公開查詢接口為:http://toolbarqueries.google.com/,該查詢接口需要通過程序獲取,任何語言均可,查詢接口是Google和Alexa對外公開的且固定不變。獲取Alexa排名值的公開查詢方式為:″http://data.alexa.com/data?cli=10&dat=snba&url=+TargetUrl。一般情況下,如果PageRank值大于K,并且Alexa排名值大于M,則認為該網站非釣魚網站,否則進一步檢測進入步驟200。一般情況下,K取值為1或2,考慮到釣魚網站的時效性通常在幾天內,M的取值0,即網站存在Alexa排名,K、M為可調節參數。
步驟200、基于給定的待判定網址,進行網頁抓取(可使用Linux系統自帶的命令wget),并提取網頁標題,比如,一個簡單的方法,定位<title>標簽,<title>和</title>之間的內容即為標題。匹配標題字符串內是否含有釣魚敏感別詞,如果含有則繼續,否則直接判定為非釣魚網站。該步驟基于釣魚網站都是以期高仿真模仿目標網站,標題醒目位置含有釣魚關鍵詞關鍵詞。釣魚關鍵詞指釣魚針對的類別詞和經常被釣魚的網站關鍵詞,這些關鍵詞基于釣魚數據庫的統計,統計為高頻的詞匯,可以由統計算法自動統計詞頻獲得。網絡釣魚是以謀利為目的犯罪活動,針對的類別和目標有限,主要是金融支付類和中獎等。本實施例中的關鍵詞可以為:“銀行”、“支付”、“登陸”、“中獎”、“證券”、“團購”、“官方網站”、“官網”、“淘寶”、“騰訊”等。
在該步驟中,網頁的抓取只抓取待檢測頁,方法成熟,比如在Linux系統下,運行Shell命令wget TargetUrl即可抓取。網頁標題的提取,可以簡單對抓取的網頁進行字符串匹配,獲取<title>和</title>標簽內的內容,即為網頁標題。
步驟300、在搜索引擎(可使用Google或者Bing)中以網頁標題為查詢字進行搜索,獲取搜索結果。如果待檢測網頁出現在搜索引擎中,即搜索返回的結果中含有該頁面,則該網頁判定為正常網頁。如果目標統一資源定位符TargetUrl沒有出現在返回結果中,且搜索結果中包含與目標統一資源定位符TargetUrl的標題完全相同的網頁集合,則該待判定頁面作為可疑頁面,進入步驟400,以進一步進行判定。否則判定為合法網站。該步驟的依據為釣魚網站為了欺騙網民,一般會使用與目標網站系統的標題。比如,釣魚淘寶的虛假網站,其標題也會顯示“淘寶網-淘!我喜歡”。步驟300中僅僅是其中一個指標,通過前面有PageRank和Alexa過濾,明顯的好網站已經排除了。
步驟300中,以該提取的標題為關鍵詞進行通用搜索的查詢,這里查詢返回的結果限定取前L個,一般L<30,即一般用戶使用通用搜索引擎時最多關注的返回結果數。
步驟400、對步驟200抓取的頁面進行解析,查看是否存在指向標題完全相同的網頁集合所有域名的鏈接,如果沒有,則認定該待判定頁面為正常頁面,否則進一步進入步驟500,進行進一步判定。
該步驟的出發點是釣魚網站往往含有鏈向目標網站的鏈接。
步驟500、分別查看TargetUrl和標題完全相同的網頁集合對應域名所屬NS(Name sever)和服務器IP地址,如果NS或IP相同,則認定該待判定網站非釣魚,為正常網站,否則判定為釣魚網站。
步驟500是為了過濾正規的某老品牌推出的新品牌網站,防止誤判。該步驟中對NS和IP的查詢,可以通過Linux系統中的dig命令。或者可以使用Linux下的whois命令或(http://www.isc.org/software/bind/)。,Bind的Windows版本在windows下查詢。
雖然本發明以實施例揭示如上,但其并非用以限定本發明,任何本領域技術人員,在不脫離本發明的精神和范圍內,可作任意改動或等同替換,故本發明的保護范圍應當以本申請權利要求書所界定的范圍為準。

關于本文
本文標題:一種不依賴樣本的釣魚網站檢測方法.pdf
鏈接地址:http://www.pqsozv.live/p-6180698.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
钻石光影