• / 11
  • 下載費用:30 金幣  

一種基于視頻標題和內容的視頻過濾方法和系統.pdf

關 鍵 詞:
一種 基于 視頻 標題 內容 過濾 方法 系統
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201310631404.6

申請日:

2013.12.02

公開號:

CN103678527A

公開日:

2014.03.26

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20131202|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: TCL集團股份有限公司
發明人: 劉世才; 毛海濤; 宋軻
地址: 516001 廣東省惠州市鵝嶺南路6號TCL工業大廈8樓技術中心
優先權:
專利代理機構: 深圳市君勝知識產權代理事務所 44268 代理人: 王永文;劉文求
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201310631404.6

授權公告號:

||||||

法律狀態公告日:

2017.10.24|||2015.01.14|||2014.03.26

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種基于視頻標題和內容的視頻過濾方法和系統,通過對視頻的標題進行拆詞,計算標題的相似度和比較視頻流的相似度。并將標題的相似度和視頻流的相似度作為組合條件進行視頻過濾,達到視頻去重的效果。從而可以對相似度高的視頻新聞進行有效過濾,最大限度的去掉一些類似的視頻新聞,讓用戶在有限時間內觀看到的新聞都是當日的頭條新聞,為用戶帶來更好的體驗。

權利要求書

權利要求書
1.  一種基于視頻標題和內容的視頻過濾方法,其特征在于,包括:
獲取兩則視頻;
比較兩則視頻的視頻標題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標題進行拆詞處理;
判斷拆詞后的視頻標題的匹配度是否超過預先設定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內容是否一致,若一致則過濾掉其中一則視頻。

2.  根據權利要求1所述的基于視頻標題和內容的視頻過濾方法,其特征在于,所述過濾掉其中一則視頻步驟中,包括:
進一步比較兩則視頻的屬性值,根據所述屬性值確定過濾掉哪一則視頻;
其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。

3.  根據權利要求1所述的基于視頻標題和內容的視頻過濾方法,其特征在于,比較兩則視頻的視頻內容是否一致具體包括:
A、根據兩則視頻的播放地址,分別獲取與所述播放地址對應的視頻信息文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;
B、根據兩則視頻的視頻地址,下載并獲取二進制的數據流內容,并對數據流內容進行比較;
C、若兩個二進制的數據流內容一致,則確定兩則視頻的視頻內容一致,否則為不同的視頻內容。

4.  根據權利要求3所述的基于視頻標題和內容的視頻過濾方法,其特征在于,所述步驟B中對數據流內容進行比較具體為使用開發語言提供的處理數據流的類庫的方法對數據流內容進行讀取并比較。

5.  根據權利要求1所述的基于視頻標題和內容的視頻過濾方法,其特征在于,預先設定的匹配度閾值為60%。

6.  一種基于視頻標題和內容的視頻過濾系統,其特征在于,包括:
提取單元,用于獲取兩則視頻;
第一過濾單元,用于比較兩則視頻的視頻標題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標題進行拆詞處理;
第二過濾單元,用于判斷拆詞后的視頻標題的匹配度是否超過預先設定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內容是否一致,若一致則過濾掉其中一則視頻。

7.  根據權利要求6所述的基于視頻標題和內容的視頻過濾系統,其特征在于,所述第一過濾單元中過濾掉其中一則視頻具體包括:
比較模塊,用于進一步比較兩則視頻的屬性值,根據所述屬性值確定過濾掉哪一則視頻;
其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。

8.  根據權利要求6所述的基于視頻標題和內容的視頻過濾系統,其特征在于,所述第二過濾單元中比較兩則視頻的視頻內容是否一致具體包括:
視頻地址獲取模塊,用于根據兩則視頻的播放地址,分別獲取與所述播放地址對應的視頻信息文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;
數據流獲取模塊,用于根據兩則視頻的視頻地址,下載并獲取二進制的數據流內容,并對數據流內容進行比較;
判斷模塊,用于當兩個二進制的數據流內容一致,則確定兩則視頻的視頻內容一致,否則為不同的視頻內容。

9.  根據權利要求8所述的基于視頻標題和內容的視頻過濾系統,其特征在于,所述數據流獲取模塊中對數據流內容進行比較具體為使用開發語言提供的處理數據流的類庫的方法對數據流內容進行讀取并比較。

10.  根據權利要求6所述的基于視頻標題和內容的視頻過濾系統,其特征在于,預先設定的匹配度閾值為60%。

說明書

說明書一種基于視頻標題和內容的視頻過濾方法和系統
技術領域
本發明涉及視頻比對技術領域,特別涉及一種基于視頻標題和內容的視頻過濾方法和系統。 
背景技術
為了使用戶更快、更多、更準確地獲取最新的新聞視頻內容,如何抓取各大視頻網站最新的新聞并及時的推薦給用戶成為當前的研究方向之一。
但是這種從各大視頻網站聚合的新聞,內容相似的非常多。比如:同樣是禽流感的新聞,可能存在多個新聞都是介紹禽流感的,用戶觀看起來就很乏味,因此,需要對抓取的視頻新聞進行分析,對相似內容進行有效過濾。
有鑒于此,現有技術還有待改進和提高。 
發明內容
鑒于上述現有技術的不足之處,本發明的目的在于提供一種基于視頻標題和內容的視頻過濾方法和系統,以解決現有各大視頻網站聚合的新聞視頻內容重復率高,不利于向用戶推送的問題。
為了達到上述目的,本發明采取了以下技術方案:
一種基于視頻標題和內容的視頻過濾方法,其中,包括:
獲取兩則視頻;
比較兩則視頻的視頻標題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標題進行拆詞處理;
判斷拆詞后的視頻標題的匹配度是否超過預先設定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內容是否一致,若一致則過濾掉其中一則視頻。
所述的基于視頻標題和內容的視頻過濾方法,其中,所述過濾掉其中一則視頻步驟中,包括:
進一步比較兩則視頻的屬性值,根據所述屬性值確定過濾掉哪一則視頻;
其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。
所述的基于視頻標題和內容的視頻過濾方法,其中,比較兩則視頻的視頻內容是否一致具體包括:
A、根據兩則視頻的播放地址,分別獲取與所述播放地址對應的視頻信息文件,例如m3u文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;
B、根據兩則視頻的視頻地址,下載并獲取二進制的數據流內容,并對數據流內容進行比較;
C、若兩個二進制的數據流內容一致,則確定兩則視頻的視頻內容一致,否則為不同的視頻內容。
所述的基于視頻標題和內容的視頻過濾方法,其中,所述步驟B中對數據流內容進行比較具體為使用開發語言提供的處理數據流的類庫的方法對數據流內容進行讀取并比較。
所述的基于視頻標題和內容的視頻過濾方法,其中,預先設定的匹配度閾值為60%。
一種基于視頻標題和內容的視頻過濾系統,其中,包括:
提取單元,用于獲取兩則視頻;
第一過濾單元,用于比較兩則視頻的視頻標題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標題進行拆詞處理;
第二過濾單元,用于判斷拆詞后的視頻標題的匹配度是否超過預先設定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內容是否一致,若一致則過濾掉其中一則視頻。
所述的基于視頻標題和內容的視頻過濾系統,其中,所述第一過濾單元中過濾掉其中一則視頻具體包括:
比較模塊,用于進一步比較兩則視頻的屬性值,根據所述屬性值確定過濾掉哪一則視頻;
其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。
所述的基于視頻標題和內容的視頻過濾系統,其中,所述第二過濾單元中比較兩則視頻的視頻內容是否一致具體包括:
視頻地址獲取模塊,用于根據兩則視頻的播放地址,分別獲取與所述播放地址對應的視頻信息文件,例如m3u文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;
數據流獲取模塊,用于根據兩則視頻的視頻地址,下載并獲取二進制的數據流內容,并對數據流內容進行比較;
判斷模塊,用于當兩個二進制的數據流內容一致,則確定兩則視頻的視頻內容一致,否則為不同的視頻內容。
所述的基于視頻標題和內容的視頻過濾系統,其中,所述判斷模塊中當兩則視頻的視頻標題一樣, 進一步比較具有相同視頻標題的視頻的屬性值,根據所述屬性值確定過濾掉哪一則視頻;其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。
所述的基于視頻標題和內容的視頻過濾系統,其中,預先設定的匹配度閾值為60%。
相較于現有技術,本發明提供的基于視頻標題和內容的視頻過濾方法和系統,通過對視頻的標題進行拆詞,計算標題的相似度和比較視頻流的相似度。并將標題的相似度和視頻流的相似度作為組合條件進行視頻過濾,達到視頻去重的效果。從而可以對相似度高的視頻新聞進行有效過濾,最大限度的去掉一些類似的視頻新聞,讓用戶在有限時間內觀看到的新聞都是當日的頭條新聞,為用戶帶來更好的體驗。
附圖說明
圖1為本發明提供的基于視頻標題和內容的視頻過濾方法的流程圖。
圖2為本發明提供的基于視頻標題和內容的視頻過濾系統的結構框圖。
具體實施方式
本發明提供一種基于視頻標題和內容的視頻過濾方法和系統,為使本發明的目的、技術方案及效果更加清楚、明確,以下參照附圖并舉實施例對本發明進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,并不用于限定本發明。
請參閱圖1,其為本發明提供的基于視頻標題和內容的視頻過濾方法的流程圖。如圖所示,所述基于視頻標題和內容的視頻過濾方法包括:
S100、獲取兩則視頻;
S200、比較兩則視頻的視頻標題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標題進行拆詞處理;
S300、判斷拆詞后的視頻標題的匹配度是否超過預先設定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內容是否一致,若一致則過濾掉其中一則視頻。
在步驟S100至S300只是其中兩則視頻進行比較的一個過程,當具有多個相同視頻內容的多個視頻源時候,分別進行兩兩比較,直到保留最后一則或者數則視頻即可。
下面分別針對上述步驟進行描述:
步驟S100為獲取兩則視頻。在本實施例中,以視頻新聞為例,選取兩則視頻新聞。視頻新聞的信息包括視頻新聞的視頻標題和視頻內容。為了最大限度的去掉類似的視頻新聞,我們從視頻新聞的視頻標題和視頻內容入手進行過濾。
步驟S200為比較兩則視頻的視頻標題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標題進行拆詞處理。具體來說,我們直接通過標題比較去重:若兩則視頻新聞的標題完全一樣,則過濾掉其中一幀。否則我們即對視頻標題進行拆詞處理。在本實施例中,所述拆詞方法為使可用開源項目lucene的詞庫(在JAVA程序代碼引入程序包lucene-core-2.4.1.jar,使用智能中文分詞模塊SmartChineseAnalyzer即可)進行拆詞,比如:杰出人物(如:李東生)、明星(如:劉德華)等檢索量大的詞 ,按照正向拆分法對新聞標題進行切分。(正向拆分法:從前往后匹配。如:"湖南大學堂屋頂",正向拆分為"湖南 大學 堂屋 頂"。)
下面通過一個具體的例子來說明:有三個標題如下:
第一標題:北京至南寧高鐵貫通 全程僅需10小時”
進行拆詞后變成:[北京,南寧,高鐵,全程,10,小時];
第二標題:北京至南寧全程貫通高鐵啦!只要10小時[鳳凰新聞網]
進行拆詞后變成: [北京,南寧,全程,貫通,高鐵,10,小時,鳳凰,新聞, 網];
第三標題:衡柳高鐵和柳南客運專線貫通 南寧到北京全程高鐵10小時
進行拆詞后變成: [衡柳,高鐵,和,柳南,客運,專線,貫通,南寧,北京,全程,高鐵,10,小時];
通過拆詞匹配,我們可以看出:第一標題和第二、第三標題的匹配程度達到100%;第二標題和第三標題匹配程度(例如可以采用各個詞匹配計數的方式衡量文字匹配相同的程度)達到85%。
進一步地,當兩則視頻的視頻標題是一致時,需要過濾掉其中一則視頻,保留其中一則視頻。
為了保證保留的視頻是最佳的(尤其是當視頻個數較多時)視頻。本發明的基于視頻標題和內容的視頻過濾方法進一步比較具有相同視頻標題的視頻的屬性值,其中,所述視頻的屬性值包括:視頻的連接速度、視頻的清晰度等。每一屬性具有不同的權重(所述權重的大小可以根據客戶需要來設定),通過比較所述具有相同視頻標題的視頻的屬性值,來確保保留下的視頻是最佳的。舉例來說,當兩則視頻的視頻標題是一致的,那么我們先來判斷兩則視頻的連接速度,當發現一則視頻無法鏈接播放時,則過濾掉。若兩則視頻的連接速度相同,我們進一步比較兩則視頻的清晰度,過濾掉清晰度比較差的一則視頻。當所有屬性相同時,可隨機濾掉一則視頻。
步驟S300 為判斷拆詞后的視頻標題的匹配度是否超過預先設定的匹配度閾值(在本實施例中,所述匹配度的閾值為60%),若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內容是否一致,若一致則過濾掉其中一則視頻。具體來說,預先設定一匹配度閾值,將拆詞后的視頻標題的匹配度與預先設定的匹配度閾值進行比較:若拆詞后的視頻標題的匹配度超過預先設定的匹配度閾值,則判斷兩則視頻的視頻標題基本一致,過濾掉其中一條視頻,否則再對視頻內容進行判斷:比較兩則視頻的視頻內容是否一致,若一致則過濾掉其中一則視頻。
在本實施例中,比較兩則視頻的視頻內容是否一致具體包括:
S110、根據兩則視頻的播放地址,分別獲取與所述播放地址對應的視頻信息文件,例如m3u文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;
其中,所述視頻的播放地址為提供視頻內容的地址,然后,根據所述播放地址對應的視頻文件內容里面獲取視頻地址信息。一般來說,做視頻推薦類的應用時候,使用的視頻可以從優酷及土豆上獲取的,其實它們也提供了開放的API,可以獲取視頻地址以及視頻的多個標簽,視頻的同類視頻推薦,視頻同類目下的視頻等,使用者可以直接去申請。
在本實施例中,所述播放地址優選為m3u8地址,其也是一種M3U地址,只是它的編碼格式是UTF-8格式。m3u8地址是用來流播放,直播流或者點播形式,目的是實現時實性及保密性它會不讓你獲取它的視頻所在地址。M3U本質上說不是音頻文件,它是音頻文件的列表文件,是純文本文件。根據兩則視頻的m3u8地址,分別獲取與所述m3u8地址對應的m3u8文件內容,并從所述文件內容里面獲取兩則視頻的視頻地址。
S120、根據兩則視頻的視頻地址,下載并獲取二進制的數據流(也稱視頻流)內容,并對數據流內容進行比較;以JAVA部分代碼為例說明如下:
private boolean contentEquals(String address1, String address2) {
    InputStream is1 = null;
    InputStream is2 = null;
    URLConnection conn1 = null;
    URLConnection conn2 = null;
    try {
        URL url1 = new URL(address1);
        conn1 = url1.openConnection();
        conn1.setConnectTimeout(5000);
        is1 = conn1.getInputStream();
        URL url2 = new URL(address2);
        conn2 = url2.openConnection();
        conn2.setConnectTimeout(5000);
        is2 = conn2.getInputStream();
        if (IOUtils.contentEquals(is1, is2))
         return false;
    } catch (MalformedURLException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        IOUtils.close(conn1);
        IOUtils.close(conn2);
        IOUtils.closeQuietly(is1);
        IOUtils.closeQuietly(is2);
    }
    return true;
}
上述源碼描述的是通過兩則視頻的視頻地址,下載并獲取二進制的數據流(也稱視頻流)內容,并對數據流內容進行比較的過程。
S130、若兩個二進制的數據流內容一致,則確定兩則視頻的視頻內容一致,否則為不同的視頻內容。
舉例說明:
第一視頻的m3u8地址、視頻地址和視頻流(即二進制的數據流)內容分別如下:
a1)    m3u8地址(即播放地址,下同):
http://v.youku.com/player/getRealM3U8/vid/XNTU0NjIxNjI0/type/mp4/video.m3u8
b1)    視頻地址:
http://183.60.145.137/6573AB247393F81012EB6E2127/0300020200518BD10B0893076443B2EAA5E66C-C04F-E90B-EA30-8E2670F78AF2.flv.ts?ts_start=0&ts_end=6&ts_seg_no=0&ts_keyframe=1
c1)     視頻流內容:
[-128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -12, -80, 5, -21, 86, 46, -85, 64, -107, -20, 121, -81, 16, 96, 106, -30, 95, -31, 106, 92, -128, 104, -30, -64, -103, 20, -9, -3, 67, -31, -44, -80, -7, 115, -65, -109, -128, 104, -51, -74, -77, 4, -2, 71, … …]。
第二視頻的m3u8地址、視頻地址和視頻流(即二進制的數據流)內容分別如下:
a2)    m3u8地址:
http://v.youku.com/player/getRealM3U8/vid/XNTU1OTIwNDMy/type/mp4/video.m3u8
b2)    視頻地址:
http://119.147.103.25/6573C8B07C93381DEC31ED2F6C/0300020200518F9744860308FFF8B98B79AC98-7C6E-1222-F1D8-BCAFA9757802.flv.ts?ts_start=0&ts_end=6&ts_seg_no=0&ts_keyframe=1
c2)     視頻流內容:
[-128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -28, -116, 12, 55, -110, -71, 76, -46, -106, -52, -23, -56, -72, 65, -65, 38, -64, 99, 56, -6, -47, -36, -67, 52, -36, 98, 111, 106, -102, 115, 18, -107, 90, 79, 29, 14, 18, -4, 57, -11, 18, -5, -77, -66, 73… …]。
通過對第一視頻和第二視頻的兩個視頻流內容的比較,可以確定兩個兩個視頻流內容不一致,從而確定第一視頻和第二視頻為不同的視頻。
值得說明的是,這里比較的兩個則視頻流的內容指的是比較兩則視頻的相同播放位置,例如文件頭或者文件尾部的二進制碼流數據,其針對的是拷貝來源相同,壓制格式相同的視頻。當其壓縮比不相同時候,可通過其他方式,例如通過圖像分析的方法對兩則視頻的圖像進行分析,并得出是否為同一內容的視頻的判斷。
本發明還相應提供一種基于視頻標題和內容的視頻過濾系統,如圖2所示,其包括:
提取單元100,用于獲取兩則視頻;
第一過濾單元200,用于比較兩則視頻的視頻標題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標題進行拆詞處理;
第二過濾單元300,用于判斷拆詞后的視頻標題的匹配度是否超過預先設定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內容是否一致,若一致則過濾掉其中一則視頻。
進一步地,所述的基于視頻標題和內容的視頻過濾系統中,所述第一過濾單元中對兩則視頻的視頻標題進行拆詞處理具體包括:
使用開源項目lucene的詞庫按照正向拆分法對視頻標題進行切分。
進一步地,所述的基于視頻標題和內容的視頻過濾系統中,所述第一過濾單元中過濾掉其中一則視頻具體包括:比較模塊,用于進一步比較兩則視頻的屬性值,根據所述屬性值確定過濾掉哪一則視頻;其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。
進一步地,所述的基于視頻標題和內容的視頻過濾系統中,所述第二過濾單元中比較兩則視頻的視頻內容是否一致具體包括:
視頻地址獲取模塊,用于根據兩則視頻的播放地址,分別獲取與所述播放地址對應的視頻信息文件,例如m3u文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;
數據流獲取模塊,用于根據兩則視頻的視頻地址,下載并獲取二進制的數據流內容,并對數據流內容進行比較;
判斷模塊,用于當兩個二進制的數據流內容一致,則確定兩則視頻的視頻內容一致,否則為不同的視頻內容。
進一步地,所述的基于視頻標題和內容的視頻過濾系統中,所述數據流獲取模塊中對數據流內容進行比較具體為使用開發語言提供的處理數據流的類庫的方法對數據流內容進行讀取并比較。比如,在本實施例中,使可用開源項目lucene的詞庫(在JAVA程序代碼引入程序包lucene-core-2.4.1.jar,使用智能中文分詞模塊SmartChineseAnalyzer即可)進行拆詞。
這里獲取兩則視頻相同位置的二進制的數據流進行比較,值得說明的是,一般點播的視頻文件最先加載的為視頻文件頭的內容,一般可比較文件頭即可。
進一步地,所述的基于視頻標題和內容的視頻過濾系統中,預先設定的匹配度閾值為60%。
具體來說,所述匹配度閾值即為臨界值,意思是在本發明的基于視頻標題和內容的視頻過濾系統中,若判斷拆詞后的視頻標題之間的匹配度達到或者超過60%時,即認為拆詞后的視頻標題是一樣的,過濾掉其中一則視頻。
上述各個部分的功能都已經在上述方法中進行了詳細介紹,這里就不再冗述了。
綜上所述,本發明提供的基于視頻標題和內容的視頻過濾方法和系統,通過對視頻的標題進行拆詞,計算標題的相似度和比較視頻流的相似度。并將標題的相似度和視頻流的相似度作為組合條件進行視頻過濾,達到視頻去重的效果。從而可以對相似度高的視頻新聞進行有效過濾,最大限度的去掉一些類似的視頻新聞,讓用戶在有限時間內觀看到的新聞都是當日的頭條新聞,為用戶帶來更好的體驗。
可以理解的是,對本領域普通技術人員來說,可以根據本發明的技術方案及其發明構思加以等同替換或改變,而所有這些改變或替換都應屬于本發明所附的權利要求的保護范圍。

關于本文
本文標題:一種基于視頻標題和內容的視頻過濾方法和系統.pdf
鏈接地址:http://www.pqsozv.live/p-6180853.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
钻石光影