清華教授總結瞭一本《黑產黑話寶典》

07-28

本文作者:李勤,雷鋒網宅客頻道。

你聽過黑話嗎?

有!

天龍蓋地虎

寶塔鎮河妖

不不不,這句黑話已經 OUT 很久瞭。網傳,以下是一組知乎經典黑話(這是知乎用戶 " 張新也 " 說的,冤有頭債有主,要是錯瞭你們找他,雷鋒網編輯並沒有黑知乎):

男:你介意我和你一同探究孟德爾定律嗎?

(你介意我和你啪啪啪嗎?)

女:平面幾何與立體幾何性質是有差異的。

(看片和實戰是不一樣的,你有經驗嘛?)

男:我傾向於軸心一方的意大利。

(黑意呆利。經驗不多,但我有一顆想參戰的心)

女:滑鐵盧一戰拿破侖為什麼不動用空軍?

(咋不去打飛機)

男:你知道列克星敦對於美國獨立的意義嗎?

(有瞭第一槍,後面才能星火燎原策馬崩騰)

女:經濟學中對消費的分類,除瞭自給性消費還有什麼?

(商品性消費,你給錢嗎?)

男:我崇拜提出 " 農村包圍城市 " 的那個偉人。

(論持久戰,可以長期包養)

女:你熟悉安培定則嗎?

(我隻幫你 lu 可以嗎?)

男:乙醇制乙烯時溫度計的位置不能大意。

(不行,一定要插入)

女:我聽說秘魯西海岸厄爾尼諾已經持續瞭三個月。

(插入很危險,不要出事瞭。厄爾尼諾字面意思是指小孩子。)

男:熄滅酒精燈的方法

(我帶套瞭 ......)

啊呀呀,真是太污瞭,反正雷鋒網編輯是看不懂的。

不過,今天(7 月 26 日),藍蓮花 ( Blue-Lotus ) 戰隊組建人之一的清華教授段海新介紹瞭一些網絡黑產的黑話更讓人大開眼界(藍蓮花有多牛,你可以搜索一下)。

下面進入自我測試時間,如果這些黑話你都能看懂,也許你是黑產研究學八級,要麼就是經歷很豐富:

菠菜

平馬二中一

丁香五月天

咕嚕咕嚕出肉

段海新靦腆地介紹瞭一下第一個詞," 菠菜 " 就是 " 博彩 " 的意思,後面三個他居然沒解釋。

好奇的雷鋒網隨便搜索瞭其中一個關鍵詞,顯示出如下的搜索結果,嚇得我趕緊捂上瞭眼睛:

裝作看不懂的樣子,繼續聽段教授講故事。

瘋狂 SEO 的黑產網站

網絡黑產,無奇不有,黃賭毒尤甚。

這些黃賭毒網站為瞭在搜索界面搶占更有利的位置,往往會對一些權重較高的網站進行劫持,比如以 edu.cn 或 gov.cn 結尾的網站。

你隻是想打開一個高校的官網或一個政府網站,一不小心就進入瞭不可言說的世界。

你隻能感嘆一句:黑產推廣真是喪心病狂。

然而,這並不算什麼。黃賭毒和詐騙類網站為瞭推廣自己,還會借助一種技術:蜘蛛池。

蜘蛛池就是一堆由垃圾域名組成的站群,在每個站點下都生成海量頁面(抓一堆文本內容相互組合),頁面模板與正常網頁沒多大區別。給那些未收錄的頁面,在短時間內提供大量的真實的外鏈,入口曝光多瞭,被抓取幾率就大,收錄率自然也就上去瞭,又因為是外鏈,所以在排名上也有一定的正向加分。

如果你再稍微瞭解一點搜索技術,說白瞭,就是人為制造瞭一張不斷變大的網,把蜘蛛困在裡面,讓它不斷的爬行網內的頁面。

總而言之,就是網絡黑產不斷地用各種手段推廣自己,爭奪註意力。

噢!黑產有行業術語

為瞭打掉黑產網站,就要研究黑產網站的 SEO!也因此,段海新發現瞭伴隨黑產網站出現的是 " 黑產詞 ":這些網站總有一些關鍵詞像 " 標簽 " 一樣地貼在自己身上。

正經的說法是:

" 黑產詞 " 是伴隨黑產出現的產品同義詞及違法產品本身的關鍵詞的統稱。非法商販和買傢通過協定新的詞匯表示一種產品,以此躲避監管。

這些隱蔽的 " 黑產詞 " 通常會扭曲常用詞含義,導致 " 外行人 " 無法理解其背後的含義,上面舉例的一些即是 " 黑產詞 "。

這裡有個小插曲值得一提。

清華大學有一個優雅的小院名為 " 怡春院 ",曾作為校機關的辦公場所,但是,扭曲的黑產居然把這個詞變成瞭 …… 額 …… 通過搜索引擎查詢 " 怡春院 " 這歌關鍵詞,國內外主流搜索引擎搜出來的都是成人社區(Google 除外)。

他推測,也許這些搜索引擎比較真實地反映瞭用戶搜索的需求。

好消息:這裡有本 " 黑話大全 "

雷鋒網瞭解到,被推廣的 " 黑產詞 " 可以通過自動化方式檢測出來。人們在查詢某個商品時,可能會反復觸及到多個類似 " 黑產詞 " 的網站頁面,這些頁面有可能包含惡意或欺詐內容。

好消息是,利用搜索引擎查詢相關頁面,並結合相關搜索擴展查詢結果,最後采用算法可將結果融合判定是否為黑產詞,段海新和他的研究團隊做的就是這件事情(也許並不是為瞭報 " 怡春院 " 之仇)。

如何通過自動化手段檢測一些新的黑產黑話?

先來瞭解一下黑產網站是怎麼推廣的。段海新介紹,比如,毒品商傢找到做非法 SEO 引擎優化的推廣商,根據產品和關鍵詞進行優化,搜索引擎的爬蟲自動到網站上抓取內容,用戶搜索時,就有可能被指向這個毒品網站。

因此,段海新的研究團隊想出的對抗辦法是:

1. 輸入兩部分數據,一部分是搜索引擎廠商提供的惡意 URL 列表,另一部分是從蜘蛛池推廣網站中抓取的 200 多萬頁面,在這些頁面中提取的關鍵詞。

2. 過濾掉這些詞中的合法詞匯(白詞),然後再到搜索引擎中驗證一次,是否觸發瞭搜索引擎的報警。

3. 利用搜索引擎廠商的相關搜索進行擴展。

最終,就能找到 " 正確的黑話 "。

看上去,三個步驟很簡單,但是隱藏瞭三個復雜的問題——

1. 如何提取關鍵詞?

黑產關鍵詞可能會出現在黑產網站的任何一個頁面,在嘗試很多區域後,段海新發現,明文可點擊區域的效果最明顯。

你要問瞭,如果黑產把黑詞放在別的地方是否可以逃避檢測?

並沒有那麼容易,如果黑產想逃避檢測,帶來的副作用是, 搜索引擎的爬蟲也無法搜索到這些關鍵詞。

2. 如何過濾白詞?

用自然語言理解的方法非常困難,但段海新的團隊發現瞭一個簡單的方法:很多詞都是從新聞熱點中抓取過來,而這些新聞標題比較長,所以我們就把超過一定長度的新聞標題過濾掉。

3. 如何判斷是白詞還是黑詞?

比如," 清華 " 是一個白詞,所以搜索結果比較幹凈,而且搜索引擎已經把清華的頁面標註,但是搜索 " 菠菜 ",三條以上的搜索結果標註為報警,那麼,這個詞就可能有問題。

因為 " 相關搜索 " 關聯瞭用戶的搜索行為,用戶輸入瞭一個詞匯,但沒有點擊任何一個鏈接,又搜索瞭下一個詞匯,那麼證明第一個詞匯和第二個詞匯是相關的;用戶搜索瞭一個關鍵詞,點擊瞭一個鏈接,那麼證明這歌鏈接裡的關鍵詞與這個搜索詞相關。

於是,段海新和研究團隊得到瞭 40 萬個推廣的黑產詞匯,確定其中 94% 為黑詞,去掉地名等 " 長尾 " 修飾詞最終得到瞭 1500 個左右的核心詞,手工分成瞭六類,並提取瞭相關的域名和 URL 還有 100 萬-200 萬個。

為瞭驗證這些 " 黑詞 " 是真的黑詞,他們在 2 個不同的搜索引擎中再次搜索新黑詞,比如,搜索 "***商人 ",某歌前 10 頁全是與賭博相關的結果,則可以證明 SEO 的效果 " 非常好 ",這些詞是有效的新黑詞。

拿到瞭黑詞之後,有什麼用?

(當然是為瞭打掉黑產,報 " 怡春院 " 之仇咯)

開個玩笑。

雷鋒網瞭解到,段海新和他的同事們做瞭一個厚厚的研究報告,來討論黑詞的 " 用處 ",他也簡單介紹瞭幾個用途:

1. 基於黑產推廣頁面留下的電話號碼,他們進行瞭統計,發現黑產電話號碼歸屬地最多的是山東,徐玉玉案件發生在山東,也許不是偶然事件。

2. 他們依據這些黑詞對貼吧、論壇進行瞭統計,發現這些黑詞在貼吧和論壇普遍存在,如果將這些黑詞反饋給搜索引擎廠商,再次搜索,可以凈化搜索結果,還可以凈化論壇、網上商店。

3. 利用現在擴展的黑詞,在教育類和政府類網站進行搜索,發現大量被攻破的網站。

目前,段海新的研究團隊正在與百度合作,應用其研究成果。

註:該文引用瞭段海新在 2017 網絡安全生態峰會上的部分發言,該論壇由阿裡巴巴和螞蟻金服共同主辦,幹貨十足。

--寫在最後的話--

阿裡巴巴的小夥伴告訴雷鋒網,阿裡也在淘寶上應用瞭相關對抗 " 黑話 " 的技術,在實際應用過程中,還要面對更多變得連親媽都不認識的 " 黑詞 ",對抗升級更可怕。

於是,雷鋒網決定,在接下來的某一期中,探討阿裡到底應用瞭哪些 " 黑詞 " 檢測與對抗技術,敬請期待。

精彩圖片
文章評論 相關閱讀
© 2016 看看新聞 http://www.kankannews.cc/