我花 3 天爬瞭抖音 38 萬視頻和 22 萬用戶信息

11-06

作為一名名副其實的上班狗

平時無非是

吃吃飯,喝喝茶

看電影,聊聊天

逛逛街,牽牽手

喝喝小酒

咳!咳!咳

其實我想說

但是一個偶然的機遇

接觸到瞭“抖音” APP

出於好奇 默默的下載瞭

果然有很多驚喜

神馬?!你還不知道抖音是什麼?

抖音短視頻,是一款音樂創意短視頻的 App 。用戶可以通過這款軟件拍攝 15 秒的音樂短視頻,已在 Android 各大應用商店上架 ....(抖音給你多少好處費?)

打住打住

直接看視頻吧

畫風是這樣的

裡面不乏有

各路達人的作品

各種魔性洗腦的音樂

各種流行的舞蹈

真的是

一入「抖音」深似海

想停你都停不下來

Suddenly!

分析一下

這個魔性的抖音

看看都有啥有趣的數據

下面

一大波幹貨即將到來

請準備好紙和筆

先看一下我的思路

如上圖,視頻和用戶信息就是我們最終要分析的基礎數據

工欲善其事必先利其器

本次我們選取的工具是:

Fiddler

Eclipse

MySQL

萬事俱備,我們說幹就幹

1Fiddler 抓包分析

Step1 搭建好 Fiddler 的環境

這個比較簡單,如果不會請直接滑到文末,點附錄 中的 fiddler 教程查看

Step2 分析請求鏈接形式

經過分析,最後確定請求 Url 形式和規律

“推薦”頁的鏈接形式

Url 地址為: https://aweme.snssdk.com/aweme/v1/feed/

請求方式為:GET

GET 參數 點擊 WebForms 查看:

由於,不刪減任何參數每次請求都返回全新的數據。

所以,省去瞭我們分析參數的環節。

值得一提的是

默認返回結果的 Json 中,包含瞭 6 個視頻

這一開始讓我很費解

後來才知道,app 往上劃是 Json 中另外 5 個視頻

往下劃是返回 6 個全新的視頻,這是一次全新的請求

我一般都是一直往下劃

那另外 5 個豈不是被看到的概率很小麼?

另外,將 count 參數擴大可以在同一時間單位中獲取更多的數據,這大大節省瞭後面的爬取的耗時。

簡直是福利呀

“用戶信息”鏈接形式:這個就比較簡單瞭,從剛才“推薦”頁返回結果的 Json 中,提取 uid 就好瞭

拼接成這樣的鏈接形式進行爬取 :http://aweme.snssdk.com/aweme/v1/user/?user_id= [ 用戶 ID ]

2爬取數據

接下來,根據上面分析出來的鏈接形式

我們先爬取“推薦”頁吧

二話不說,上代碼

Java 主方法

getCtx ( ) 方法

用戶信息抓取也是一樣的代碼,僅僅換瞭請求鏈接而已

一招鮮吃遍天

這是這兩天爬行的數據總量

看來,我這 5 年前的神船筆記本還是挺給力噠

有小夥伴在下面說,你這個代碼單線程爬行太慢瞭吧,效率太低瞭?!

沒關系,關註我們,以後會介紹解決方法的。

3結構化數據

想要有針對性的分析一個數據

首先要確定結構化的字段有哪些對後面分析的數據有幫助

比如:

本次視頻信息結構化瞭這些字段

本次用戶信息結構化瞭這些字段

具體解析 Json 的代碼就不放瞭,解析方法千千萬,我還是喜歡用 org.json.jar

直接在本公眾號下回復“抖音數據”,可自動獲取代碼和數據下載鏈接

4存入數據庫

值得註意的是,在爬取“推薦”頁信息的時候,因為對方推送的視頻是隨機的,很有可能存在一大波重復的數據,這部分數據重復存儲是無用的,所以在存儲前就要對這部分數據進行去除。最簡單的方法是給視頻 ID 加個主鍵。

大概跑到 10w 左右視頻的時候,重復就開始多瞭

然後我在視頻表中又對 uid 進行瞭消重處理,存儲用戶信息表數據時,就沒有這個現象瞭

到此為止

我們把要分析的基礎數據都獲取到瞭

下面大傢來看看

通過這份數據能挖掘出啥有趣的信息

1、“抖音”是“今日頭條”親兒子?

在抓取數據的時候,我就有個疑問

抖音數據都來自 snssdk.com 這個域名

而今日頭條 APP 的數據也來自這個域名

???難道???

我有瞭個大膽的猜測

於是,默默地在瀏覽器中輸入瞭關鍵詞“今日頭條抖音”

2、最受歡迎的 50 個視頻排行榜

根據”播放數”、 ”點贊數”、 ”評論數”和”分享數”

按照不同的權重

計算得出近三天推薦的視頻

受歡迎程度的一個指數

進行排序匯集成的榜單

肯定有一個視頻是你們喜歡的類型

3、使用人數最多的背景音樂

目前排名第一的是污妖王的什麼都不必說

看來 PPAP 早已過氣

截至發稿時最火爆的是 C 哩 C 哩

4、近三天 - 人數最多挑戰話題

5、大傢都幾點發視頻呢?

峰值分別出現在 9 點、11 點和 22 點

看來這三個時間點人們都比較放松呀

6、精選視頻占比

精選視頻占總量的 5%

看來網紅也不是那麼容易當的

7、視頻簡介詞雲

從詞雲上來看

“哈哈哈哈哈”

“第一次玩”

“笑死我瞭”

占據瞭大部分

這說明抖音給大傢帶來的幸福感滿滿噠

8、用戶地區統計

沒啥好說的自己體會

看紅色區域

9、微博達人占比

10、星座餅圖

看來摩羯座的人更愛表現自己哈(可是,這不科學啊!!!

11、關註最多前 10

我也是驚訝瞭

這些人怎麼點瞭那麼多關註

難道是刷粉專用號?

12、粉絲最多前 10

“抖音小助手”,第一沒懸念

官方出品實屬精品

13、獲贊最多前 10

張欣堯??Who?

看來我已經 out 到大叔的行列瞭

但是

看到裴佳欣上榜我就欣慰瞭

14、粉絲和獲贊數最多的 10 個用戶與發佈作品數關系

這十位的個人主頁

用戶名

個人主頁

張欣堯

https://www.douyin.com/share/user/55984163441

吳佳煜

https://www.douyin.com/share/user/57757215586

老王歐巴

https://www.douyin.com/share/user/57556362221

Boogie93

https://www.douyin.com/share/user/53033085462

ItzGennyB

https://www.douyin.com/share/user/58047677560

劉宇

https://www.douyin.com/share/user/58325035431

一婷呦

https://www.douyin.com/share/user/57612117399

抖音小助手

https://www.douyin.com/share/user/6796248446

裴佳欣

https://www.douyin.com/share/user/58367610723

夏沐湷光 ™

https://www.douyin.com/share/user/52251443638

15、作品狂人 Top10

沒有功勞也有苦勞

希望大傢也去關註一下人傢

16、演員列表獲贊前 10

用戶名

職業

獲贊數

個人主頁

智旭磊

模特、演員、主持人

2854035

https://www.douyin.com/share/user/58088536508

趙奕歡 Chloe

演員 趙奕歡

2200859

https://www.douyin.com/share/user/58277041106

張雙利

演員

1817996

https://www.douyin.com/share/user/60846001594

金瀚 kim

趙麗穎工作室演員

1623772

https://www.douyin.com/share/user/55997704074

陳小紜

1231486

https://www.douyin.com/share/user/58543570570

郭俊辰

演員郭俊辰

1221242

https://www.douyin.com/share/user/54237507764

鄧寧 Denny

演員、歌手

984472

https://www.douyin.com/share/user/58749390947

Terry Hou

715583

https://www.douyin.com/share/user/58985609615

朱嘉琦 z

624354

https://www.douyin.com/share/user/58238850965

朱元冰本人

605955

https://www.douyin.com/share/user/57175106376

趙奕歡???

居然過瞭那麼多年在這裡見到她

17、年齡分佈

從數據上來看

90 後是主力軍

其中 94 年占比最大

95、96、97 也緊隨其後

如果說快手是被東北大爺們占領的 APP

那麼抖音偏向於 94 後的小鮮肉們

18、男女比例

女性的表現欲勢不可擋

19、簽名詞雲

666666 666

20、恭喜你發現 QA 小姐姐的寶貝測試賬號

QAQ 很不湊巧 在分析數據的時候

發現瞭 2 個特殊賬號

① .callme huohuo:https://www.douyin.com/share/user/62538193651

② . 頂天立地滿大臉:https://www.douyin.com/share/user/57022910980

這應該是抖音內部測試賬號,別告訴她我默默點瞭關註

好調皮的 QA 小姐姐,求勾搭 ~

END—

本文出自公眾號”瑞雲大數據“

精彩圖片
文章評論 相關閱讀
© 2016 看看新聞 http://www.kankannews.cc/