作為一名名副其實的上班狗
平時無非是
吃吃飯,喝喝茶
看電影,聊聊天
逛逛街,牽牽手
喝喝小酒
咳!咳!咳
其實我想說
但是一個偶然的機遇
接觸到瞭“抖音” APP
出於好奇 默默的下載瞭
果然有很多驚喜
神馬?!你還不知道抖音是什麼?
抖音短視頻,是一款音樂創意短視頻的 App 。用戶可以通過這款軟件拍攝 15 秒的音樂短視頻,已在 Android 各大應用商店上架 ....(抖音給你多少好處費?)
打住打住
直接看視頻吧
畫風是這樣的
裡面不乏有
各路達人的作品
各種魔性洗腦的音樂
各種流行的舞蹈
真的是
一入「抖音」深似海
想停你都「停不下來」
Suddenly!
分析一下
這個魔性的抖音
看看都有啥有趣的數據
下面
一大波幹貨即將到來
請準備好紙和筆
先看一下我的思路
如上圖,視頻和用戶信息就是我們最終要分析的基礎數據
工欲善其事必先利其器
本次我們選取的工具是:
Fiddler
Eclipse
MySQL
萬事俱備,我們說幹就幹
1Fiddler 抓包分析
Step1 搭建好 Fiddler 的環境
這個比較簡單,如果不會請直接滑到文末,點附錄 中的 fiddler 教程查看
Step2 分析請求鏈接形式
經過分析,最後確定請求 Url 形式和規律
“推薦”頁的鏈接形式
Url 地址為: https://aweme.snssdk.com/aweme/v1/feed/
請求方式為:GET
GET 參數 點擊 WebForms 查看:
由於,不刪減任何參數每次請求都返回全新的數據。
所以,省去瞭我們分析參數的環節。
值得一提的是
默認返回結果的 Json 中,包含瞭 6 個視頻
這一開始讓我很費解
後來才知道,app 往上劃是 Json 中另外 5 個視頻
往下劃是返回 6 個全新的視頻,這是一次全新的請求
我一般都是一直往下劃
那另外 5 個豈不是被看到的概率很小麼?
另外,將 count 參數擴大可以在同一時間單位中獲取更多的數據,這大大節省瞭後面的爬取的耗時。
簡直是福利呀
“用戶信息”鏈接形式:這個就比較簡單瞭,從剛才“推薦”頁返回結果的 Json 中,提取 uid 就好瞭
拼接成這樣的鏈接形式進行爬取 :http://aweme.snssdk.com/aweme/v1/user/?user_id= [ 用戶 ID ]
2爬取數據
接下來,根據上面分析出來的鏈接形式
我們先爬取“推薦”頁吧
二話不說,上代碼
Java 主方法
getCtx ( ) 方法
用戶信息抓取也是一樣的代碼,僅僅換瞭請求鏈接而已
一招鮮吃遍天
這是這兩天爬行的數據總量
看來,我這 5 年前的神船筆記本還是挺給力噠
有小夥伴在下面說,你這個代碼單線程爬行太慢瞭吧,效率太低瞭?!
沒關系,關註我們,以後會介紹解決方法的。
3結構化數據
想要有針對性的分析一個數據
首先要確定結構化的字段有哪些對後面分析的數據有幫助
比如:
本次視頻信息結構化瞭這些字段
本次用戶信息結構化瞭這些字段
具體解析 Json 的代碼就不放瞭,解析方法千千萬,我還是喜歡用 org.json.jar
直接在本公眾號下回復“抖音數據”,可自動獲取代碼和數據下載鏈接
4存入數據庫
值得註意的是,在爬取“推薦”頁信息的時候,因為對方推送的視頻是隨機的,很有可能存在一大波重復的數據,這部分數據重復存儲是無用的,所以在存儲前就要對這部分數據進行去除。最簡單的方法是給視頻 ID 加個主鍵。
大概跑到 10w 左右視頻的時候,重復就開始多瞭
然後我在視頻表中又對 uid 進行瞭消重處理,存儲用戶信息表數據時,就沒有這個現象瞭
到此為止
我們把要分析的基礎數據都獲取到瞭
下面大傢來看看
通過這份數據能挖掘出啥有趣的信息
1、“抖音”是“今日頭條”親兒子?
在抓取數據的時候,我就有個疑問
抖音數據都來自 snssdk.com 這個域名
而今日頭條 APP 的數據也來自這個域名
???難道???
我有瞭個大膽的猜測
於是,默默地在瀏覽器中輸入瞭關鍵詞“今日頭條抖音”
2、最受歡迎的 50 個視頻排行榜
根據”播放數”、 ”點贊數”、 ”評論數”和”分享數”
按照不同的權重
計算得出近三天推薦的視頻
受歡迎程度的一個指數
進行排序匯集成的榜單
肯定有一個視頻是你們喜歡的類型
3、使用人數最多的背景音樂
目前排名第一的是污妖王的什麼都不必說
看來 PPAP 早已過氣
截至發稿時最火爆的是 C 哩 C 哩
4、近三天 - 人數最多挑戰話題
5、大傢都幾點發視頻呢?
峰值分別出現在 9 點、11 點和 22 點
看來這三個時間點人們都比較放松呀
6、精選視頻占比
精選視頻占總量的 5%
看來網紅也不是那麼容易當的
7、視頻簡介詞雲
從詞雲上來看
“哈哈哈哈哈”
“第一次玩”
“笑死我瞭”
占據瞭大部分
這說明抖音給大傢帶來的幸福感滿滿噠
8、用戶地區統計
沒啥好說的自己體會
看紅色區域
9、微博達人占比
10、星座餅圖
看來摩羯座的人更愛表現自己哈(可是,這不科學啊!!!
11、關註最多前 10
我也是驚訝瞭
這些人怎麼點瞭那麼多關註
難道是刷粉專用號?
12、粉絲最多前 10
“抖音小助手”,第一沒懸念
官方出品實屬精品
13、獲贊最多前 10
張欣堯??Who?
看來我已經 out 到大叔的行列瞭
但是
看到裴佳欣上榜我就欣慰瞭
14、粉絲和獲贊數最多的 10 個用戶與發佈作品數關系
這十位的個人主頁
用戶名
個人主頁
張欣堯
https://www.douyin.com/share/user/55984163441
吳佳煜
https://www.douyin.com/share/user/57757215586
老王歐巴
https://www.douyin.com/share/user/57556362221
Boogie93
https://www.douyin.com/share/user/53033085462
ItzGennyB
https://www.douyin.com/share/user/58047677560
劉宇
https://www.douyin.com/share/user/58325035431
一婷呦
https://www.douyin.com/share/user/57612117399
抖音小助手
https://www.douyin.com/share/user/6796248446
裴佳欣
https://www.douyin.com/share/user/58367610723
夏沐湷光 ™
https://www.douyin.com/share/user/52251443638
15、作品狂人 Top10
沒有功勞也有苦勞
希望大傢也去關註一下人傢
16、演員列表獲贊前 10
用戶名
職業
獲贊數
個人主頁
智旭磊
模特、演員、主持人
2854035
https://www.douyin.com/share/user/58088536508
趙奕歡 Chloe
演員 趙奕歡
2200859
https://www.douyin.com/share/user/58277041106
張雙利
演員
1817996
https://www.douyin.com/share/user/60846001594
金瀚 kim
趙麗穎工作室演員
1623772
https://www.douyin.com/share/user/55997704074
陳小紜
1231486
https://www.douyin.com/share/user/58543570570
郭俊辰
演員郭俊辰
1221242
https://www.douyin.com/share/user/54237507764
鄧寧 Denny
演員、歌手
984472
https://www.douyin.com/share/user/58749390947
Terry Hou
715583
https://www.douyin.com/share/user/58985609615
朱嘉琦 z
624354
https://www.douyin.com/share/user/58238850965
朱元冰本人
605955
https://www.douyin.com/share/user/57175106376
趙奕歡???
居然過瞭那麼多年在這裡見到她
17、年齡分佈
從數據上來看
90 後是主力軍
其中 94 年占比最大
95、96、97 也緊隨其後
如果說快手是被東北大爺們占領的 APP
那麼抖音偏向於 94 後的小鮮肉們
18、男女比例
女性的表現欲勢不可擋
19、簽名詞雲
666666 666
20、恭喜你發現 QA 小姐姐的寶貝測試賬號
QAQ 很不湊巧 在分析數據的時候
發現瞭 2 個特殊賬號
① .callme huohuo:https://www.douyin.com/share/user/62538193651
② . 頂天立地滿大臉:https://www.douyin.com/share/user/57022910980
這應該是抖音內部測試賬號,別告訴她我默默點瞭關註
好調皮的 QA 小姐姐,求勾搭 ~
—END—
本文出自公眾號”瑞雲大數據“