關愛女性健康,從我做起 !
小早說:關愛女性健康,從我做起 !
一、緣起心血來潮,突然想爬取天貓內衣的購買信息記錄,來對中國廣大女性的胸圍情況來次認真地探討 ( 很認真的那種 ) 。
爬取內容為評論裡的信息,包括尺碼,顏色以及評價。
數據獲取過程如下:
1. 習慣性打開開發者工具,果不其然,評論信息是動態生成的。
2. 所以就要到 network 去抓包,數據是 json 格式的。
3. 搞到評論的具體網址後分析下各參數,用 list 迭代豈不美滋滋 ?
4. 第一次迭代爬取 10w 條評論後用 set 去重後隻剩下 1000 多條 ???
5. 經分析,它每隔幾頁評論就會彈出一個反爬蟲連接驗證登錄,而且靠後一點,如 100 頁後的數據顯示的總是重復,經優化後一個商品差不多能爬到 4000 條不重復的評論。
6. 也可能是我技術還不到傢吧,能力不夠,努力來湊。
7. 我就爬取瞭不同的約 50 件商品的記錄,得到瞭 20w 條評論信息 ( 樣本容量還是有點小,不過取樣的范圍廣一點 ) 。二、前言前言首先,得對內衣的尺碼有所瞭解,為此我專門查瞭一下,在這裡給對這個還不熟悉的男同胞們科普一下。
胸圍分為上胸圍和下胸圍。如何測量下胸圍尺碼 ?
水平圍繞胸部乳房底部一周的長度,即為胸部下圍尺寸,單位:CM。
如何測量上胸圍方法 ?
水平圍繞胸部最高點 ( 乳 . 頭 ) 一周的長度,即為胸上圍尺寸,如測量尺寸時遇到小數,測量時建議采用進一法,例如 72.1 公分,計算為 73 公分。
還不知道怎麼測量,看圖。
如何計算罩杯的大小 ?
罩杯的大小就是上胸圍減去下胸圍的差。
根據步驟一測量的結果,用胸圍尺寸 - 下胸圍尺寸的差,即確定罩杯號型,對應罩杯參考。
本來以為 A 已經夠優秀瞭,沒想到還有 AA 的,比優秀還優秀。
加油,摸摸大 ! 接下來就是確定具體尺碼瞭,尺碼有兩種,英式尺碼和國際尺碼。
不能再描述下去瞭,再描述下去成 BRA 科普文瞭,上酸菜,啊不,上正文 ~~
三、正文有瞭這些基本概念後,我們再來看看這具體的 20w 條數據能告訴我們什麼。
顏色對顏色進行分詞統計詞頻,清理數據後共有 136 個,對 top20 生成條形圖。
膚色 黑色 粉色 在第一梯隊,遙遙領先。
灰色 白色 卡其色 紫色 藍色 淺紫色 紅色 貴族黑 淺藍 處於第二梯隊,貴族黑和黑色有什麼差別 ? 黑得若隱若現 ?
薄杯,薄款,厚款,超薄 按厚度來,厚款 > 薄款 > 薄杯 > 超薄 ?
廣大女性對薄款還是更多鐘愛的,是因為現在夏天薄的比較涼爽嗎 ? 還是薄的性感一點 ?
具體 top60 如下:
膚色 , 67861
黑色 , 48686
粉色 , 15788
鋼圈 , 14846
薄款 , 11928
薄杯 , 9874
單件 , 7109
灰色 , 6486
白色 , 6345
套裝 , 6228
卡其色 , 5745
紫色 , 5540
藍色 , 5333
厚款 , 5126
淺紫色 , 4336
紅色 , 4322
貴族黑 , 4285
拉絲 , 3793
淺藍 , 3667
超薄 , 3627
下厚 , 3459
上薄 , 3459
綁帶 , 3236
酒紅 , 3215
膚嫩色 , 2804
三排 , 2543
亮面 , 2403
純色 , 2205
輕膚 , 2189
蕾絲 , 2102
銀灰色 , 1979
藕荷色 , 1802
玫紅 , 1781
寶藍色 , 1681
純潔 , 1659
全光膚 , 1642
銀灰 , 1636
咖啡色 , 1587
光面 , 1548
段染 , 1547
蝦粉 , 1546
水晶 , 1371
亞光版 , 1262
藏青 , 1211
輕粉 , 1185
綠色 , 1113
淺綠色 , 1074
粉紅色 , 1056
全光 , 1053
金膚色 , 1006
豆沙 , 870
典雅 , 788
果綠 , 722
冰沙粉 , 699
紫顏色 , 678
經典 , 649
藍邊 , 643
奶白色 , 621
淺粉 , 563
薄荷綠 , 556 才知道原來顏色可以有這麼多種,長姿勢瞭 ...
土豪金 靜謐藍 個性黑 挺別致的,蕾絲 好像也深受喜愛,最後來個詞雲。
尺碼這 20w 條數據中,下胸圍范圍為 [ 70cm - 90cm ] ,罩杯范圍為 [ A - E ] 。
先來看看總體的胸圍情況。
總體上呈現先升後降的趨勢,以 75cm 為分界點開始下滑。
總體范圍還是在 70cm - 85cm, 95cm 的基本上已經很少瞭。
一是可能爬取的內衣商品裡面有的沒賣 95cm 的,二是這胸圍的本來就少 ...
下胸圍對應的總體比例。
再來看看總體的罩杯情況。
也是先升後降的趨勢,這個是以 B 罩杯為分界點開始下滑,但是這個滑得明顯比較陡峭一點,E 罩杯 隻有可憐的 155。
哎 ! 現實太骨感瞭,還是理想豐滿一點。
罩杯對應的總體比例。
看完總體看具體,以罩杯為橫坐標,繪制出各胸圍對應的罩杯情況。
基本上都是先升後降,75cm 80cm 85cm 的是以 B 罩杯為分界點變換趨勢,隻有 70cm 的是一路向下滑。
90cm 和 95cm 由於量不足,在這個圖裡基本上已經貼著 X 軸瞭,把這兩個單獨拉出來看看。
這下就明顯很多瞭,這兩個是以 C 罩杯為分界點變換趨勢的,因為畢竟胸圍大,罩杯大的幾率會大一點。
值得註意的是,95cm 是沒有 A 罩杯和 E 罩杯的。
95cm 的胸圍 A 的罩杯,這太可憐瞭吧,95cm 的胸圍 E 的罩杯,那也是強得不敢想象。
以胸圍為橫坐標,繪制出各罩杯對應的胸圍情況。
這個的趨勢就比較有趣瞭,A 罩杯和 B 罩杯以 75cm 為分界點,開始下降。
A 罩杯降得比 B 罩杯稍微平緩一點,C 罩杯的波動就平緩很多,可能也是總體的量偏少,加上圖表比例的關系。
至於 D 罩杯和 E 罩杯,還是貼地瞭,我也把它倆單獨拉出來。
可以看到 D 罩杯是呈現梯狀的,E 罩杯由於量實在少,基本上毫無波動。
再詳細看看數據集中的范圍吧。胸圍范圍為 [ 70cm - 85cm ] ,罩杯范圍為 [ A - C ] ,其對應的比例分別如下。
70cm 的情況,A > B > C
75cm 的情況,B > A > C
80cm 的情況,B > A > C
85cm 的情況,B > C > A
70cm 的小胸圍罩杯比例 A > B > C,小胸圍的本身應該就是偏瘦,瘦的話罩杯也是偏小。
75cm 和 80cm 的 B 罩杯的比例都要稍大於 A 罩杯的。
85cm 的 C 罩杯已經反超於 A 罩杯瞭,畢竟胸圍大,罩杯也不會小到哪裡去。
評價一樣的套路,分詞然後統計詞頻,進行數據的清理。
其中有 42321 條評論用戶是沒有填寫評論的,這個不進行處理。
由於評價沒有統一規范,這個統計出來的詞就多瞭去瞭,由 top20 生成條形圖。
舒服 不錯 喜歡 滿意 可以 好評 合適 這些都是不錯的評價,聚攏 ? 顯得大一點嗎 ?
展示一下 top60,如下。
舒服 , 39425
不錯 , 38335
質量 , 27383
喜歡 , 21841
穿著 , 19816
內衣 , 18281
寶貝 , 17377
非常 , 16812
聚攏 , 14919
收到 , 14881
滿意 , 14558
效果 , 12684
可以 , 11989
好評 , 11520
合適 , 10705
購買 , 10254
沒有 , 9114
就是 , 8807
有點 , 8658
特別 , 8455
真的 , 8105
感覺 , 7927
小 , 7347
顏色 , 6945
下次 , 6876
這個 , 6557
物流 , 6517
起來 , 6279
好看 , 6250
還會 , 5864
夏天 , 5585
以後 , 5472
值得 , 5457
尺碼 , 5453
第二次 , 5415
價格 , 5378
舒適 , 5369
不會 , 5169
還是 , 5080
而且 , 5052
適合 , 5041
賣傢 , 4964
一樣 , 4834
鋼圈 , 4756
東西 , 4711
客服 , 4696
一下 , 4638
大小 , 4591
面料 , 4531
試穿 , 4476
挺舒服 , 4468
推薦 , 4383
很快 , 4037
便宜 , 3996
一次 , 3843
但是 , 3717
已經 , 3714
超級 , 3692
衣服 , 3621
一個 , 3476 第二次都出現瞭 5415 次,看來是回頭客瞭。
來看一下沒有排上 top60 的其他詞,來個有趣一點的。
哈哈 , 989
哈哈哈 , 554
哈 , 318
哈哈哈哈 , 170 所以,哈多少個是看心情決定的嗎 ?
實惠 , 3216
方便 , 1708
性價比 , 1662 貨比三傢,上網買東西圖的就是一個方便和便宜。
其他的就不再詳細分析瞭,還是老規矩,上個評價的詞雲。
四、最後最後看我用散點圖畫出一個內衣。
什麼 ? 不喜歡這火辣的紅色,那來個性感的黑色。
用散點圖表白也不是說不行,諾 !
最後一張圖引用我心目中永遠的大神 Linus 的一句話。
Talk is cheap,show me the data!
來源:互聯網的一些事(www.yixieshi.com). 轉載請保留出處 .