胡歌的《獵場》到底值不值得看?

11-21

11 月 6 日,湖南衛視已經開播被稱作年度壓軸的大戲 " 獵場 ",迅速占領各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成瞭兩極分化。截止 11 月 8 日,該劇在豆瓣上的評分為 5.7 分。相比較胡歌之前《瑯琊榜》的 9.1,《偽裝者》的 8.3 等來說,這一評分確實不高。有趣的是,首頁的評分比例與 " 短評 "、" 劇評 " 的比例存在非常大的差異!

首頁總評分評分兩級分化嚴重," 差評 " 占主 在目前 11463 個評價中兩級分化嚴重,"1 星 " 占比最高為 28.6%,其次為 "5 星 " 的 25.4%。" 好評 "(5 星、4 星)占比為 35.80%," 一般 "(3 星)為 16.50%," 差評 "(2 星、1 星)占比為 47.80%。很明顯," 差評 " 占瞭接近一半的比例。

《獵場》豆瓣評分占比分佈

在短評和劇評中的另一種景象 首頁的豆瓣評分中 " 差評 " 占比很高,但是在豆瓣的短評和劇評中卻是另一番景象。 在目前 5979 條短評中," 好評 " 占比 71%," 一般 " 為 5%," 差評 " 占比 24%。而在 392 條劇評中,"5 星 " 占瞭非常高的比例!84.7% 的劇評給瞭 " 好評 "。

《獵場》劇評評分分佈

我們將三個位置的評分放在一起比較就會出現非常明顯的差異。根據這個差異,我們可以大致判斷:寫出短評或者劇評的觀眾大部分給予瞭 " 好評 ",但仍有大量觀眾直接給瞭差評,並沒有說明任何原因。當然,我們並沒有考慮那些不寫評論,而隻是點 " 有用 " 和 " 沒用 " 觀眾。

才剛剛上映,劇情還在慢慢的鋪,所以現在給整部劇下定論還太早。

《獵場》到底好不好看?我們還是想通過以 11 月 8 日為界,看看人們短評人的情緒,是積極,還是消息。利用詞雲看看大傢都說瞭什麼,希望能大傢就是否建議觀看給出建議。

一、爬取《獵場》熱門短評,豆瓣的爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取 cookies 如下:

同時建議在循環抓取的時候進行 sleep,例如:

time.sleep ( 1 + float ( random.randint ( 1, 100 ) ) / 20 )

《獵場》熱門短評內容和時間爬取瞭 22440 條評論,代碼如下:

import reimport requestsimport codecsimport timeimport randomfrom bs4 import BeautifulSoupabsolute = 'https://movie.douban.com/subject/26322642/comments'absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'header={'User-Agent':'Mozilla/5.0 ( Windows NT 10.0; Win64; x64; rv:54.0 ) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}def get_data ( html ) : soup=BeautifulSoup ( html,'lxml' ) comment_list = soup.select ( '.comment > p' ) next_page= soup.select ( '#paginator > a' ) [ 2 ] .get ( 'href' ) date_nodes = soup.select ( '..comment-time' ) return comment_list,next_page,date_nodesif __name__ == '__main__': f_cookies = open ( 'cookie.txt', 'r' ) cookies = {} for line in f_cookies.read ( ) .split ( ';' ) : name, value = line.strip ( ) .split ( '=', 1 ) cookies [ name ] = value html = requests.get ( absolute_url, cookies=cookies, headers=header ) .content comment_list = [ ] # 獲取評論 comment_list, next_page,date_nodes= get_data ( html, ) soup = BeautifulSoup ( html, 'lxml' ) comment_list = [ ] while ( next_page != [ ] ) : # 查看 " 下一頁 " 的 A 標簽鏈接 print ( absolute + next_page ) html = requests.get ( absolute + next_page, cookies=cookies, headers=header ) .content soup = BeautifulSoup ( html, 'lxml' ) comment_list, next_page,date_nodes = get_data ( html ) with open ( "comments.txt", 'a', encoding='utf-8' ) as f: for node in comment_list: comment = node.get_text ( ) .strip ( ) .replace ( "n", "" ) for date in date_nodes: date= node.get_text ( ) .strip ( ) f.writelines ( ( comment,date ) + u'n' ) time.sleep ( 1 + float ( random.randint ( 1, 100 ) ) / 20 )

二、對數據進行清洗:

import pandas as pdimport matplotlib.pyplot as pltdate_name= [ 'date','comment' ] df = pd.read_csv ( './comment.csv',header=None,names=date_name,encoding= 'gbk' ) df [ 'date' ] = pd.to_datetime ( df [ 'date' ] )

樣本數量:

print ( df [ 'date' ] .value_counts ( ) ) 獲取 2017-11-06 – 2017-11-08 數據:

data6 = df [ '2017-11-06':'2017-11-08' ] data6.to_csv ( '6.txt', encoding = 'utf-8', index = False ) print ( data6.size ) 5775 獲取 2017-11-09 – 2017-11-17 數據:data9 = df [ '2017-11-09':'2017-11-17' ] data9.to_csv ( '9.txt', encoding = 'utf-8', index = False ) print ( data9.size ) 16665

三、情感分析和詞雲

對熱門短評基於原有 SnowNLP 進行積極和消極情感分類,讀取每段評論並依次進行情感值分析(代碼:https://zhuanlan.zhihu.com/p/30107203),最後會計算出來一個 0-1 之間的值。

當值大於 0.5 時代表句子的情感極性偏向積極,當分值小於 0.5 時,情感極性偏向消極,當然越偏向兩邊,情緒越偏激。

2017-11-06 – 2017-11-08 分析:

從上圖情感分析(代碼:https://zhuanlan.zhihu.com/p/30107203 )來看,影評者還是還是非常積極的,對《獵場》的期望很高。

從詞雲(代碼:https://zhuanlan.zhihu.com/p/30107203 )上來看:

2017-11-09 – 2017-11-17 分析

從上圖情感分析(代碼:https://zhuanlan.zhihu.com/p/30107203 )來看,積極的情緒已經遠遠超過消極的情緒,還是受到大傢的好評。

從詞雲(代碼:https://zhuanlan.zhihu.com/p/30107203 )上來看,出現好看、劇情、期待、喜歡等詞。

總結

詞雲的背景是胡歌,大傢看出來瞭嘛?目前豆瓣的分數已經是 6.2 分,目前劇情過半,相信接下來會更精彩,個人認為分數會在 7.5 分以上。

拋開豆瓣的推薦分數,通過的熱門短評的情感和詞雲分析,是一部不錯的現實劇,劇情犀利、深刻、啟迪,很多人期待。如果您有時間,不妨看一下,或許能收獲一些意想不到的東西。

精彩圖片
文章評論 相關閱讀
© 2016 看看新聞 http://www.kankannews.cc/