豆瓣电影数据分析

最近为了练习用Python pandas分析数据,从网上下载了一份豆瓣电影的数据,数据截止到17年,而且1980年前的数据明显偏少,所以选取1980-2017年的数据进行分析。

{"_id":{"$oid":"5ad89b396afaf881d81e6ce3"},"title":"快手枪手快枪手","year":"2016","type":"喜剧,动作","star":5.1,"director":"潘安子","actor":"林更新,张静初,腾格尔,刘晓庆,锦荣,曾江,施予斐,含笑,文淇","pp":16518,"time":115,"film_page":"https://movie.douban.com/subject/26219893/"}

其中type是写在一起以逗号隔开的,所以通过str.get_dummies(',')把不同type列在不同的列中。之后根据数量统计,发现「剧情」、「动作」、「喜剧」、「惊悚」和「爱情」是数量最多的五类电影,因此选取这五类影片进行比较。


从电影发行量的图可以看出,剧情片一直是发片量最大的电影类型,而且2000年后与其他类型影片的发布量进一步拉开,发布量第二的是喜剧片,其他三类电影发布量没有显著差别。


从电影评分的总体变化趋势可以看出在2000年前评分在7.0-7.4之间波动,2000年后随着电影每年的产出持续上升评分却持续下降。


比较五大类型影片以及总体的评分变化,发现整体变化趋势都一样。在所有类型的影片中剧情片评分最高,其次是喜剧片,且剧情和喜剧评分高于整体评分。爱情片在2010前大致与总体评分相当,2010年后低于总体评分。动作片和惊悚片的评分在2005年前互有高低,旗鼓相当,但2005年后惊悚片评分低于动作片。

总结来看,电影发片量从1995年开始持续高速增长,到2010年接近高峰,之后发行量进入波动期。剧情片和喜剧片每年产出最多整体评价也高于其他类型的电影,但是随着每年发片量的增加平均评分也持续下降,说明每年有大量的烂片产出。