豆瓣读书分析

最近GitHub上找到一个DouBanSpider项目,提供了一些豆瓣读书的数据,用pandas对这些数据做了分析。

首先遇到的问题是不同主题的书籍信息存储在不同的文件以及不同的sheet里,如何把所有的信息都合并到一张表中并且添加主题标签呢?最后参考了pandas合并文件夹下带有多个sheet的xlxs文件并写出csv文件,但是这篇文章中的代码2并不能成功,所以做了一些修改。数据合并后,根据统计情况,最后选择了出版量最多的六家出版社进行进一步分析。忽略出版量少的年份后最终选择了1978-2015的数据。

在做数据可视化的时候,参考了使用matplotlib画双纵轴坐标

从图书出版量方面发现,中信出版的图书显著多于其他五家出版社,另外五家出版社数量相差不大。但是书籍评价方面中信的评价却是最低的,商务和中华的评价最高,看来学术书的评价要高于其他类型的书籍。

在做书籍评分按出版年份的变化图时,因为出版年份信息要从出版社信息中提取出来,使用str.extract通过正则提取年份信息。

从整体看,六大出版社的评分略优于全部书籍的评分,不过书籍评分的总趋势是随着时间的推移而降低。
从具体出版社来看,基本都是呈现震荡的状态,没有明确的变化趋势。