一、理解数据
- 数据来源
阿里云天池:User Behavior Data from Taobao for Recommendation
数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集大小情况为:用户数量约100万(987,994),商品数量约410万(4,162,024),商品类目数量9,439以及总的淘宝用户行为记录数量为1亿条(100,150,807)。
关于数据集中每一列的详细描述如下:
列名称 | 说明 |
---|---|
User ID | 整数类型,序列化后的用户ID |
Item ID | 整数类型,序列化后的商品ID |
Category ID | 整数类型,序列化后的商品所属类目ID |
Behavior type | 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav') |
Timestamp | 行为发生的时间戳 |
用户的行为类型分别表示为
行为类型 | 说明 |
---|---|
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
- 本次分析选取的数据样本 原数据集一共有1亿条数据记录,数据量庞大,本次分析选取了前1000万条记录进行分析。
二、数据清洗
列名重命名
原始数据没有列名,为每列添加列名。删除重复值
用drop_duplicates
删除重复值。缺失值处理
查看是否存在缺失值,如果有的话进行清理。时间处理
将原始时间格式转为人类可读的时间格式并添加Date,Hour和HMS列。数据异常值处理
只选择日期是在规定范围内:2017年11月25日至2017年12月3日的数据。df[(df['Datetime'] > '2017-11-25 00:00:00')&(df['Datetime'] < '2017-12-04 00:00:00')]
最终头部数据如下图:
三、用户行为分析
- 流量及转换分析
1) 流量指标计算:
UV | PV | PV/UV |
---|---|---|
97809 | 8838186 | 90.36 |
2) 用户行为漏斗:
用户行为包括点击、收藏、放进购物车、以及购买。其中点击占89.5%,收藏占2.9%,放入购物车的有5.6%,最终购买的只有2.0%。绝大部分的点击行为是无效的,看来仍然需要优化筛选功能,使得用户能更精准的找到想购买的商品。
3) 独立访客UV转化指标计算:
从独立访客的行为统计发现,从点击到最后购买的转化率约为68%,用户的购买欲望还是挺足的。
4) 有购买行为的独立访客行为:
在66248个独立购买ID中,有约80%的用户有过放入购物车的行为,另外约有42%的用户有过收藏行为。可以看出绝大部分用户是先加入购物车后结算的,有很大一部分用户会先加入收藏再购买,可能的情况是对多种商品进行比较后再下单。
5) 用户使用时间分析
在9天时间内,11月25、26日和12月2、3日是周末,PV比工作日要高。但12月2、3日PV明显比前一周要高出很多,怀疑是平台有促销活动。
6) 用户数量
周末的用户数量比工作日略多,12月2、3日尤其明显,这两日可能是平台有活动。
7) 用户每日购买行为
用户每日购买行为除12月2、3日特殊外,其他时候没有明显区别,工作日和周末数量大致相当。
8) 每日人均客单
12月2、3日人均客单数有较明显的下降,推测可能有合并购买优惠的活动。
四、商品分析
- 商品统计
以下为商品的浏览,收藏,加购物车,购买的前十名。
产品复购分析
产品购买次数和种类的统计如上图,绝大部分产品仅购买一次,不到20000种商品购买达两次,仅有很小一部分商品购买次数达到三次以上。
从上图独立用户购买次数的分布来看,购买次数每增加一次,独立用户数减少30-40%,购买次数超过5次的用户只占很小的份额。
五、结论
商品的销售量与用户浏览时间呈正比关系,商品的销售量主要原因之一为流量。2017年12月2日-12月3日是星期六和星期天,点击量陡增,怀疑是平台促销活动。
用户行为包括点击、加入购物车、收藏以及购买,点击量占总行为的89.5%,而加入购物车只占5.6%,最后实际购买跌至2%,流量严重损失在加入购物车这一环节上。可能出现的原因是用户花了大量时间寻找合适的产品。
根据这一情况,改善转化率的建议有:(1)优化电商平台的筛选功能,增加关键词搜索准确率,让用户更容易找到所需商品;(2)为用户提供同类产品的比较功能,使用户不需要多次返回搜索结果查看。
独立用户从点击到最后购买的转化率约为68%,用户有很强的购买欲望,所以通过合理的优化平台筛选功能可以提升最终购买的转化率。