淘宝用户行为数据分析

一、理解数据

  1. 数据来源 阿里云天池:User Behavior Data from Taobao for Recommendation
    数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集大小情况为:用户数量约100万(987,994),商品数量约410万(4,162,024),商品类目数量9,439以及总的淘宝用户行为记录数量为1亿条(100,150,807)。
    关于数据集中每一列的详细描述如下:
列名称 说明
User ID 整数类型,序列化后的用户ID
Item ID 整数类型,序列化后的商品ID
Category ID 整数类型,序列化后的商品所属类目ID
Behavior type 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav')
Timestamp 行为发生的时间戳

用户的行为类型分别表示为

行为类型 说明
pv 商品详情页pv,等价于点击
buy 商品购买
cart 将商品加入购物车
fav 收藏商品
  1. 本次分析选取的数据样本 原数据集一共有1亿条数据记录,数据量庞大,本次分析选取了前1000万条记录进行分析。

二、数据清洗

  1. 列名重命名
    原始数据没有列名,为每列添加列名。

  2. 删除重复值
    drop_duplicates删除重复值。

  3. 缺失值处理
    查看是否存在缺失值,如果有的话进行清理。

  4. 时间处理
    将原始时间格式转为人类可读的时间格式并添加Date,Hour和HMS列。

  5. 数据异常值处理
    只选择日期是在规定范围内:2017年11月25日至2017年12月3日的数据。

    df[(df['Datetime'] > '2017-11-25 00:00:00')&(df['Datetime'] < '2017-12-04 00:00:00')]

    最终头部数据如下图:
    head data

三、用户行为分析

  1. 流量及转换分析
    1) 流量指标计算:
UV PV PV/UV
97809 8838186 90.36

2) 用户行为漏斗:

用户行为包括点击、收藏、放进购物车、以及购买。其中点击占89.5%,收藏占2.9%,放入购物车的有5.6%,最终购买的只有2.0%。绝大部分的点击行为是无效的,看来仍然需要优化筛选功能,使得用户能更精准的找到想购买的商品。

3) 独立访客UV转化指标计算:

从独立访客的行为统计发现,从点击到最后购买的转化率约为68%,用户的购买欲望还是挺足的。

4) 有购买行为的独立访客行为:

在66248个独立购买ID中,有约80%的用户有过放入购物车的行为,另外约有42%的用户有过收藏行为。可以看出绝大部分用户是先加入购物车后结算的,有很大一部分用户会先加入收藏再购买,可能的情况是对多种商品进行比较后再下单。

5) 用户使用时间分析

在9天时间内,11月25、26日和12月2、3日是周末,PV比工作日要高。但12月2、3日PV明显比前一周要高出很多,怀疑是平台有促销活动。

6) 用户数量

周末的用户数量比工作日略多,12月2、3日尤其明显,这两日可能是平台有活动。

7) 用户每日购买行为


用户每日购买行为除12月2、3日特殊外,其他时候没有明显区别,工作日和周末数量大致相当。

8) 每日人均客单


12月2、3日人均客单数有较明显的下降,推测可能有合并购买优惠的活动。

四、商品分析

  1. 商品统计

以下为商品的浏览,收藏,加购物车,购买的前十名。

产品复购分析

产品购买次数和种类的统计如上图,绝大部分产品仅购买一次,不到20000种商品购买达两次,仅有很小一部分商品购买次数达到三次以上。

从上图独立用户购买次数的分布来看,购买次数每增加一次,独立用户数减少30-40%,购买次数超过5次的用户只占很小的份额。

五、结论

  1. 商品的销售量与用户浏览时间呈正比关系,商品的销售量主要原因之一为流量。2017年12月2日-12月3日是星期六和星期天,点击量陡增,怀疑是平台促销活动。

  2. 用户行为包括点击、加入购物车、收藏以及购买,点击量占总行为的89.5%,而加入购物车只占5.6%,最后实际购买跌至2%,流量严重损失在加入购物车这一环节上。可能出现的原因是用户花了大量时间寻找合适的产品。

    根据这一情况,改善转化率的建议有:(1)优化电商平台的筛选功能,增加关键词搜索准确率,让用户更容易找到所需商品;(2)为用户提供同类产品的比较功能,使用户不需要多次返回搜索结果查看。

  3. 独立用户从点击到最后购买的转化率约为68%,用户有很强的购买欲望,所以通过合理的优化平台筛选功能可以提升最终购买的转化率。