五个数据分析成功案例 数据分析项目案例( 二 )


carbin对carbin(客舱号)做透视,可以看到有295个唯一值,基本上是一个客舱只住一个人 。
但是也发现了有1个客舱对应2个人以上的情况,进一步地把舱位拉进去对比一下,发现三等舱的数值很少,说明carbin缺失值大部分是三等舱缺失的,意思是三等舱的人没有客舱?大通铺?这个有待进一步查证 。
另外发现三等舱有客舱的都是E/F/G开头的客舱号,而头等舱A/B/C就较多,猜测客舱号是随着舱位的降低按字母升序排列的 。
2、乘客维度
namename姓名列没有什么有价值的信息,不过可以进一步思考的是,姓名里其实是对应了头衔的,比如Mr是已婚男士,Mrs是已婚女士等,但是这里就先删除了 。
sex对性别和生还情况进行分析
生还的人中女性占比67.8%,远高于男性的32.2% 。

女性生还人数占女性总数的72.75%,远远大于男性生还人数占男性总数的19.10% 。
性别&舱位可以顺便看一下舱位和性别的关系,因为男性人口基数大,所以不管是哪个舱位,男性人数都是多于女性的,同理,各个舱位都是女性获救的人数最多 。
但是呢,头等舱女性的生还比例为97%,远高于其他两个舱位,且三等舱女性的生还比例只有49% 。
age对年龄和生还情况进行分析,这里因为年龄有缺失,仅对有数值的进行分析 。
首先对年龄做一个简单的描述统计,用【数据分析】里的【描述统计】功能,可以看到年龄最大值为80岁,最小值为0.17岁,平均值为29.88岁,年龄中位数为28岁,众数为24岁 。
进一步地,可以观察一下年龄的分布情况,做直方图,5岁为一组,可以看到,乘客的年龄主要集中在15-30岁,其中20-25岁的年轻人最多 。
了解了年龄大致的分布后,就要来看特定人群的生还情况了,我们将年龄分为:
少年(0~15岁)青年(15~40岁)中年(41~65岁)老年(66岁以上)先做一个分组的表,用vlookup的模糊匹配实现分组
在age旁新建一列age分组的辅助列,输入公式
=VLOOKUP(E2,Sheet2!$B$18:$C$21,2,1) Sheet2!18:21这个区域就是上图预先设置好的分组区域 。
再对age分组和survived进行透视

可以看到生还的人中青年、少年的占比最多,老年占比最少 。

对各年龄段分组的死亡、生存情况做百分比堆积柱形图,得到结果,少年获救的人数比例最高 。
sibsp对sibsp字段(兄弟姐妹妹/配偶的个数)分析,透视后可以看到标签为0,也就是说没有亲戚的人是船上乘客的大多数 。
同样因为基数大的缘故,生存下来的人中,亲戚数为0的占比最多达到了61.8% 。

对各标签做百分比堆积柱形图,这才是比较有意义的结果,可以看到,有1个亲戚数的人群获救的比例最高 。

猜你喜欢