parch对parch字段分析(父母/小孩个数),同样可以看到,没有父母/小孩的人数是船上总人数的76%,同样,这部分人群获救的数量也最多 。
做百分比堆积柱形图,可以看到有3个父母/小孩的人群获救的比例最大,达到了62.5% 。
3、船票维度
fare对Fare(票价)字段分析,首先比较关注的是票价和舱位是否存在相关性,正常的逻辑是舱位越高,票价越高,这里算出pclass和fare的相关系数是-0.56,还是比较相关 。
还记得上面我们用vlookup的模糊匹配分组,还可以直接用数据透视表分组 。透视以后组合,选择50步长一组,可以再对票价和舱位透视看看,看到100以上的高票价全都是头等舱,二等舱和三等舱的票价大部分为0~50 。
性别&票价女性的票价均价要高于男性
性别&舱位&票价头等舱的均价远高于其他两个舱,每个舱女性的均价都要高于男性,其中票价的最大值512出自头等舱的女性 。另外一个比较有意思的现象是,票价为0的居然都是男性 。
都写到这儿了,可以再引申出一个问题,票价到底和什么有关?性别?登陆港口?舱位?客舱?有兴趣的小伙伴可以自己再深入探讨一下,这里我们就不探索下去了 。
接下来,50一组看一下fare的分布情况,可以看到票价为0~50的占了船上乘客的82% 。
同时存活数量最多的还是0~50票价的人群,因为它的基数本身就很大 。
从各票价分组的角度来看,做百分比堆积柱形图,可以看到,500-550票价的人群存活比例为100%,而0-50票价的存活比例只有32% 。
ticketticket字段是船票信息/代号,没有特别大的分析意义,这里也就直接删除了 。
4、地域维度
embarked对embarked(登船港口)字段分析,透视后发现S港口登船的人数最多,从堆积柱形图中可以看到,C扣登船的生成比例最高 。
四、生还率同什么有关 生还率同什么相关?这个是我们最关心的,这个问题其实就是survived字段同其他字段的相关系数 。
sex列是字符型数据,要映射成数值,我们添加一列命名为性别的辅助列,male为1,female为0.
再添加一列f_num字段,是sibsp和parch的和,意思是家庭成员数 。
embarked字段分解为3个辅助列,港口-S,港口-C,港口-Q,同时输入公式:
=IF(N2="S",1,0) 如果embarked这个字段是S,那么港口-S列为1,港口-C、港口-Q为0,以此类推 。
同理对舱位pclass也做同样的处理
用【数据分析】里的【相关系数】功能,可以看到每个字段的相关系数
降序排列一下,就可以看出生还率同什么相关了
所以回到我们最初的问题:
【五个数据分析成功案例 数据分析项目案例】猜你喜欢
- 微营销怎么做,微营销的五个技巧
- 广告活动策划方案案例,四个优秀成功案例分享
- excel2019数据分析工具 excel回归分析怎么做预测
- 简述这五个需求层次 产品需求的五个层次角度
- 五个小故事带你领悟汉字的魅力 体现汉字特点的故事
- ajax请求的五个步骤 同步ajax请求
- 俄罗斯最冷的五个城市! 上扬斯克
- 穷人如何创业,五个低成本创业项目推荐
- hadoop数据分析案例 hadoop大数据开发基础答案
- 知否种墨兰五个女儿怎么最后无人敢娶 墨兰的五个女儿结局
