简述数据预处理的常用操作 数据预处理方法和内容( 四 )


2、异常值处理
对于异常值一般有以下几种处理方式:
■最常用的处理方式就是删除
■把异常值当做缺失值来填充
■把异常值当做特殊情况,研究异常值出现的原因
(1)Excel实现
在Excel中,删除异常值只要通过筛选就把异常值对应的行找出来,然后单击鼠标右键选择删除行即可 。
对异常值进行填充,其实就是对异常值进行替换,同样通过筛选的功能把异常值先找出来,然后把这些异常值替换成要填充的值即可 。
(2)Python实现
在Python中,删除异常值用到的方法和Excel中的方法原理类似,Python中是通过过滤的方法对异常值进行删除 。比如 df 表中有年龄这个指标,要把年龄大于200的值删掉,你可以通过筛选把年龄不大于200的筛出来,筛出来的部分就是删除大于200的值以后的新表 。
对异常值进行填充,就是对异常值进行替换,利用 replace ( ) 方法可以对特定的值进行替换 。
四、数据类型转换
1、数据类型
(1)Excel实现
在Excel中常用的数据类型就是在菜单栏中数字选项下面的几种,你也可以选择其他数据格式,如下图所示 。
在Excel中只要选中某一列就可以在菜单栏看到这一列的数据类型 。
当选中成交时间这一列时,菜单栏中就会显示日期,表示成交时间这一列的数据类型是日期格式,如下图所示 。
(2)Python实现
Pandas不像Excel分得那么详细,它主要有6种数据类型,如下表所示 。
在 Python 中,不仅可以用 info ( ) 方法获取每一列的数据类型,还可以通过 dtype方法来获取某一列的数据类型 。
2、类型转换
我们在前面说过,不同数据类型的数据可以做的事情是不一样的,所以我们需要对数据进行类型转化,把数据转换为我们需要的类型 。
(1)Excel实现
在Excel中如果想更改某一列的数据类型,只要选中这一列,然后在数字菜单栏中通过下拉菜单选择你要转换的目标类型即可实现 。
下图就是将文本类型的数据转换成数值类型的数据,数值类型数据默认为两位小数,也可以设置成其他位数 。
(2)Python实现
在Python中 ,我们利用astype ( ) 方法对数据类型进行转换,astype ( ) 后面的括号里指明要转换的目标类型即可 。
五、索引设置
索引是查找数据的依据,设置索引的目的是便于我们查找数据 。举个例子,你逛超市买了很多食材,回到家以后你要把这些食材全部放在冰箱里,放置在冰箱的过程其实就是一个建立索引的过程,比如蔬菜放在冷藏室,肉类放在冷冻室,进行完这样的分类存放之后,这样再找的时候就可以很快的找到 。

猜你喜欢