infos

星期五, 12 六月 2020 13:22 Last Updated on 星期五, 12 六月 2020 13:22 0 Comments

【python基础】||Pandas库的常用操作汇总！qq33828738的博客-

12 六月

微信公众号：龙跃十二
我是小玉，一个平平无奇的小天才！

文章目录

简介：

pandas常用操作：

一、导入、导出数据：

二、查看数据的信息：

三、数据集的处理（数据清洗）：

四、数据预处理

五、数据提取

六、数据筛选

七、数据汇总

八、数据统计

简介：

pandas是我们在python的使用过程中应用非常广泛的一个包，专业点来说呢，Pandas 是 Python 的一个外部模块，它在功能方面和 Excel有异曲同工之妙，也是提供了分析数据的功能。pandas主要提供两个数据类型： Series 和 DataFrame，下面我们来简单介绍一下这两个数据类型：

DataFrame：

DataFrame是pandas最常使用的数据类型，DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。我们可以把它想象成一个矩阵或者是Excel表格。

Series：

相对于Series来说，Series是一种类似于一维数组的对象，它由一维数组（各种numpy数据类型）以及一组与之相关的数据标签（即索引）组成，仅由一组数据即可产生最简单的Series.，它就可以看成是组成DataFrame的矩阵或者Excel表格的某一行或者某一列，也就是说Series就是比DataFrame更小的一个数据组成单元。

pandas常用操作：

一、导入、导出数据：

1、数据的导入

首先导入pandas库，在我们使用的过程中numpy库也是必不可少的，所以我们先将两个库导入备用：

import numpy as np import pandas as pd

2、导入csv文件、Excel文件

data = pd.DataFrame(pd.read_csv('XXX.csv')) data = pd.DataFrame(pd.read_excel('XXX.xlsx'))

注：‘ ’里边可以放入绝对路径，也可以放入相对路径，如果直接存入文件名的话，必须将数据集的文件跟这个.py文件放在同一目录之下。

3、将数据最终写入到Excel文件、CSV文件

data.to_excel('excel_to_python.xlsx')  data.to_csv('excel_to_python.csv')

注：我们经常可以在数据进行分析后，或者是从网页上爬去的内容可以直接存为一个xlsx格式或者csv格式。

4、用pandas来创建特征和数据：

data = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], "date":pd.date_range('20130102', periods=6), "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '], "age":[23,44,54,32,34,32], "category":['100-A','100-B','110-A','110-C','210-A','130-F'], "price":[1200,NAN,2133,5433,NAN,4432]},   columns =['id','date','city','category','age','price'])

**注：**NAN表示缺失值，columns表示数据集的标签。

以下所用数据集均基于上述自己创建的数据集。

二、查看数据的信息：

1、查看数据的内容：

data.head() data.tail()

**注：**head和tail里边可以传入参数，表示查看数据的前多少行。tail是用来查看数据的后多少行，默认查看前五行和后五行。

2、查看数据的维度：

data.shape()

**注：**此处会返回数据集的行数和列数，非常方便我们查看数据的具体信息。

3、查看数据的类型：

data.dtype()

**注：**返回值可能为int、float、字符串，布尔值等等

4、查看数据的具体值：

data.values()

5、查看某个值出现的频率

data.value_counts()

6、查看数据是否存在缺失值：

data.isnull()

7、查看特征名称：

data.columns

8、查看数据的具体信息：

data.info()

8、查看数据的特征信息：

data.describe()

10、查看某一列的唯一值：

data['B'].unique()

三、数据集的处理（数据清洗）：

1、填补数据集的缺失值（一般用0来填补）

data.fillna(value=0)

2、使用某一特征的均值填充缺失值：

data['prince'].fillna(data['XXX'].mean())

**注：**利用数据集data的某一特征的平均值来填充缺失值，这里的‘XXX’为这个数据集的其中某一个特征。

3、更改数据的数据类型：

data['price'].astype('int')

**注：**将price这一特征更改为int型。

4、数据集的英文字符大小写转换：

data['XXX']=data['XXX'].str.lower()

5、数据替换：

data['city'].replace('sh', 'shanghai')

**注：**对city这一特征中的shanghai用sh来代替，replace这一函数可以很好的完成这个功能。

6、更改特征名称：

data.rename(columns={'更改前特征名称': '更改后特征名称'})

**注：**在rename这个函数中以字典的形式传入columns。

7、删除后出现的重复值：

data['city'].drop_duplicates()

8、删除先出现的重复值：

data['city'].drop_duplicates(keep='last')

9、清楚city字段的字符空格：

data['city']=data['city'].map(str.strip)

四、数据预处理

先将数据集导入，具体内容如下：

data_new=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008], "gender":['male','female','male','female','male','female','male','female'], "pay":['Y','N','Y','Y','N','Y','N','Y',], "m-point":[10,12,20,40,40,40,30,20]})

1、数据集合并

data_inner=pd.merge(data,data_new,how='inner') # 合并数据集 data_left=pd.merge(data,data_new,how='left')         data_right=pd.merge(data,data_new,how='right') data_outer=pd.merge(data,data_new,how='outer') #并集

2、设置索引：

data_inner.set_index('id')

3、对数据集某一列的值进行排序：

data_inner.sort_values(by=['age'])

4、按照索引列排序：

data_inner.sort_index()

5、对特征的值进行大小判断：

data_inner['group'] = np.where(data_inner['price'] > 3000,'high','low')

6、对复合多个条件的数据进行分组标记

data_inner.loc[(data_inner['city'] == 'beijing') & (data_inner['price'] >= 4000), 'sign']=1

五、数据提取

主要用到的三个函数：loc、iloc、ix，loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。

1、按索引提取单行的数值

data_inner.loc[3]

2、按索引提取区域行数值

data_inner.iloc[0:5]

3、重设索引

data_inner.reset_index()

4、设置日期为索引

data_inner=df_inner.set_index('date')

5、按照日期取所需数据

data_inner[:'2013-01-04']

6、使用iloc按位置区域提取数据

data_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。

7、适应iloc按位置单独提起数据

data_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行，4、5列

8、使用ix按索引标签和位置混合提取数据

data_inner.ix[:'2013-01-03',:4] #2013-01-03号之前，前四列数据

9、判断city列的值是否为北京

data_inner['city'].isin(['beijing'])

10、判断city列里是否包含beijing和shanghai，然后将符合条件的数据提取出来

data_inner.loc[data_inner['city'].isin(['beijing','shanghai'])]

11、提取前三个字符，并生成数据表

pd.DataFrame(category.str[:3])

六、数据筛选

使用与、或、非三个条件配合大于、小于、等于对数据进行筛选，并进行计数和求和。

1、使用“与”进行筛选

data_inner.loc[(df_inner['age'] > 25) & (data_inner['city'] == 'beijing'),['id','city','age','category','gender']]

2、使用“或”进行筛选

data_inner.loc[(df_inner['age'] > 25) | (data_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])

3、使用“非”条件进行筛选

data_inner.loc[(data_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])

4、对筛选后的数据按city列进行计数

data_inner.loc[(data_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()

5、使用query函数进行筛选

data_inner.query('city == ["beijing", "shanghai"]')

6、对筛选后的结果按prince进行求和

data_inner.query('city == ["beijing", "shanghai"]').price.sum()

七、数据汇总

主要利用函数groupby、pivote_table来对数据进行汇总等一些列的处理。

1、对所有的列进行计数汇总

data_inner.groupby('city').count()

2、按城市对id字段进行计数

data_inner.groupby('city')['id'].count()

3、对两个字段进行汇总计数

data_inner.groupby(['city','size'])['id'].count()

4、对city字段进行汇总，并分别计算prince的合计和均值

data_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

八、数据统计

讲解如何利用pandas进行数据采样、标准差，协方差和相关系数等等数学指标的计算。

1、数据的采样

data_inner.sample(n=3)

2、设置采样权重weights

weights = [0, 0, 0, 0, 0.5, 0.5] data_inner.sample(n=2, weights=weights)

3、不放回采样

data_inner.sample(n=6, replace=False)

4、放回采样

data_inner.sample(n=6, replace=True)

5、数据表描述性统计

data_inner.describe().round(2).T #round函数设置显示小数位，T表示转置

6、计算列的标准差

data_inner['price'].std()

7、计算两个字段间的协方差

data_inner['price'].cov(data_inner['m-point'])

8、数据表中所有字段间的协方差

data_inner.cov()

9、两个字段的相关性分析

data_inner['price'].corr(data_inner['m-point'])

**注：**相关系数在-1到1之间，一般情况下，我们取接近1为正相关，接近-1为负相关，0为不相关。在这里，我们一般可以采用热力图来形象的描述数据之间的一个相关性问题。

10、对数据集进行相关性分析

data_inner.corr()

关于pandas的使用还有很多，这里也是罗列了一些常用的操作，还有更多的操作方法大家可以留言，小玉继续给大家修改，在机器学习的路上，这些库的使用极大的方便了我们，所以大家抓紧小玉给大家精心整理的这份宝藏资料。

更多技术文章，欢迎关注小玉和龙叔的微信公众号【龙跃十二】，一个用心互联网知识和心路历程的良心号。

如果你觉着不错，可以给小玉点个赞哦！

【python基础】||Pandas库的常用操作汇总！qq33828738的博客-

展开阅读全文

1
评论
x
海报

扫一扫，海报
16
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

i小玉

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

【python基础】||Pandas库的常用操作汇总！qq33828738的博客-

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

【python基础】||Pandas库的常用操作汇总！qq33828738的博客-

文章目录

简介：

DataFrame：

Series：

pandas常用操作：

一、导入、导出数据：

1、数据的导入

2、导入csv文件、Excel文件

3、将数据最终写入到Excel文件、CSV文件

4、用pandas来创建特征和数据：

二、查看数据的信息：

1、查看数据的内容：

2、查看数据的维度：

3、查看数据的类型：

4、查看数据的具体值：

5、查看某个值出现的频率

6、查看数据是否存在缺失值：

7、查看特征名称：

8、查看数据的具体信息：

8、查看数据的特征信息：

10、查看某一列的唯一值：

三、数据集的处理（数据清洗）：

1、填补数据集的缺失值（一般用0来填补）

2、使用某一特征的均值填充缺失值：

3、更改数据的数据类型：

4、数据集的英文字符大小写转换：

5、数据替换：

6、更改特征名称：

7、删除后出现的重复值：

8、删除先出现的重复值：

9、清楚city字段的字符空格：

四、数据预处理

1、数据集合并

2、设置索引：

3、对数据集某一列的值进行排序：

4、按照索引列排序：

5、对特征的值进行大小判断：

6、对复合多个条件的数据进行分组标记

五、数据提取

1、按索引提取单行的数值

2、按索引提取区域行数值

3、重设索引

4、设置日期为索引

5、按照日期取所需数据

6、使用iloc按位置区域提取数据

7、适应iloc按位置单独提起数据

8、使用ix按索引标签和位置混合提取数据

9、判断city列的值是否为北京

10、判断city列里是否包含beijing和shanghai，然后将符合条件的数据提取出来

11、提取前三个字符，并生成数据表

六、数据筛选

1、使用“与”进行筛选

2、使用“或”进行筛选

3、使用“非”条件进行筛选

4、对筛选后的数据按city列进行计数

5、使用query函数进行筛选

6、对筛选后的结果按prince进行求和

七、数据汇总

1、对所有的列进行计数汇总

2、按城市对id字段进行计数

3、对两个字段进行汇总计数

4、对city字段进行汇总，并分别计算prince的合计和均值

八、数据统计

1、数据的采样

2、设置采样权重weights

3、不放回采样

4、放回采样

5、 数据表描述性统计

6、计算列的标准差

7、计算两个字段间的协方差

8、数据表中所有字段间的协方差

9、两个字段的相关性分析

10、对数据集进行相关性分析

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

5、数据表描述性统计