Pandas支持大部分Numpy语言风格,尤其是数组函数与广播机制的各种数据处理。单是Numpy更适合处理同质型的数据。而Pandas的设计就是用来处理表格型或异性数据的,高效的清洗、处理数据。 Pandas是基于Numpy的一种工具,提供高性能矩阵的运算,该工具是为了解决数据分析任何而创建的。也是贯穿整个Python数据分析非常核心的工具 Pandas基础 、数据清洗与准备、数据聚合与分组、时间序列 Series是一种一维数组对象,它包含了一个值序列( 采用神奇索引 通过索引来修改值 通过标签来修改值 判断值是否存在 当进行对应标签索引进行相加的时候 当对应的标签索引位置进行相加时 当不对应的索引标签进行相加的时候文章目录
5-1 Pandas介绍与安装
为什么会有Pandas
Pandas是什么?
安装Pandas
pip install Pandas
Pandas涉及内容
5-2 Pandas数据结构介绍
Series介绍
value
) ,并且包含了数据标签,称之为索引 (index
)Series创建
pd.Series(data=None,index=None,dtype=None,name=None,copy=False)
Pandas数组函数
语法
基本使用
dtype
查看数据类型
astype
修改数据类型
head()
预览前几条数据
tail()
预览后几条数据
In [15]: # 指定索引序列 In [16]: series = pd.Series(np.arange(4),index=['a','b','c','d']) In [17]: series Out[17]: a 0 b 1 c 2 d 3 dtype: int32 In [18]: # 指定索引的名字 In [19]: series = pd.Series(np.arange(4),index=['a','b','c','d'],name='SmallJ') In [20]: series Out[20]: a 0 b 1 c 2 d 3 Name: SmallJ, dtype: int32 In [21]: # 默认返回int32,可指定其他类型 In [23]: series = pd.Series(np.arange(4),index=['a','b','c','d'],name='SmallJ',dtype='int64') In [24]: series Out[24]: a 0 b 1 c 2 d 3 Name: SmallJ, dtype: int64
In [29]: import numpy as np In [30]: import pandas as pd In [31]: series = pd.Series(np.arange(10),name='SmallJ') In [32]: series Out[32]: 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 Name: SmallJ, dtype: int32 In [33]: # 前面为索引后面为值 In [34]: series.dtype Out[34]: dtype('int32') In [35]: # 查看数据类型 In [36]: series.dtype Out[36]: dtype('int32') In [37]: # 修改数据类型 In [38]: series.astype('float64') Out[38]: 0 0.0 1 1.0 2 2.0 3 3.0 4 4.0 5 5.0 6 6.0 7 7.0 8 8.0 9 9.0 Name: SmallJ, dtype: float64 In [39]: # 预览从头开始的数据 (括号内填指定的数据) In [40]: series.head(5) Out[40]: 0 0 1 1 2 2 3 3 4 4 Name: SmallJ, dtype: int32 In [41]: series.head(6) Out[41]: 0 0 1 1 2 2 3 3 4 4 5 5 Name: SmallJ, dtype: int32 In [42]: # 预览最后的数据 (括号填指定的数据) In [43]: series.tail(5) Out[43]: 5 5 6 6 7 7 8 8 9 9 Name: SmallJ, dtype: int32
Series的索引与值
In [89]: import pandas as pd In [90]: import numpy as np In [91]: series = pd.Series(data=np.arange(5),index=['a','b','c','d','e']) In [92]: series Out[92]: a 0 b 1 c 2 d 3 e 4 dtype: int32 In [93]: # 查看索引 In [94]: series.index Out[94]: Index(['a', 'b', 'c', 'd', 'e'], dtype='object') In [95]: series.values Out[95]: array([0, 1, 2, 3, 4]) In [96]: series.reset_index() Out[96]: index 0 0 a 0 1 b 1 2 c 2 3 d 3 4 e 4 In [98]: series Out[98]: a 0 b 1 c 2 d 3 e 4 dtype: int32 In [99]: # 查看值序列 In [100]: series.values Out[100]: array([0, 1, 2, 3, 4]) In [101]: # 当drop中的值为True的时候将采用删除原索引,并不会对原数据进行修改,需要复制 In [102]: series = series.reset_index(drop=True) In [103]: series Out[103]: 0 0 1 1 2 2 3 3 4 4 dtype: int32
Series索引与切片
In [115]: # 通过标签来取值 In [116]: series.loc['b'] Out[116]: 1 In [117]: # 通过索引下标来取值 In [118]: series.iloc[1] Out[118]: 1
In [139]: series Out[139]: a 0 b 1 c 10 d 3 e 22 dtype: int32
In [141]: # 采用标签来取值 In [142]: series[['a','e']] Out[142]: a 0 e 22 dtype: int32 In [143]: # 采用索引取值 In [144]: series[[0,-1]] Out[144]: a 0 e 22 dtype: int32
Series修改值
In [122]: series Out[122]: a 0 b 1 c 2 d 3 e 4 dtype: int32
series.iloc[2] = 10
series.loc['e'] = 22
In [139]: series Out[139]: a 0 b 1 c 10 d 3 e 22 dtype: int32
Series运算
In [148]: data = pd.Series(data=[1,2,3,4,None],index=['a','b','c','d','e']) In [149]: data Out[149]: a 1.0 b 2.0 c 3.0 d 4.0 e NaN dtype: float64
In [148]: data = pd.Series(data=[1,2,3,4,None],index=['a','b','c','d','e']) In [149]: data Out[149]: a 1.0 b 2.0 c 3.0 d 4.0 e NaN dtype: float64 In [150]: data1 = pd.Series(data=[1,2,3,4,None],index=['a','b','c','d','e']) In [151]: data1 Out[151]: a 1.0 b 2.0 c 3.0 d 4.0 e NaN dtype: float64 In [152]: data + data1 Out[152]: a 2.0 b 4.0 c 6.0 d 8.0 e NaN dtype: float64
In [148]: data = pd.Series(data=[1,2,3,4,None],index=['a','b','c','d','e']) In [153]: data2 = pd.Series(data=[1,2,3],index=['a','b','c']) In [156]: data Out[156]: a 1.0 b 2.0 c 3.0 d 4.0 e NaN dtype: float64 In [157]: data2 Out[157]: a 1 b 2 c 3 dtype: int64 In [158]: data + data2 Out[158]: a 2.0 b 4.0 c 6.0 d NaN e NaN dtype: float64
In [161]: data2 = pd.Series(data=[1,2,3],index=['a','b','c']) In [162]: data3 = pd.Series(data=[1,2,3,4],index=['d','e','f','g']) In [163]: data2 Out[163]: a 1 b 2 c 3 dtype: int64 In [164]: data3 Out[164]: d 1 e 2 f 3 g 4 dtype: int64 In [165]: data2 + data3 Out[165]: a NaN b NaN c NaN d NaN e NaN f NaN g NaN dtype: float64
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算