pandas基础教程

数据结构

pandas 数据结构 Series

Series是由一组数据与一组索引(行索引)组成的数据结构。

# 创建一个Series,Series默认使用0开始的数做数据标签
s1 = pd.Series(["a","b","c"])
# 指定索引的创建Series
s2 = pd.Series([1,2,3,4], index=["a","b","c","d"])
# 使用字典创建Series
s3 = pd.Series({"a":1, "b":2, "c":3})
# 使用index获取Series的索引
s3.index
# 使用values获取Series的值
s3.values

pandas数据结构 DataFrame

DataFrame是由一组数据与一对索引(行索引和列索引)组成的表格型数据结构。

# 创建一个DataFrame,只传入一个单一列表时,该列表的值会显示成一列,且行和列都是从0开始的默认索引。
df1 = pd.DataFrame(["a", "b", "c", "d"])

导入外部数据

导入excel

导入csv

导入TXT

导入sql

mysql

postgresql

读取postgres

整理数据

数据填充

删除重复值

pandas数据类型

  • int:整数型

  • float

  • object: python对象类型,用O表示

  • string_ : 字符串类型,用S表示,S10表示长度为10的字段

  • unicode_ : 固定长度的Unicode类型,跟字符串定义方式一样

  • datetime64[ns]: 时间格式

数据类型

添加索引

数据选择(重要部分)

几种数据选择方法:

loc:通过选取行(列)标签索引数据 iloc:通过选取行(列)位置编号索引数据 ix:既可以通过行(列)标签索引数据,也可以通过行(列)位置编号索引数据

数值替换

排序

Last updated

Was this helpful?