Python数据科学速查表 - Pandas 基础.pdf-道客多多

资源描述

1、DataCampLearn Python for Data Science InteractivelySeries-序列4 7-53dcba存储任意类型数据的一维数组 Index索引DataFrame-数据框存储不同类型数据的二维数组 import pandas as pd使用以下语句导入 Pandas 库：Pandas s=pd.Series(3,-5,7,4,index=a,b,c,d)data=Country:Belgium,India,Brazil,Capital:Brussels,New Delhi,Braslia,Population:11190846,1303171035,207

2、847528 df=pd.DataFrame(data,columns=Country,Capital,Population)选择 sb 取序列的值-5 df1:取数据框的子集 Country Capital Population 1 India New Delhi 1303171035 2 Brazil Braslia 207847528按位置按行与列的位置选择某值 df.iloc0,0Belgium df.iat(0,0)Belgium df.loc0,Country Belgium 按行与列的名称选择某值 df.at(0,Country)Belgium df.ix2 Country Br

3、azil Capital Braslia Population 207847528 df.ix:,Capital 0 Brussels 1 New Delhi 2 Braslia df.ix1,Capital New Delhi s(s 1)s(s 2)dfdfPopulation1200000000 设置值 sa=6 应用函数 f=lambda x:x*2 df.apply(f)df.applymap(f)查询序列与数据框的信息 df.shape df.index df.columns df.info()df.count()（行,列)）获取索引获取列名获取数据框基本信息非Na值的数量取值参阅

4、 NumPy Arrays选取、布尔索引及设置值基本信息汇总 df.sum()df.cumsum()df.min()/df.max()df.idxmin()/df.idxmax()df.describe()df.mean()df.median()删除数据 s.drop(a,c)df.drop(Country,axis=1)按索引删除序列的值(axis=0)按列名删除数据框的列(axis=1)数据对齐 s.add(s3,fill_value=0)a 10.0 b-5.0 c 5.0 d 7.0 s.sub(s3,fill_value=2)s.div(s3,fill_value=4)s.mul(s

5、3,fill_value=3)s3=pd.Series(7,-2,3,index=a,c,d)s+s3 a 10.0 b NaN c 5.0 d 7.0排序和排名 df.sort_index()df.sort_values(by=Country)df.rank()按索引排序按某列的值排序数据框排名Belgium BrusselsIndia New DelhiBrazil Braslia012Country Capital111908461303171035207847528Population输入/输出读取/写入CSV pd.read_csv(file.csv,header=None,nrow

6、s=5)df.to_csv(myDataFrame.csv)读取/写入Excel pd.read_excel(file.xlsx)pd.to_excel(dir/myDataFrame.xlsx,sheet_name=Sheet1)读取内含多个表的Excel xlsx=pd.ExcelFile(file.xls)df=pd.read_excel(xlsx,Sheet1)help(pd.Series.loc)读取和写入 SQL 查询及数据库表 from sqlalchemy import create_engine engine=create_engine(sqlite:/:memory:)pd

7、.read_sql(SELECT*FROM my_table;,engine)pd.read_sql_table(my_table,engine)pd.read_sql_query(SELECT*FROM my_table;,engine)pd.to_sql(myDf,engine)read_sql()是 read_sql_table()与 read_sql_query()的便捷打包器Python 数据科学速查表Pandas 基础天善智能商业智能与大数据社区 Pandas 是基于 Numpy 创建的 Python 库，为 Python 提供了易于使用的数据结构和数据分析工具。调用帮助按标签/位置布尔索引选择某列选择某行序列 S 中没有大于1的值序列 S 中小于-1或大于2的值使用筛选器调整数据框将序列 S 中索引为 a 的值设为6原文作者列应用匿名函数lambda应用函数对每个单元格应用函数使用 Fill 方法运算合计累计最小值除以最大值索引最小值除以索引最大值基础统计数据平均值中位数内部数据对齐呆鸟译按标签Pandas 数据结构还可以使用 Fill 方法进行内部对齐运算：如有不一致的索引，则使用NA值：

展开阅读全文