pandas库的优点:
pandas内置了三个数据结构,一维的Series,二维的DataFrame,三维的Panel。你可以把DataFrame看做容器,容器元素是Series,同样,你可以把Panel看做容器,容器元素是DataFrame。
我们可以对容器进行插入、删除操作,操作方式和python中的字典很相似。
最常用的数据结构是DataFrame,你完全可以把它看做一个数据库表,DataFrame的index就是每一行的id,column就是数据库表的列名。这样理解的好处是可以避免用用axis=0,axis=1来操作数据,更加直观。
In [ ]:
for col in df.columns:
series = df[col]
# do something with series
Python的数据类型可以分为可变类型和不可变类型。比如,string、tuple就是不可变类型,list、dictionary是可变类型。
所有的pandas数据结构都是值可变的,你可以修改他们的值,但不是所有的数据结构都是大小可变的。
Series的长度就不可变,一旦创建,长度就不能修改。
和Series不同,DataFrame可以增加、删除列。
pandas中的大多数方法不会直接在传入的参数上进行操作,而是返回一个新的结果对象。
In [ ]:
In [ ]:
In [ ]: