pandas提供灵活高效的分组功能,使您能够以自然的方式对数据集进行切片、切片和汇总。基于一个或多个键(可以是函数、数组或数据帧列名)拆分panda对象。计算组摘要统计信息,例如计数、平均值、标准差或用户定义的函数。对数据帧的列应用各种函数。应用组内变换或其他操作,例如归一化、线性回归、排序或子集选择。计算数据透视表或交叉表。分位数分析和其他分组分析。r1。首先,让我们看一下以下非常简单的表格数据集(以数据帧的形式):
123456789101112
importpandaaspd>>>;df=pd.数据帧({“key1”:[“a”,“a”,“b”,“b”,“a”]。。。“键2”:[“1”,“2”,“1”,“2”,“1”]。。。“数据1”:np.random.随机(5),...“数据2”:np.random.随机(5)})>>dfdata1data2key1key20-0.4106730.519378aone1-2.1207930.199074atwo20.642216-0.143671bone30.975133-0.592994btwo4-1.017495-0.530459aonegrouped=df[“data1”]。groupby(df[“key1”]>>>分组
使用pandas进行数据统计分析时,可能不知道如何保存groupby函数的分组结果。我的解决方案是:通过resetindex()函数可以将groupby()的分组结果转换成dataframe对象,这样就可以保存了
代码示例:outxlsx=infname“-组.xlsx“数据框组=数据框groupby([“促销计划”、“促销组”]。描述()。重置索引()组.toexcel(outuxlsx,sheetuname=“sheet1”,index=false)
ipython和python并置。
也就是说:您当前在pythonshell中,退出。返回到cmd或terminal,然后是ipython--pylab