重塑表格数据是数据分析中的一项基本任务。数据透视是一种在数据框中调换行和列的技术,对于创建数据透视表和从不同角度探索数据通常很有用。让我们探讨如何在强大的数据操作库 Pandas 中执行此操作。
要旋转数据框,主要使用 .pivot 方法。此方法需要几个参数:
例如,考虑以下数据框:
Indicator Country Year Value 1 Angola 2005 6 2 Angola 2005 13 3 Angola 2005 10 4 Angola 2005 11 5 Angola 2005 5 1 Angola 2006 3 2 Angola 2006 2 3 Angola 2006 7 4 Angola 2006 3 5 Angola 2006 6
要旋转此数据框以使 Indicator 列中的值成为新列,请使用以下代码:
out = df.pivot(index=['Country', 'Year'], columns='Indicator', values='Value') print(out)
此操作将生成以下旋转数据框:
Indicator 1 2 3 4 5 Country Year Angola 2005 6 13 10 11 5 2006 3 2 7 3 6
要将透视数据框转换回平面表格,请使用 .rename_axis 删除指标轴,使用 .reset_index 将国家/地区和年份转换回普通列。
print(out.rename_axis(columns=None).reset_index())
这将产生原始数据帧结构:
Country Year 1 2 3 4 5 0 Angola 2005 6 13 10 11 5 1 Angola 2006 3 2 7 3 6
如果您的数据包含重复的标签组合(例如,国家/地区、年份、指标),请使用 .pivot_table。该方法默认取平均值。
out = df.pivot_table( index=['Country', 'Year'], columns='Indicator', values='Value') print(out.rename_axis(columns=None).reset_index())
这将输出类似的旋转数据框,但具有重复组合的平均值。
有关更详细的概述,请参阅有关重塑和数据透视表的 Pandas 用户指南。
免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。
Copyright© 2022 湘ICP备2022001581号-3