」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 如何在 groupby 作業期間維護 Pandas DataFrame 中的其他欄位?

如何在 groupby 作業期間維護 Pandas DataFrame 中的其他欄位?

發佈於2024-11-08
瀏覽:549

How can I maintain other columns in a Pandas DataFrame during a groupby operation?

在Groupby 操作期間維護其他列

對pandas 資料框執行groupby 操作時,通常需要保留不屬於的列參與分組或聚合過程。預設情況下,操作完成後將刪除這些其他欄位。如果保留的列包含有價值的信息,這可能會出現問題。

考慮以下資料框:

    item    diff   otherstuff
   0   1       2            1
   1   1       1            2
   2   1       3            7
   3   2      -1            0
   4   2       1            3
   5   2       4            9
   6   2      -6            2
   7   3       0            0
   8   3       2            9

如果我們按「item」列對資料框進行分組並找到「diff」列的最小值,則生成的資料框將如下所示:

    item   diff
   0   1      1           
   1   2     -6           
   2   3      0                 

請注意,「otherstuff」列已被刪除。要保留此列,我們可以使用idxmin() 方法來取得最小差異元素的索引,然後選擇這些:

>>> df.loc[df.groupby("item")["diff"].idxmin()]
   item  diff  otherstuff
1     1     1           2
6     2    -6           2
7     3     0           0

[3 rows x 3 columns]

另一種方法是按「diff」列對資料框進行排序,然後取每個項目組中的第一個元素:

>>> df.sort_values("diff").groupby("item", as_index=False).first()
   item  diff  otherstuff
0     1     1           2
1     2    -6           2
2     3     0           0

[3 rows x 3 columns]

這兩種方法都會產生所需的結果,同時保留「otherstuff」列。請記住,即使行內容相同,結果索引也可能不同。

最新教學 更多>

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3