如何在 Pandas 中高效处理大型数据帧：将其分块！

首页 > 编程 > 如何在 Pandas 中高效处理大型数据帧：将其分块！

如何在 Pandas 中高效处理大型数据帧：将其分块！

发布于2024-11-08

How to Efficiently Process Large DataFrames in Pandas: Chunk It Up!

Pandas - 将大型数据帧切成块

当尝试处理超大数据帧时，常见的障碍是可怕的内存错误。一种有效的解决方案是将数据帧划分为更小的、可管理的块。这种策略不仅减少了内存消耗，而且有利于高效处理。

要实现这一点，我们可以利用列表理解或 NumPy array_split 函数。

列表理解

n = 200000  # Chunk row size
list_df = [df[i:i n] for i in range(0, df.shape[0], n)]

NumPy array_split

list_df = np.array_split(df, math.ceil(len(df) / n))

然后可以检索各个块使用：

list_df[0]
list_df[1]
...

要将块重新组装成单个数据帧，请使用 pd.concat:

# Example: Concatenating by chunks
rejoined_df = pd.concat(list_df)

按 AcctName 切片

要按 AcctName 值分割数据帧，请使用 groupby 方法：

list_df = []

for n, g in df.groupby('AcctName'):
    list_df.append(g)

最新教程更多>

PHP未来：适应与创新
PHP的未来将通过适应新技术趋势和引入创新特性来实现：1)适应云计算、容器化和微服务架构，支持Docker和Kubernetes；2)引入JIT编译器和枚举类型，提升性能和数据处理效率；3)持续优化性能和推广最佳实践。引言在编程世界中，PHP一直是网页开发的中流砥柱。作为一个从1994年就开始发展...

编程发布于2025-07-19
CSS可以根据任何属性值来定位HTML元素吗？
靶向html元素，在CSS 中使用任何属性值，在CSS中，可以基于特定属性（如下所示）基于特定属性的基于特定属性的emants目标元素：字体家庭：康斯拉斯（Consolas）； } 但是，出现一个常见的问题：元素可以根据任何属性值而定位吗？本文探讨了此主题。的目标元素有任何任何属性值，属...

编程发布于2025-07-19
Java数组中元素位置查找技巧
在Java数组中检索元素的位置利用Java的反射API将数组转换为列表中，允许您使用indexof方法。（primitives）（链接到Mishax的解决方案）用于排序阵列的数组此方法此方法返回元素的索引，如果发现了元素的索引，或一个负值，指示应放置元素的插入点。

编程发布于2025-07-19
Java中Lambda表达式为何需要“final”或“有效final”变量？
Lambda Expressions Require "Final" or "Effectively Final" VariablesThe error message "Variable used in lambda expression shou...

编程发布于2025-07-19
表单刷新后如何防止重复提交？
在Web开发中预防重复提交在表格提交后刷新页面时，遇到重复提交的问题是常见的。要解决这个问题，请考虑以下方法：想象一下具有这样的代码段，看起来像这样的代码段：））{ //数据库操作... 回声“操作完成”；死（）; } ？> ...

编程发布于2025-07-19
为什么不````''{margin：0; }`始终删除CSS中的最高边距？
在CSS 问题：不正确的代码：全球范围将所有余量重置为零，如提供的代码所建议的，可能会导致意外的副作用。解决特定的保证金问题是更建议的。例如，在提供的示例中，将以下代码添加到CSS中，将解决余量问题： body H1 { 保证金顶：-40px; } 此方法更精确，避免了由全局保证金重置引...

编程发布于2025-07-19
$\“（1）vs.（;;）：编译器优化是否消除了性能差异？\”$
\“（1）vs.（;;）：编译器优化是否消除了性能差异？\”
答案：在大多数现代编译器中，while（1）和（1）和（;;）之间没有性能差异。编译器： perl： 1 输入 - > 2 2 NextState（Main 2 -E：1）V-> 3 9 Leaveloop VK/2-> A 3 toterloop（next-> 8 last-> 9 ...

编程发布于2025-07-19
在GO中构造SQL查询时，如何安全地加入文本和值？
在go中构造文本sql查询时，在go sql queries 中，在使用conting and contement和contement consem per时，尤其是在使用integer per当per当per时，per per per当per. 在GO中实现这一目标的惯用方法是使用fmt.spr...

编程发布于2025-07-19
在Python中如何创建动态变量？
在Python 中，动态创建变量的功能可以是一种强大的工具，尤其是在使用复杂的数据结构或算法时，Dynamic Variable Creation的动态变量创建。 Python提供了几种创造性的方法来实现这一目标。利用dictionaries 一种有效的方法是利用字典。字典允许您动态创建密钥并分...

编程发布于2025-07-19
使用jQuery如何有效修改":after"伪元素的CSS属性？
在jquery中了解伪元素的限制：访问“ selector 尝试修改“：”选择器的CSS属性时，您可能会遇到困难。 This is because pseudo-elements are not part of the DOM (Document Object Model) and are th...

编程发布于2025-07-19
C++20 Consteval函数中模板参数能否依赖于函数参数？
[ consteval函数和模板参数依赖于函数参数在C 17中，模板参数不能依赖一个函数参数，因为编译器仍然需要对非contexexpr futcoriations contim at contexpr function进行评估。 compile time。 C 20引入恒定函数，必须在编译时进行...

编程发布于2025-07-19
如何将PANDAS DataFrame列转换为DateTime格式并按日期过滤？
Transform Pandas DataFrame Column to DateTime FormatScenario:Data within a Pandas DataFrame often exists in various formats, including strings.使用时间数据时...

编程发布于2025-07-19
如何使用Python有效地以相反顺序读取大型文件？
在python 反向行读取器生成器 == ord（'\ n'）：缓冲区=缓冲区[：-1] 剩余_size- = buf_size lines = buffer.split（'\ n'....

编程发布于2025-07-19
Java字符串非空且非null的有效检查方法
检查字符串是否不是null而不是空的 if（str！= null && str.isementy（））二手： if（str！= null && str.length（）== 0） option 3：trim（）。isement（Isement（） trim whitespace whitesp...

编程发布于2025-07-19
Android如何向PHP服务器发送POST数据？
在android apache httpclient（已弃用） httpclient httpclient = new defaulthttpclient（）; httppost httppost = new httppost（“ http://www.yoursite.com/script.p...

编程发布于2025-07-19