Como lidar efetivamente com grandes arquivos CSV no Python 2.7?

Primeira página > Programação > Como lidar efetivamente com grandes arquivos CSV no Python 2.7?

Como lidar efetivamente com grandes arquivos CSV no Python 2.7?

Postado em 2025-03-05

Navegar:787

How to Effectively Handle Large CSV Files in Python 2.7?

lendo arquivos grandes .csv em python

Problem: lendo massive .csv arquivos (até 1 milhão de linhas, 200 colunas) no python 2.7 Encontrons em memória. No entanto, esse método se torna impraticável para arquivos grandes, pois consome memória excessiva. Processar linhas conforme elas são produzidas:

Evite carregar o arquivo inteiro na memória. Em vez disso, processe as linhas como são geradas usando uma função do gerador. Com o Open (nome do arquivo, "RB") como CSVFile: DataReader = CSV.Reader (CSVFile) render a seguir (DataReader) # Reduzir a linha do cabeçalho para linha em DataReader: Se linha [3] == Critério: rendimento linha

2. Use as funções geradoras para filtragem:

filtrar dados enquanto itera o arquivo usando as funções do gerador. Essa abordagem permite a correspondência de várias linhas consecutivas que atendem a um critério específico. Com o Open (nome do arquivo, "RB") como CSVFile: DataReader = CSV.Reader (CSVFile) render a seguir (DataReader) # Reduzir a linha do cabeçalho rendimento de Takewhile ( lambda r: r [3] == critério, Dropwhile (Lambda R: R [3]! = Critério, DataReader))) return

3. Otimize o consumo de memória:

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        for row in datareader:
            if row[3] == criterion:
                yield row

refactor getData () para usar uma função do gerador também, garantindo que apenas uma linha seja mantida na memória a qualquer momento.

DEF getData (nome do arquivo, critério): Para critério em critérios: para linha em getstuff (nome do arquivo, critério): Crie linhas

Dicas adicionais para Speed:

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        for row in datareader:
            if row[3] == criterion:
                yield row

use csv.Reader com um parâmetro de tamanho de chunk: Leia os arquivos em pedaços menores para reduzir o pé de memória. em um banco de dados para processamento mais rápido e mais eficiente.

Tutorial mais recente Mais>

O erro do compilador "usr/bin/ld: não pode encontrar -l" solução
Erro encontrado: "usr/bin/ld: não é possível encontrar -l " ao tentar compilar um programa, você pode encontrar a seguinte mensagem ...

Programação Postado em 2025-05-15
Como lidar com a memória fatiada na coleção de lixo de idiomas Go?
coleta de lixo em go slies: uma análise detalhada em go, uma fatia é uma matriz dinâmica que faz referência a uma matriz subjacente. Ao trabal...

Programação Postado em 2025-05-15
Por que há listras no meu fundo linear de gradiente e como posso consertá -las?
banindo as faixas de fundo do gradiente linear Ao empregar a propriedade linear de gradiente para um plano de fundo, você pode encontrar listr...

Programação Postado em 2025-05-15
Como resolver discrepâncias do caminho do módulo no Go Mod usando a diretiva substituição?
superando a discrepância do caminho do módulo em Go Mod Ao utilizar Go Mod, é possível encontrar um conflito em que um pacote de terceiros imp...

Programação Postado em 2025-05-15
Existe uma diferença de desempenho entre usar um loop for-Each e um iterador para travessia de coleção em Java?
para cada loop vs. iterator: eficiência na coleção Traversal Introduction quando travessing uma coleção em java, the ARIDES quando trave...

Programação Postado em 2025-05-15
Como faço para selecionar com eficiência colunas nos quadros de dados do pandas?
Selecionando colunas em pandas DataFrames Ao lidar com tarefas de manipulação de dados, a seleção de colunas específicas se torna necessária. ...

Programação Postado em 2025-05-15
Como implementar uma função de hash genérico para tuplas em coleções não ordenadas?
função de hash genérico para tuplas em coleções não ordenadas o std :: não -ordered_map e std :: uncomered_set contêineres fornecem pesquisa e...

Programação Postado em 2025-05-15
Por que Java não pode criar matrizes genéricas?
ERRO DE CRIAÇÃO DE MATOR DE ARRAY GENERÍCOLA Pergunta: quando se atende a criar um array de uma matriz genérica usando uma expressão como:...

Programação Postado em 2025-05-15
Como combinar dados de três tabelas MySQL em uma nova tabela?
mysql: Criando uma nova tabela a partir de dados e colunas de três tabelas pergunta: como eu posso criar uma tabela que a tabela se selecio...

Programação Postado em 2025-05-15
Como converter uma coluna Pandas Dataframe em formato e filtrar por data de tempo por data?
transformar a coluna Pandas Dataframe em DateTime Format cenário: Dados em um dataframe de pandas frequentemente existe em vários formatos, ...

Programação Postado em 2025-05-15
Como você pode usar o Grupo By to Pivot Data in MySQL?
girando resultados de consulta usando o grupo mysql por em um banco de dados relacional, girando dados se referindo ao rearranjo de linhas e c...

Programação Postado em 2025-05-15
Encontre o método do elemento de script que atualmente executa o JavaScript
como fazer referência ao elemento de script que carregava o script atualmente executando compreendendo o problema em certos cenários, os desen...

Programação Postado em 2025-05-15
`Console.log` mostra o motivo da exceção do valor do objeto modificado
Objetos e console.log: uma estranheza desvendada Ao trabalhar com objetos e console.log, você pode encontrar comportamento peculiar. Vamos des...

Programação Postado em 2025-05-15
CSS fortemente a análise de linguagem digitada
Uma das maneiras pelas quais você pode classificar uma linguagem de programação é o quão fortemente ou fracamente é digitado. Aqui, “digitado” signif...

Programação Postado em 2025-05-15
Como analisar números na notação exponencial usando decimal.parse ()?
analisando um número da notação exponencial ao tentar analisar uma string expressa em anotação exponencial usando Decimal.parse ("1.2345e...

Programação Postado em 2025-05-15

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo