Ignorando linhas durante a importação de CSV com Pandas
Ao importar dados CSV usando Pandas, muitas vezes é necessário pular linhas que você não deseja incluir em sua análise. No entanto, a ambigüidade em torno do argumento skiprows pode ser confusa.
A sintaxe para skiprows é a seguinte:
skiprows : list-like or integer Row numbers to skip (0-indexed) or number of rows to skip (int) at the start of the file.
Surge a pergunta: Como o Pandas sabe se deve pular a primeira linha ou a linha com índice 1 quando skiprows=1 é especificado?
Para desvendar isso, vamos realizar um experimento usando um arquivo CSV de amostra com três linhas:
1, 2 3, 4 5, 6
Pulando a linha com índice 1
Se você quiser pular a linha com índice 1, passe skiprows como uma lista:
import pandas as pd
from io import StringIO
s = """1, 2
... 3, 4
... 5, 6"""
df = pd.read_csv(StringIO(s), skiprows=[1], header=None) # Skip row with index 1
print(df)
Saída:
0 1 0 1 2 1 5 6
Pulando um número de linhas
Para pular um número específico de linhas (neste caso, 1), passe skiprows como um número inteiro:
df = pd.read_csv(StringIO(s), skiprows=1, header=None) # Skip the first row
print(df)
Saída:
0 1 0 3 4 1 5 6
Portanto, fica claro que o argumento skiprows se comporta de maneira diferente dependendo se você fornece uma lista ou um número inteiro. Se você quiser pular uma linha pelo seu índice, use uma lista. Caso contrário, use um número inteiro para pular um número especificado de linhas desde o início do arquivo.
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3