"Si un trabajador quiere hacer bien su trabajo, primero debe afilar sus herramientas." - Confucio, "Las Analectas de Confucio. Lu Linggong"
Página delantera > Programación > Eliminar rápidamente los métodos de puntuación en Pandas DataFrame

Eliminar rápidamente los métodos de puntuación en Pandas DataFrame

Publicado el 2025-05-02
Navegar:424

What is the Fastest Way to Remove Punctuation from a Pandas DataFrame?

eliminación de puntuación rápida con pandas

La eliminación de puntuación es una tarea de limpieza de texto común. Si bien Pandas str.replace es un método ampliamente utilizado, puede no ser suficiente para grandes conjuntos de datos.

a str.replace:

  • ]s.sub:
  • str.translate:
  • utiliza la función c-implemented str.translate, resultando en mejoras de velocidad significativas. exhibe el mejor rendimiento, seguido de regex.sub y luego str.replace. la brecha en el rendimiento se amplía con el tamaño de datos de datos aumentando.

consideraciones:

regex.sub y str.translate no puede manejar valores de nan DataFrame.
  • str.translate requiere un manejo especial cuando los datos contienen caracteres que pueden ser excluidos por la exclusión de puntuación predeterminada.
código:

import pandas como pd importar # Regex.sub df ['text'] = [recompile (r '[^\ w \ s]') .sub ('', x) para x en df ['text']. tolist ()] # str.translate punc = '! "#$%& \' ()*,-./:; & lt; = & gt ;?@[\\]^_` {|} ~ ' transtab = str.maketrans (dict.fromkeys (punt, '')) df ['text'] = '|' .Join (df ['text']. tolist ()). traduce (transtab) .split ('|')

Último tutorial Más>

Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.

Copyright© 2022 湘ICP备2022001581号-3