eliminación de puntuación rápida con pandas
La eliminación de puntuación es una tarea de limpieza de texto común. Si bien Pandas str.replace es un método ampliamente utilizado, puede no ser suficiente para grandes conjuntos de datos.
a str.replace:
consideraciones:
regex.sub y str.translate no puede manejar valores de nan DataFrame.import pandas como pd importar # Regex.sub df ['text'] = [recompile (r '[^\ w \ s]') .sub ('', x) para x en df ['text']. tolist ()] # str.translate punc = '! "#$%& \' ()*,-./:; & lt; = & gt ;?@[\\]^_` {|} ~ ' transtab = str.maketrans (dict.fromkeys (punt, '')) df ['text'] = '|' .Join (df ['text']. tolist ()). traduce (transtab) .split ('|')
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3