"Si un ouvrier veut bien faire son travail, il doit d'abord affûter ses outils." - Confucius, "Les Entretiens de Confucius. Lu Linggong"
Page de garde > La programmation > Supprimer rapidement les méthodes de ponctuation dans Pandas DataFrame

Supprimer rapidement les méthodes de ponctuation dans Pandas DataFrame

Publié le 2025-05-02
Parcourir:870

What is the Fastest Way to Remove Punctuation from a Pandas DataFrame?

La suppression rapide de ponctuation avec des pandas

La suppression de ponctuation est une tâche de nettoyage de texte courante. Bien que Pandas Str.replace soit une méthode largement utilisée, elle peut ne pas être suffisamment performante pour les grands ensembles de données.

Alternatives à str.replace:

  • regex.sub: utilise le module RE pour effectuer la substitution regex. Cette option offre des performances améliorées sur str.replace.
  • str.translate: utilise la fonction Str.translate en C, entraînant des améliorations de vitesse importantes. présente la meilleure performance, suivie de regex.sub puis str.replace.
L'écart de performance s'élargit avec des considérations de l'ensemble de données croissantes. DataFrame.

str.translate nécessite une manipulation spéciale lorsque les données contiennent des caractères qui peuvent être exclus par l'exclusion de ponctuation par défaut. Importer RE # Regex.sub df ['text'] = [re.Compile (r '[^ \ w \ s]') .sub ('', x) pour x dans df ['text']. Tolist ()] # Str.translate punct = '! "# $% & \' () *, -. / :; & lt; = & gt ;? @ [\\] ^ _` {|} ~ ' Transtab = str.maketrans (dict.fromkeys (punct, '')) df ['text'] = '|' .join (df ['text']. tolist ()). tradlate (transtab) .split ('|')

Dernier tutoriel Plus>

Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.

Copyright© 2022 湘ICP备2022001581号-3