La suppression rapide de ponctuation avec des pandas
La suppression de ponctuation est une tâche de nettoyage de texte courante. Bien que Pandas Str.replace soit une méthode largement utilisée, elle peut ne pas être suffisamment performante pour les grands ensembles de données.
Alternatives à str.replace:
str.translate nécessite une manipulation spéciale lorsque les données contiennent des caractères qui peuvent être exclus par l'exclusion de ponctuation par défaut. Importer RE # Regex.sub df ['text'] = [re.Compile (r '[^ \ w \ s]') .sub ('', x) pour x dans df ['text']. Tolist ()] # Str.translate punct = '! "# $% & \' () *, -. / :; & lt; = & gt ;? @ [\\] ^ _` {|} ~ ' Transtab = str.maketrans (dict.fromkeys (punct, '')) df ['text'] = '|' .join (df ['text']. tolist ()). tradlate (transtab) .split ('|')
Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.
Copyright© 2022 湘ICP备2022001581号-3