„Wenn ein Arbeiter seine Arbeit gut machen will, muss er zuerst seine Werkzeuge schärfen.“ – Konfuzius, „Die Gespräche des Konfuzius. Lu Linggong“
Titelseite > Programmierung > Entfernen Sie die Interpunktionsmethoden schnell in Pandas DataFrame

Entfernen Sie die Interpunktionsmethoden schnell in Pandas DataFrame

Gepostet am 2025-05-02
Durchsuche:511

What is the Fastest Way to Remove Punctuation from a Pandas DataFrame?

schnelle Interpunktionsentfernung mit Pandas

Interpunktionsentfernung ist eine gemeinsame Textreinigungsaufgabe. Während Pandas Str.Replace eine weit verbreitete Methode ist, ist sie möglicherweise nicht ausreichend für große Datensätze. Diese Option bietet eine verbesserte Leistung gegenüber Str.Replace.

str.translate: verwendet die c-implementierte Str.Translate-Funktion, die zu signifikanten Geschwindigkeitsverbesserungen führt. zeigt die beste Aufführung, gefolgt von regex.sub und dann str.replace.

    Die Leistungslücke erweitert sich mit zunehmender Datensatzgröße. DataFrame.
  • str.translate erfordert eine spezielle Handhabung, wenn die Daten Zeichen enthalten, die durch den Standard -Interpunktionsausschluss ausgeschlossen werden können. Import Re # Regex.sub df ['text'] = [re.comPile (r '[^\ w \ s]') .sub ('', x) für x in df ['text']. Tolist ()]] # Str.Translate punct = '! "#$%& \' ()*,-./:; & lt; = & gt;?@[\\]^_` {|} ~ ' transtab = str.maketrans (dict.fromkeys (punkt, '')) df ['text'] = '|' .join (df ['text']. tolist ()). Übersetzer (tranStab) .split ('|')
Neuestes Tutorial Mehr>

Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.

Copyright© 2022 湘ICP备2022001581号-3