„Wenn ein Arbeiter seine Arbeit gut machen will, muss er zuerst seine Werkzeuge schärfen.“ – Konfuzius, „Die Gespräche des Konfuzius. Lu Linggong“
Titelseite > Programmierung > Warum schlägt Go Regex \\b Boundary mit lateinischen Zeichen fehl?

Warum schlägt Go Regex \\b Boundary mit lateinischen Zeichen fehl?

Veröffentlicht am 08.11.2024
Durchsuche:948

 Why Does Go Regex \b Boundary Fail with Latin Characters?

\b Grenzen mit lateinischen Zeichen in Go Regex

In der Welt der regulären Go-Ausdrücke weist die Option \b border eine leichte Besonderheit auf beim Umgang mit lateinischen Schriftzeichen. Das Problem tritt auf, wenn versucht wird, Wörter zu definieren, die lateinische Zeichen enthalten, wie z. B. akzentuierte Vokale und Sonderzeichen.

Betrachten Sie das folgende Beispiel, in dem wir das Wort „vis“ mit der Grenzoption \b abgleichen möchten:

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}

Überraschenderweise tritt nicht das erwartete Ergebnis ein, wenn „révisé“ mit „false“ abgeglichen wird. Stattdessen stimmt es mit „true“ überein. Dies liegt daran, dass \b nur an ASCII-Wortgrenzen arbeitet.

Um dieses Problem zu lösen und lateinische Zeichen genau zuzuordnen, können wir die \b-Grenze durch eine umfassendere Alternative ersetzen. Hier ist ein Beispiel:

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
    fmt.Println(r.MatchString("vis"))
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}

Mit dieser Änderung erkennt der reguläre Ausdruck jetzt den Anfang und das Ende von Wörtern anhand einer Kombination aus Zeichenfolgenanfang (\A), Zeichenfolgenende (\z) und Leerzeichen (\s). Das Ergebnis entspricht genau „vis“ als wahr und „révisé“ als falsch:

true
true
false
false

Diese Technik gewährleistet eine genaue Wortübereinstimmung, unabhängig vom Vorhandensein lateinischer Zeichen.

Neuestes Tutorial Mehr>

Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.

Copyright© 2022 湘ICP备2022001581号-3