गो रेगेक्स \\बी सीमा लैटिन वर्णों के साथ विफल क्यों होती है?

मुखपृष्ठ > प्रोग्रामिंग > गो रेगेक्स \\बी सीमा लैटिन वर्णों के साथ विफल क्यों होती है?

गो रेगेक्स \\बी सीमा लैटिन वर्णों के साथ विफल क्यों होती है?

2024-11-08 को प्रकाशित

ब्राउज़ करें:157

$Why Does Go Regex \b Boundary Fail with Latin Characters?$

\b गो रेगेक्स में लैटिन वर्णों वाली सीमाएं

गो रेगुलर एक्सप्रेशन की दुनिया में, \b सीमा विकल्प में थोड़ी विचित्रता है लैटिन अक्षरों के साथ व्यवहार करते समय। समस्या तब उत्पन्न होती है जब लैटिन वर्णों वाले शब्दों को परिभाषित करने का प्रयास किया जाता है, जैसे उच्चारण स्वर और विशेष वर्ण।

निम्न उदाहरण पर विचार करें, जहां हम \b सीमा विकल्प का उपयोग करके "विज़" शब्द का मिलान करना चाहते हैं:

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}

आश्चर्यजनक रूप से, "रेविज़" को गलत के रूप में मिलान करने का अपेक्षित परिणाम नहीं होता है। इसके बजाय, यह सच से मेल खाता है। ऐसा इसलिए है क्योंकि \b केवल ASCII शब्द सीमाओं पर काम करता है।

इस समस्या को हल करने और लैटिन वर्णों का सटीक मिलान करने के लिए, हम \b सीमा को अधिक समावेशी विकल्प के साथ बदल सकते हैं। यहां एक उदाहरण है:

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
    fmt.Println(r.MatchString("vis"))
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}

इस संशोधन के साथ, रेगेक्स अब स्ट्रिंग की शुरुआत (\A), स्ट्रिंग के अंत (\z), और व्हाइटस्पेस (\s) के संयोजन का उपयोग करके शब्दों की शुरुआत और अंत को पहचानता है। परिणाम सटीक रूप से "विज़" को सत्य और "रिविज़" को गलत के रूप में मेल खाता है:

true
true
false
false

यह तकनीक लैटिन वर्णों की उपस्थिति की परवाह किए बिना, सटीक शब्द मिलान सुनिश्चित करती है।

नवीनतम ट्यूटोरियल अधिक>

क्या मैं McRypt से OpenSSL में अपने एन्क्रिप्शन को माइग्रेट कर सकता हूं, और OpenSSL का उपयोग करके McRypt-encrypted डेटा को डिक्रिप्ट कर सकता हूं?
] OpenSSL में, क्या McRypt के साथ एन्क्रिप्ट किए गए डेटा को डिक्रिप्ट करना संभव है? दो अलग -अलग पोस्ट परस्पर विरोधी जानकारी प्रदान करते हैं। यदि ऐसा ह...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
C ++ सदस्य फ़ंक्शन पॉइंटर्स के सही पासिंग के लिए विधि
] एक निश्चित हस्ताक्षर के साथ एक फ़ंक्शन सूचक की आवश्यकता है। एक सदस्य फ़ंक्शन को पास करने के लिए, आपको ऑब्जेक्ट पॉइंटर (यह) और सदस्य फ़ंक्शन पॉइंटर द...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
एक पांडस डेटाफ्रेम कॉलम को डेटटाइम प्रारूप में कैसे परिवर्तित करें और तिथि तक फ़िल्टर करें?
] अस्थायी डेटा के साथ काम करते समय, टाइमस्टैम्प शुरू में तार के रूप में दिखाई दे सकते हैं, लेकिन सटीक विश्लेषण के लिए एक डेटाइम प्रारूप में परिवर्तित ...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
मैं PHP के फाइलसिस्टम फ़ंक्शंस में UTF-8 फ़ाइल नाम कैसे संभाल सकता हूं?
असंगतता। mkdir ($ dir_name); मूल UTF-8 फ़ाइल नाम को पुनः प्राप्त करने के लिए, urldecode का उपयोग करें। केवल) विंडोज पर, आप UTF-8 फ़ाइल नाम ...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
संस्करण 5.6.5 से पहले MySQL में टाइमस्टैम्प कॉलम के साथ current_timestamp का उपयोग करने पर क्या प्रतिबंध थे?
] Current_timestamp क्लॉज। यह सीमा INT, BigInt, और SmallInt पूर्णांक को वापस बढ़ाती है जब उन्हें शुरू में 2008 में पेश किया गया था। यह सीमा विरासत क...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
क्यों HTML पेज नंबर और समाधान प्रिंट नहीं कर सकता
] उपयोग: @पृष्ठ { मार्जिन: 10%; @टॉप-सेंटर { फ़ॉन्ट-फैमिली: सैंस-सेरिफ़; फ़ॉन्ट-वेट: बोल्ड; फ़ॉन्ट-आकार: 2EM; सामग्री: काउंटर (प...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
अनियंत्रित संग्रह में ट्यूपल्स के लिए एक जेनेरिक हैश फ़ंक्शन को कैसे लागू करें?
] हालांकि, कस्टम हैश फ़ंक्शन को परिभाषित किए बिना इन संग्रहों में कुंजी के रूप में टुपल्स का उपयोग करने से अप्रत्याशित व्यवहार हो सकता है। इसे ठीक क...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
कैसे एक जावास्क्रिप्ट ऑब्जेक्ट की कुंजी को वर्णानुक्रम में सॉर्ट करने के लिए?
] यह निम्नलिखित चरणों का उपयोग करके प्राप्त किया जा सकता है: object की कुंजियों को एक सरणी में const unordered = { 'b': 'foo', 'c': 'bar', ...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
PHP में टाइमज़ोन को कुशलता से कैसे परिवर्तित करें?
] यह गाइड अलग-अलग टाइमज़ोन के बीच दिनांक और समय को परिवर्तित करने के लिए एक आसान-से-प्रभाव विधि प्रदान करेगा। उदाहरण के लिए: // उपयोगकर्ता के Timezo...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
क्या आप Chrome और फ़ायरफ़ॉक्स में CSS को कंसोल आउटपुट का उपयोग कर सकते हैं?
] संदेश? इसे प्राप्त करने के लिए, निम्नलिखित पैटर्न का उपयोग करें: कंसोल.लॉग (' %C ओह माय हैवेन्स!', 'बैकग्राउंड: #222; रंग: #bada55'...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
$पॉइंट-इन-पॉलीगॉन डिटेक्शन के लिए कौन सी विधि अधिक कुशल है: रे ट्रेसिंग या मैटप्लोटलिब \ का पाथ .contains_points?$
पॉइंट-इन-पॉलीगॉन डिटेक्शन के लिए कौन सी विधि अधिक कुशल है: रे ट्रेसिंग या मैटप्लोटलिब \ का पाथ .contains_points?
बड़ी संख्या में बिंदुओं का मूल्यांकन करते समय इस कार्य के लिए एक कुशल विधि खोजना फायदेमंद है। यहाँ, हम दो सामान्य रूप से उपयोग किए जाने वाले तरीकों क...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
उपयोगकर्ता स्थानीय समय प्रारूप और समय क्षेत्र ऑफसेट प्रदर्शन गाइड
] यह विभिन्न भौगोलिक स्थानों पर स्पष्टता और सहज उपयोगकर्ता अनुभव सुनिश्चित करता है। यहाँ जावास्क्रिप्ट का उपयोग करके इसे कैसे प्राप्त किया जाए। यह सर्...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
मैं PHP में यूनिकोड स्ट्रिंग्स से URL के अनुकूल स्लग कैसे कुशलता से उत्पन्न कर सकता हूं?
] यह लेख स्लगों को कुशलता से उत्पन्न करने के लिए एक संक्षिप्त समाधान प्रस्तुत करता है, विशेष वर्णों और गैर-एएससीआईआई वर्णों को URL- अनुकूल स्वरूपों मे...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
Fastapi कस्टम 404 पृष्ठ निर्माण गाइड
] उपयुक्त विधि आपकी विशिष्ट आवश्यकताओं पर निर्भर करती है। call_next (अनुरोध) यदि response.status_code == 404: REDIRECTRESPONSE ("https://fast...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया
पीडीओ मापदंडों के साथ क्वेरी की तरह सही तरीके से उपयोग कैसे करें?
$ params = सरणी ($ var1, $ var2); $ stmt = $ हैंडल-> तैयार करें ($ क्वेरी); $ stmt-> निष्पादित ($ params); त्रुटि % संकेतों के गलत समावेश में निहित ह...

प्रोग्रामिंग 2025-05-29 पर पोस्ट किया गया