] संक्षिप्तीकरण और वाक्यों के भीतर अवधि के उपयोग जैसी सूक्ष्मताएं चुनौतियों का सामना कर सकती हैं। जबकि कई दृष्टिकोण मौजूद हैं, एक प्रभावी विधि में प्राकृतिक भाषा टूलकिट (nltk) का लाभ उठाना शामिल है। यहाँ एक कोड स्निपेट है जो इसके उपयोग को प्रदर्शित करता है:
आयात nltk.data
# अंग्रेजी वाक्य टोकनर को लोड करें
tokenizer = nltk.data.load ('tokenizers/punkt/English.pickle')
# इनपुट पाठ पढ़ें
fp = Open ("test.txt")
डेटा = fp.read ()
# पाठ को टोकन करें
वाक्य = tokenizer.tokenize (डेटा)
# जुड़ें और वाक्यों को प्रिंट करें
प्रिंट ('\ n ----- \ n'.join (वाक्य))
यह कोड NLTK से अंग्रेजी वाक्य टोकनर को लोड करता है। इनपुट टेक्स्ट को एक फ़ाइल से पढ़ा जाता है, और टोकनर को उस पर लागू किया जाता है। परिणामी वाक्यों को ट्रिपल हाइफ़न द्वारा अलग किया जाता है और कंसोल पर मुद्रित किया जाता है। जटिल या अस्पष्ट मामलों से निपटने के दौरान भी वाक्यों में।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3