import nltk.data
# 영어 문장 토큰 화기를로드하십시오
Tokenizer = nltk.data.load ( 'Tokenizers/Punkt/English.pickle')
# 입력 텍스트를 읽습니다
fp = Open ( "test.txt")
data = fp.read ()
# 텍스트를 토큰 화하십시오
문장 = tokenizer.tokenize (데이터)
# 문장에 가입하여 인쇄하십시오
print ( '\ n ----- \ n'.join (sentences))
이 코드는 nltk에서 영어 문장 토큰 화기를로드합니다. 입력 텍스트는 파일에서 읽히고 토 케이저가 적용됩니다. 결과 문장은 트리플 하이픈으로 분리되어 콘솔에 인쇄됩니다.
NLTK의 문장 토큰 화기는 텍스트의 큰 코퍼스에 대해 훈련을 받았으며 정교한 알고리즘을 레버리로 고정시켜 다양한 문장 시나리오를 처리하여 문장 내에서 기간을 포함하여 다양한 문장 시나리오를 처리합니다.. 토큰 화는 복잡하거나 모호한 사례를 다룰 때에도 텍스트를 문장으로 효과적으로 분할 할 수 있습니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3