Python의 문자열에서 인쇄할 수 없는 문자 제거
Perl과 달리 Python에는 POSIX 정규식 클래스가 없기 때문에 감지하기가 어렵습니다. 정규식을 사용하여 인쇄할 수 없는 문자를 제거합니다.
그렇다면 Python에서 이를 어떻게 달성할 수 있습니까?
한 가지 접근 방식 unicodedata 모듈을 활용하는 것입니다. unicodedata.category 함수는 유니코드 문자를 다양한 범주로 분류합니다. 예를 들어 Cc(컨트롤)로 분류된 문자는 인쇄할 수 없는 문자를 나타냅니다.
이 지식을 사용하여 모든 제어 문자와 일치하는 사용자 정의 문자 클래스를 구성할 수 있습니다.
import unicodedata
import re
import sys
all_chars = (chr(i) for i in range(sys.maxunicode))
categories = {'Cc'}
control_chars = ''.join(c for c in all_chars if unicodedata.category(c) in categories)
control_char_re = re.compile('[%s]' % re.escape(control_chars))
def remove_control_chars(s):
return control_char_re.sub('', s)
이 함수는 입력 문자열에서 인쇄할 수 없는 모든 ASCII 문자를 효과적으로 제거합니다.
또는 Python의 내장 string.printable 메서드를 사용할 수 있습니다. 인쇄할 수 없는 문자를 필터링합니다. 그러나 이 방법은 유니코드 문자를 제외하므로 모든 사용 사례에 적합하지 않을 수 있습니다.
유니코드 문자를 처리하려면 다음과 같이 정규식에서 문자 클래스를 확장할 수 있습니다.
control_chars = ''.join(map(chr, itertools.chain(range(0x00,0x20), range(0x7f,0xa0))))
이 확장 문자 클래스는 인쇄할 수 없는 일반적인 유니코드 문자와 함께 기본 제어 문자를 포함합니다.
remove_control_chars 함수를 적절하게 수정하면 성공적으로 처리할 수 있습니다. ASCII 및 유니코드 모두 인쇄할 수 없는 문자입니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3