"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > 공백과 마침표를 유지하면서 비ASCII 문자를 선택적으로 제거하는 방법은 무엇입니까?

공백과 마침표를 유지하면서 비ASCII 문자를 선택적으로 제거하는 방법은 무엇입니까?

2024-11-01에 게시됨
검색:547

How to Selectively Remove Non-ASCII Characters Preserving Spaces and Periods?

비ASCII 문자의 선택적 제거

텍스트 데이터 작업 시 특정 기호를 유지하면서 비ASCII 문자를 제거해야 하는 경우가 많습니다. 공백이나 마침표 같은 거죠. 기본 필터링 방법을 사용하면 ASCII가 아닌 문자를 모두 제거할 수 있지만 경우에 따라 이는 바람직하지 않을 수 있습니다.

다음 코드를 고려해 보겠습니다.

def onlyascii(char):
    if ord(char)  127: return ''
    else: return char

이 코드는 ASCII 값이 48보다 작거나 127보다 큰 모든 문자를 제거하여 ASCII가 아닌 문자의 텍스트를 효과적으로 제거합니다. 그러나 공백(ASCII 32)과 마침표(ASCII 46)도 제거합니다.

공백과 마침표를 유지하면서 ASCII가 아닌 문자를 선택적으로 제거하려면 Python의 string.printable 모듈을 활용할 수 있습니다:

import string
printable = set(string.printable)
filtered_data = filter(lambda x: x in printable, data)

string.printable 세트에는 숫자, 문자, 기호, 공백 및 마침표를 포함하여 시스템에서 인쇄 가능한 모든 문자가 포함됩니다. 이 세트를 필터로 사용하면 문자열에서 인쇄할 수 없는 모든 문자를 제거할 수 있습니다.

예를 들어 "some\x00string. with\x15 funnycharacters"라는 문자열이 있는 경우:

s = "some\x00string. with\x15 funny characters"
''.join(filter(lambda x: x in printable, s))

결과는 다음과 같습니다:

'somestring. with funny characters'

이 방법은 공백과 마침표를 유지하면서 ASCII가 아닌 문자를 효과적으로 제거하여 추가 처리를 위한 깨끗한 문자열을 제공합니다.

릴리스 선언문 이 글은 1729341017에서 재인쇄되었습니다. 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.
최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3