Levenshtein Distance: 텍스트 유사성 측정을 위한 궁극적인 가이드

첫 장 > 프로그램 작성 > Levenshtein Distance: 텍스트 유사성 측정을 위한 궁극적인 가이드

Levenshtein Distance: 텍스트 유사성 측정을 위한 궁극적인 가이드

2024년 11월 14일에 게시됨

검색:782

편집 거리라고도 하는 Levenshtein 거리는 두 문자열 간의 유사성을 평가하기 위한 기본 측정항목입니다. 한 문자열을 다른 문자열로 변환하는 데 필요한 최소 작업 수를 계산합니다. 이러한 작업에는 다음이 포함됩니다.

삽입: 문자를 추가합니다.
삭제: 캐릭터를 제거합니다.
대체: 한 문자를 다른 문자로 대체합니다.

이 개념은 철자 검사, 퍼지 검색, DNA 서열 비교와 같은 많은 현대 응용 프로그램의 핵심입니다.

수학적 개념

길이가 (n)과 (m)인 두 문자열(A)과 (B) 사이의 Levenshtein 거리는 동적 프로그래밍 접근 방식을 사용하여 계산할 수 있습니다. 크기가 ((n 1) \times (m 1))인 행렬( D )을 정의합니다. 여기서 각 항목( D[i][j] )은 ( A )의 첫 번째 ( i ) 문자를 변환하는 데 드는 최소 비용을 나타냅니다. ( B )의 첫 번째 ( j ) 문자로 변환합니다.

반복 관계는 다음과 같습니다.

Levenshtein Distance: The Ultimate Guide to Measuring Textual Similarity

파이썬 구현

다음은 Levenshtein 거리를 계산하는 간단한 Python 구현입니다.

def levenshtein_distance(a, b):
    n, m = len(a), len(b)
    dp = [[0] * (m   1) for _ in range(n   1)]

    for i in range(n   1):
        for j in range(m   1):
            if i == 0:
                dp[i][j] = j
            elif j == 0:
                dp[i][j] = i
            elif a[i - 1] == b[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = 1   min(dp[i - 1][j], dp[i][j - 1], dp[i - 1][j - 1])

    return dp[n][m]

# Example usage
print(levenshtein_distance("kitten", "sitting"))  # Output: 3

실제 응용

1. 맞춤법 검사

맞춤법 검사기는 Levenshtein 거리를 사용하여 오타 수정을 제안합니다. 예를 들어 helo를 입력하면 hello 또는 Hero가 제안될 수 있습니다.

2. 퍼지 검색

검색 엔진에서 Levenshtein은 사용자가 오타나 철자 오류를 범하는 경우에도 결과를 반환하도록 도와줍니다.

3. DNA 비교

생물정보학에서 이 거리는 각 작업이 잠재적인 돌연변이를 나타내는 두 DNA 서열 간의 유사성을 측정하는 데 도움이 됩니다.

4. 인증 및 사기 탐지

신원 사기를 탐지하는 시스템은 작은 텍스트 차이를 고려하여 사용자 입력을 기존 기록과 비교할 수 있습니다.

최적화: 메모리가 감소된 Levenshtein 거리

클래식 알고리즘은 메모리 집약적일 수 있는 전체 행렬을 사용합니다. 다행히도 각 행( D[i][j] )은 ( D[i-1][j] )에만 의존하므로 두 행의 메모리만 사용하도록 최적화할 수 있습니다. ( D[i][j-1] ) 및 ( D[i-1][j-1] ).

def optimized_levenshtein(a, b):
    n, m = len(a), len(b)
    prev = list(range(m   1))
    curr = [0] * (m   1)

    for i in range(1, n   1):
        curr[0] = i
        for j in range(1, m   1):
            insert = curr[j - 1]   1
            delete = prev[j]   1
            substitute = prev[j - 1]   (0 if a[i - 1] == b[j - 1] else 1)
            curr[j] = min(insert, delete, substitute)
        prev, curr = curr, prev

    return prev[m]

# Example usage
print(optimized_levenshtein("kitten", "sitting"))  # Output: 3

결론

Levenshtein 거리는 다양한 분야에서 널리 사용되는 강력하고 다재다능한 도구입니다. 이해하기 쉽지만 최적화 및 복잡한 응용 프로그램은 최신 시스템에서의 가치를 강조합니다.

추가 탐색을 위해 전치를 설명하는 Damerau-Levenshtein 거리와 같은 변형을 고려하세요. 이제 이 도구를 프로젝트에 통합하거나 깊은 이해로 동료들에게 깊은 인상을 남길 수 있습니다!

Levenshtein 거리에 대한 질문이나 아이디어가 있나요? 댓글로 공유해주세요! ?

릴리스 선언문 이 기사는 다음과 같이 재현됩니다. 삭제합니다.

최신 튜토리얼 더>

익명의 JavaScript 이벤트 처리기를 깨끗하게 제거하는 방법은 무엇입니까?
익명 이벤트 리스너를 제거하는 데 익명의 이벤트 리스너 추가 요소를 추가하면 유연성과 단순성을 제공하지만 유연성과 단순성을 제공하지만 제거 할 시간이되면 요소 자체를 교체하지 않고 도전 할 수 있습니다. 요소? element.addeventListene...

프로그램 작성 2025-05-02에 게시되었습니다
PHP 배열 키-값 이상 : 07 및 08의 호기심 사례 이해
이 문제는 PHP의 주요 제로 해석에서 비롯됩니다. 숫자가 0 (예 : 07 또는 08)으로 접두사를 넣으면 PHP는 소수점 값이 아닌 옥탈 값 (기본 8)으로 해석합니다. 설명 : echo 07; // 인쇄 7 (10 월 07 = 10 진수 7) ...

프로그램 작성 2025-05-02에 게시되었습니다
ES3 새로운 기능 : 현대 자바 스크립트의 새로운 기능
JavaScript는 끊임없이 발전하고 있으며 매년 개발자의 삶을 더 쉽게 만들 수 있도록 설계된 새로운 기능 세트를 제공합니다. 최신 업데이트 인 ES2023에는 코드 작성, 읽기 및 유지 관리 방식을 향상시키는 새로운 도구가 포함되어 있습니다. 프로젝트에서...

프로그램 작성 2025-05-02에 게시되었습니다
숫자 단어를 정수로 효율적으로 변환하는 방법은 무엇입니까?
라이브러리를 활용하는 한 가지 방법은 Text2int 함수이며, 이는 Numwords 사전의 힘을 활용하여 변환을 달성합니다. 첫 번째 호출 후이 사전은 세 심하게 조립되어 해당 정수 값 및 스케일에 숫자 단어를 매핑합니다. 코어 변환 로직은 입력 텍스트 문...

프로그램 작성 2025-05-02에 게시되었습니다
두 날짜 사이의 일 수를 계산하는 JavaScript 방법
const date1 = 새로운 날짜 ( '7/13/2010'); const date2 = new 날짜 ('12/15/2010 '); const difftime = math.abs (date2 -date1); const diff...

프로그램 작성 2025-05-02에 게시되었습니다
동적 인 크기의 부모 요소 내에서 요소의 스크롤 범위를 제한하는 방법은 무엇입니까?
문제 : 고정 된 사이드 바로 조정을 유지하면서 사용자의 수직 스크롤과 함께 이동하는 스크롤 가능한 맵 디브가있는 레이아웃을 고려합니다. 그러나 맵의 스크롤은 뷰포트의 높이를 초과하여 사용자가 페이지 바닥 글에 액세스하는 것을 방지합니다. ...

프로그램 작성 2025-05-02에 게시되었습니다
열의 열이 다른 데이터베이스 테이블을 어떻게 통합하려면 어떻게해야합니까?
다른 열이있는 결합 테이블 ] 는 데이터베이스 테이블을 다른 열로 병합하려고 할 때 도전에 직면 할 수 있습니다. 간단한 방법은 열이 적은 테이블의 누락 된 열에 null 값을 추가하는 것입니다. 예를 들어, 표 B보다 더 많은 열이있는 두 개의 테이블,...

프로그램 작성 2025-05-02에 게시되었습니다
Java는 여러 반환 유형을 허용합니까 : 일반적인 방법을 자세히 살펴보십시오.
public 목록 getResult (문자열 s); 여기서 foo는 사용자 정의 클래스입니다. 이 방법 선언은 두 가지 반환 유형을 자랑하는 것처럼 보입니다. 목록과 E. 그러나 이것이 사실인가? 일반 방법 : 미스터리 메소드는 단일...

프로그램 작성 2025-05-02에 게시되었습니다
Fastapi Custom 404 페이지 제작 가이드
custom 404 fastapi 가없는 페이지를 찾을 수 없습니다. 적절한 방법은 특정 요구 사항에 따라 다릅니다. 404 상태 코드에서 리디렉션 response = await call_next(request) if response.sta...

프로그램 작성 2025-05-02에 게시되었습니다
MySQLI로 전환 한 후 Codeigniter가 MySQL 데이터베이스에 연결 해야하는 이유
문제를 디버깅하려면 파일 끝에 다음 코드를 추가하고 출력을 검토하는 것이 좋습니다. echo ''; print_r ($ db ); echo ''; echo '데이터베이스에 연결 :'. $ db ; $ dbh = mysq...

프로그램 작성 2025-05-02에 게시되었습니다
$PHP \의 기능 재정의 제한을 극복하는 방법은 무엇입니까?$
PHP \의 기능 재정의 제한을 극복하는 방법은 무엇입니까?
return $ a * $ b; } 그러나 PHP 도구 벨트에는 숨겨진 보석이 있습니다. runkit_function_rename () runkit_function_rename ( 'this', 'that'); run...

프로그램 작성 2025-05-02에 게시되었습니다
Visual Studio 2012의 DataSource 대화 상자에 MySQL 데이터베이스를 추가하는 방법은 무엇입니까?
MySQL 커넥터 v.6.5.4가 설치되어 있지만 Entity 프레임 워크의 DataSource 대화 상자에 MySQL 데이터베이스를 추가 할 수 없습니다. 이를 해결하기 위해 MySQL 용 공식 Visual Studio 2012 통합은 MySQL 커넥터 v.6....

프로그램 작성 2025-05-02에 게시되었습니다
조건부 진술서의 할당 작업
PHP 에서 매우 일반적입니다. 다음과 같이 작성된 코드를 보려면 : if($summary = get_post_summary()) { return $summary; } 내가 언급하는 것은 조건 내부의 과제입니다. 교활하게도, 그것은 훨씬 덜 일반적이지만 ...

프로그램 작성 2025-05-02에 게시되었습니다
파이썬에서 문자열에서 이모티콘을 제거하는 방법 : 일반적인 오류 수정에 대한 초보자 가이드?
Codecs 가져 오기. 가져 오기 re text = codecs.decode ( '이 개 \ u0001f602'.encode ('utf-8 '),'utf-8 ') 인쇄 (텍스트) # 이모티콘으로 emoji_patter...

프로그램 작성 2025-05-02에 게시되었습니다
SQLALCHEMY 필터 조항에서 'Flake8'플래킹 부울 비교가 된 이유는 무엇입니까?
제공된 예에서 데이터베이스 테이블의 부울 필드 (Obsoleted)는 비 공급 테스트 사례를 결정하는 데 사용됩니다. 이 코드는 필터 절에서 테스트 케이스를 사용합니다. casenum = session.query (testcase) .filter (testc...

프로그램 작성 2025-05-02에 게시되었습니다