[알고리즘] 사운덱스 검색 알고리즘
사운덱스 검색 알고리즘 이란? 1920년대에 미국 국립 문서국은 인구조사 기록의 효율적인 관리를 위하여 유사 발음을 지닌 영어 인명을 검색할 수 있는 사운덱스(SOUNDEX) 알고리즘을 개발하였습니다. 이름이나 스펠링이 유사한 내용에 대하여 검색할 때 사용하는 알고리즘입니다. 이름은 아니지만 예를 들어 보다의 see와 바다의 sea는 모두 S000이라는 코드로 반환됩니다. 이 처럼 발음은 같으나 스펠링이 달라 잘못 검색을 하더라도 모두 S000이라는 동일한 코드를 갖고 있어 예상했던 결과를 얻을 수 있습니다. 알고리즘 원리 [규칙 1] 이름의 첫 번째 글자를 저장하고, 첫 번째 글자를 제외한 나머지 글자 중에서 a, e, h, i, o, u, w, y를 모두 제거한다. [규칙 2] 이름 안에 존재하는 글..
2019. 8. 14. 10:05