Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

동의어/유의어 토큰 확장 기능 #192

Open
wants to merge 1 commit into
base: main
Choose a base branch
from

Conversation

Dokkabei97
Copy link

개요

Kiwi 형태소 분석기에는 동의어/유의어 확장 기능이 없어서 직접 구현했습니다.

추가 및 변경 파일

kiwipiepy/corpus에 기본 동의어/유의어 사전을 추가했습니다.

  • 해당 사전에 사전 작성 방식과 소량의 동의어/유의어 사전이 있습니다(사실상 테스트용..)

kiwipiepy/utils.pySynonymToken, Synonyms 클래스를 추가 했습니다.

  • SynonymToken은 동의어/유의어 확장 후 토큰화 된 결과 값에 기존 토큰과 확장된 토큰을 구분하기 위해 새로 정의 했습니다.
  • Synonyms는 동의어/유의어 확장 class 입니다

test/test_kiwipiepy.pytest_two_way_synonyms, test_one_way_synonyms 테스트 코드를 추가 했습니다.

  • 각 양방향 확장, 단방향 확장에 대한 테스트 코드 입니다.

사용 예제

kiwi = Kiwi()
synonyms = Synonyms()

token = kiwi.tokenize("나는 초콜릿 아이스크림을 좋아한다")
synonyms.expand_synonym(token)

# stopword = Stopwords()
# synonyms.expand_synonym(stopword.filter(token)) 도 가능

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant