NLP 2. 한국어 데이터 전처리

7 Dec 2023 ~ 7 Dec 2023

2. 한국어 데이터 전처리

코퍼스 : 대량의 텍스트 데이터

수집과정

토큰 : 최소 의미 단위

토큰화 : 원시 데이터를 유용한 데이터 문자열로 변환하는 프로세스

필요성

토큰화 방법

문장 토큰화 : 토큰의 단위가 문장임. 적절하지 않음
단어 토큰화 : 토큰의 단위가 단어. 영어에서는 사용이 가능하나, 한국어는 불가능 (교착어)

한계점 : OOV(Out Of Vocabulary) 문제, 새로운 단어가 추가되면 단어 사전의 크기가 커짐
문자 토큰화 : 단어 하나의 추론에 너무 많은 추론이 필요함
서브워드 토큰화 : 문자 토큰화의 확장 버젼, 토큰의 단위를 n개의 문자로 정의

기존 토큰화의 한계

토큰의 단위를 너무 크게 정의하면 사전의 크기가 커지고 OOV 문제

너무 작게 정의하면 토큰의 정보량이 적어짐

subword : 우리가 정의하는 단어보다 더 작은 의미의 단위

하나의 단어가 더 작은 단위의 의미있는 여러 서브워드들의 조합으로 구성되는 경우가 많아서 이를 분리

희귀단어, 신조어에서 대처할 수 있음

BPE(Byte Pair Encoding) 알고리즘

코퍼스 내 단어의 등장 빈도에 따라 서브워드를 구축

1) 사전에 출현 빈도가 높은 (a, b) 쌍이 있을때, a 와 b가 각각 빈번하면 빠르게 분절 2) 사전에 출현 빈도가 높은 (a, b) 쌍이 있을때, a와 b가 각각 나오지 않으면 분절하지 않음