초록
본 발명은 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템에 관한 것으로서, 전처리부가 형태소 분석을 통해 입력받은 문서를 각 단어별로 분류하는 (a) 단계; 특징추출부가 분류된 단어와 인접한 위치의 다른 단어들을 의미별로 분류하는 (b) 단계; 특징추출부가 분류된 단어들의 문맥을 고려해 구성한 문장 또는 문서를 벡터화하는 (c) 단계; 및 자동분류부가 벡터화된 문장 또는 문서를 주제별로 분류하는 (d) 단계를 포함한다. 상기와 같은 본 발명에 따르면, 다양한 문서 집합으로부터 형태소를 분석해 불용어 필터링하고, 문서의 벡터 변환과 특징을 추출하며, 순환신경망 기반으로 문서를 자동으로 분류함으로써, 문서에 포함된 단어의 의미와 문맥을 고려하여 서로 유사한 문서를 추출해 주제별로 분류하는 일련의 과정을 자동으로 수행할 수 있다.