기업 및 기관 데이터의 80%는 워드프로세서, 프레젠테이션, 이메일 등과 같은
텍스트 기반의 비정형 데이터로 구성되어 있습니다. 텍스트마이닝(Textmining)은
이러한 텍스트에서 의미 있는 정보를 생산하는 과정으로 자연어처리 및 기계학습 등의
기술을 이용하여 정보의 추출부터 요약·분류·군집·연관도 분석 등의 과정을 수행합니다.
다이퀘스트의 언어처리 솔루션
요약
TOPICKER(자동 요약기)
Text rank 알고리즘을 사용하여 주어진 문서에 주요 단어와 주요 문장 추출
분류
DQ-CAT(자동 분류기)
DQ-CLU(자동 군집기)
사용자 설정에 따른 문서의 자동 분류
웹 기반의 관리 도구로 편리한 학습 및 분류 설정 관리
고 정밀 형태소 분석 및 자연어 지원을 통해 문서 분류의 정확도를 높이고 분류 대상 학습의 정밀도 향상
문서간의 유사도를 기준으로한 군집화
특정 키워드 및 필드 별 가중치 부여, 카테고리 개수 등 튜닝
검색 결과에 대한 실시간 군집기능 수행
정제·추출·분석
DISA(정보 추출기)
비정형 데이터 내에서 정형화된 의미 정보 추출
형태소 분석, 구문 분석, 개체 명 추출을 통한 정보 추출
긍·부정에 대한 감성 정보 추출
웹 기반의 관리 도구로 손쉬운 추출 패턴 및 규칙 관리
추출·분석
DRAMA(연관도분석기)
자동 언어 처리로 핵심 키워드 및 연관어 추출
추출된 검색 결과의 다양한 시각화
DQ-CAT (자동 분류기-디큐 캣)
다이퀘스트 자동 분류기 ‘디큐 캣’은 문서 검색을 위해 각 문서마다 범주를 지정하여 할당함으로써 기존 수작업으로 문서마다 범주를 지정해주는 작업을 자동화 하는 시스템입니다.
자동분류 속도 및 안전성
대상문서 수와 관계없이 일정한 자동분류 속도 및 성능 유지
대상문서의 수가 증가하더라도 학습속도는 일정하게 증가
대상 정보에 맞는다양한 학습기법 적용
대상 정보에 맞는 다양한 학습기법의 적용 후 고객화 된 지식분류체계 적용으로 정확성 보장
통계와 규칙을 혼합한 강건한 정보 분류 시스템으로 사전작업의 최소화
고 정밀 자연어 처리 엔진을 이용한 대상문서 특성분석 및 학습
웹 기반 관리도구
학습 및 학습 시간예약 설정기능 등을 관리하는 도구 제공
분류기준의 변화에 대한 맵핑 관리도구 제공
불용어 및 카테고리 강제 할당 관리 기능 제공
DQ-Clu (자동 군집기-디큐 클루)
다이퀘스트 자동 군집기 ‘디큐 클루’는 문서 간 유사도를 기준으로 자동으로 군집화 된 검색 결과를 제공합니다. 그룹별 주제 어휘 검색 결과에 대한 손쉬운 파악이 가능하여 정보 접근성을 보다 강화할 수 있습니다.
정보 접근성 향상
정리되지 않은 문서들의 유사도와 관련도 파악을 통한 멀티레벨 구조의 그룹핑 지원
명확한 검색 결과
카테고리 별 특정 어휘로 검색 결과를 한눈에 파악 가능
개인화 서비스 지원
관심 분야의 특정 키워드 또는 필드별로 가중치를 부여하거나 카테고리 개수 조절 등을 통해 개인화 서비스를 지원
실시간 클러스터링
실시간 정보 수집으로 빠르고 정확한 자동 클러스터링 검색 결과를 제공
DISA ((비정형 데이터) 의미 정보 추출 시스템-디사)
다이퀘스트 정보 추출기 ‘디사’는 다양한 형태의 비정형 데이터에서 의미 개체, 관계 정보, 감성 정보 등의 의미 정보를 추출하여 정형화된 데이터로 정제하여 줍니다.
빠르고 정확한 언어 분석및 정보 추출
한국어, 영어, 중국어, 일본어 등 다국어 지원 형태소 분석기 사용
Rule 기반의 언어 분석 지원으로 정확하고 빠른 성능을 보장하며, 튜닝을 통한 정확도 향상 기능 제공
웹 기반의 손쉬운 관리도구
의미 정보 추출 프로세스 전체에 대한 통합 관리 도구 제공
추출 정확도 향상을 위한 지식 사전과 추출 패턴의 관리 기능 제공
추출 성능 검증과 튜닝을 위한 검증 기능 제공
다양한 도메인 적용을 위한 지식사전 적용
다양한 매쉬업서비스와 견계
데이터베이스, 파일 등 다양한 형태의 출력 지원으로 타 시스템과의 원활한 연계 시스템
라이브러리 형태의 검색엔진 및 추론엔진에 플러그 인 적용기능 제공
독립시스템 형태의 서버 구축 기능
검증된 성능 및 안정성
순수 자체 핵심기술인 자연어 처리 기술 탑재
다수의 정보 추출 프로젝트 진행으로 검증된 성능과 안정성
통합 검색 시스템, 온톨로지 시맨틱 검색 시스템과의 원활한 관계
DRAMA (연관도 분석기-드라마)
다이퀘스트 연관도 분석기 ‘드라마’는 자연어처리 기반의 형태소 분석기를 적용하여 검색 키워드의 연관 검색어, 관계도, 유사 문서 분석 등의 검색 결과를 제공 합니다.
다양한 연관어 추출
자체 보유한 핵심 자연어 처리 기술 적용으로, 메타데이터 및 텍스트 문서 키워드 추출 기능 제공
키워드 추출, 형태소 분석 기반의 품사태그 추출, 복합 명사, 사용자 명사 등의 다양한 단어 추출 기능 수행
우수한 연관도 분석
MI, XQ Methods 방식의 데이터 마이닝으로 키워드 간 연관 정도에 대한 높은 정확성 제공
인물, 기관, 상품, 지역 등 특정 대상 키워드에 대한 데이터베이스를 이용한 연관도 분석 수행