데이터수집가공

대화 데이터는 목적지향 대화와 주제대화, 일상대화 등 대화의 목적, 대화 서비스의 목표에 따라 다양한 대화 시나리오 구축 전략 및 태깅 전략이 필요합니다.
기본 작업 프로세스는 대화 시나리오의 수집, 정제, 가공, 학습 단계를 밟는데, 각 단계마다 사람이 직접 수작업에 의해서 또는 프로그램의 힘을 빌려 사람과 프로그램이 협업으로, 또는 프로그램만으로 작업이 진행될 수 있습니다.
대화 데이터는 대화시스템의 토대가 되는 주춧돌이며, 이 주춧돌이 한번 잘못된 방향으로 놓여지거나 기울어졌을 경우, 전체 시스템의 성능에 가장 큰 영향을 미치게 되므로, 초기 대화 데이터의 설계 전략이 가장 중요합니다.
또한, 한번 잘못된 방식으로 설계가 될 경우, 수정이 단 시간에 불가능하며, 그에 따른 비용적인 손실도 엄청나게 발생합니다.
더구나, 대화 데이터를 한번 구축하고 끝나는 문제가 아니라, 시스템의 개선을 위해서 지속적으로 업그레이드되어야 하는 대상입니다.
즉, 시스템의 성능을 어떻게 개선할 것인가는 대화 데이터를 어떻게 구성할 것인가와 맞물려 돌아가야 합니다.
특히, 수작업 프로세스에서는, 사용자의 요구사항에 맞는 페르소나를 구축하고, 서비스별 대화 예제문을 수집하여 대화 시나리오를 구축합니다. 그 후, 태깅을 통해서 최종 결과물을 생성하고, 작업을 검수합니다.



1. 데이터 구축·가공 도메인



2. 활용 분야



3. 데이터 가공 프로세스



4. 데이터수집가공 사례

일상대화시나리오 수집, 정제, 구축
일상대화 연속대화 시나리오 수집, 정제, 구축
다국어 대화 시나리오 수집, 정제, 구축(한국어, 영어, 일본어, 중국어)
챗봇용 학습 코퍼스 구축
한국어 신문기사 문서 요약 학습데이터 구축
스마트 거울 대화 서비스용 피부 대화 시나리오 가공(미백, 여드름, 기미, 주름)
피부대화서비스를 위한 얼굴사진 데이터 가공 및 분석 처리
AI 스피커를 위한 대화 예제 수집((의도, 의미 태그 부착)
대화 성능 고도화를 위한 대화 예제 수집 용역(주제어, 탐색, 추천, 음악, 앱, 이북, 차량 제어, 차량내 서비스, 차량 네비게이션, 상황, 미디어 콘텐츠, 최신 트랜드 등)
대화형 TV서비스 대화 예제 구축 및 의미 부착(VDO 대화형 탐색, TV앱검색, 채널검색, 교정검색, 연관검색, TV제어 등)
인공지능 서비스를 위한 한국어 대화 데이터 구축(소상공인 분야)
호텔 객실 제어용 대화 코퍼스 및 시나리오 구축
홈 로봇 대화 시나리오 구축
가상인격체 디지털 DNA 대화 시나리오 구축
유치원 아동용 대화 시나리오 구축(유치원 생활, 의생활, 몸상태, 음식의 맛, 일과, 날씨, 대중교통, 공공장소, 통신매체, 예절 등)