본문으로 바로가기

공지 사항 상세보기

국립국어원 2022년 온라인 게시 자료 수집 및 정제 사업 관련 안내

작성자 국립국어원 등록일 2022. 5. 27. 조회수 3506

담당자: 언어정보과 서샛별 학예연구사(02-2669-9607)

<국립국어원 공고 제2022-134호>

국립국어원 2022년 온라인 게시 자료 수집 및 정제
사업 관련 안내


 

  국립국어원에서는 우리말 인공지능 기술 개발과 국어 연구 등에 활용하고자 온라인 게시 원문 자료를 수집하여 가공하는 ‘2022년 온라인 게시 자료 수집 및 정제’ 사업을 추진하고 있습니다. 우리말 인공지능 기술 발전 등에 기초가 되는 국가적 언어 자료의 수집과 구축 사업에 귀하의 소중한 대화 자료가 유용하게 활용될 수 있도록 많은 관심과 참여를 부탁드립니다.



□ 사업 개요

 ㅇ 사업명: 2022년 온라인 게시 자료 수집 및 정제

 ㅇ 사업 기간: 2022. 4. 28. ~ 2022. 11. 28.

 ㅇ 사업 수행자: 주식회사 버즈메트릭스

 ㅇ 주요 사업 내용: 온라인 게시 자료 말뭉치 구축

  - 온라인 게시 자료 수집(정제 후 31만 건 이상 분량)

  - 구축 대상 자료에 대한 메타 정보 구축

 ㅇ 담당자: 국립국어원 언어정보과
               학예연구사 서샛별(02-2669-9607)

 ㅇ 문의처: ㈜버즈메트릭스 이영희 대표
               (02-6244-0732, yhlee@metrix.co.kr)


□ 주요 질의·답변

1. 온라인 게시 자료를 수집하는 목적은?


 ㅇ 온라인상에서 자연스럽게 사용하는 언어 자료를 모아 컴퓨터가 읽을 수 있는 형태로 가공한 온라인 게시 자료 말뭉치를 국가적으로 구축하여 우리말 인공지능 개발과 국어 연구 등에 공공 자료로 활용할 수 있도록 하기 위해서입니다.

2. 저작권 이용 허락 범위는?


 ㅇ 국립국어원과 국립국어원의 용역 사업 수행자가 귀하의 대화 자료를 말뭉치로 구축하고 배포하기 위하여 아래 일을 할 수 있도록 허락해 주시는 것이 필요합니다.

  - 수집 자료를 일정한 형식으로 전자적 기록 매체에 담아 보존하는 일

  - 수집 자료를 형태소, 단어, 문장 등의 언어 단위별로 분리하며, 언어적·비언어적 정보를 부착하는 등 자료를 복제하여 변형하여 말뭉치를 구축하는 일

  - 구축된 말뭉치를 연구 및 기술 개발용으로 학계·연구기관·산업체 등이 이용할 수 있도록 제공·배포하는 일

 ㅇ 학계·연구기관·산업체 등이 국어 연구와 언어 정보 처리 분야 응용 등을 위하여 아래 일을 할 수 있도록 허락해 주시는 것이 필요합니다.

  - 우리말 인공지능 기술 개발과 국어 연구용으로 말뭉치를 분석 및 처리하여 사용하도록 하는 일

3. 저작권 이용 허락 기간은?

 
 ㅇ 학계·연구기관·산업체 등이 연구 및 기술 개발에 활용하기 위해서는 충분한 기간 동안 안정적으로 말뭉치를 이용할 수 있는 것이 중요합니다. 예를 들어 1990년대 초반에 영국에서 구축한 BNC(British National Corpus) 말뭉치는 25년이 지난 현재까지도 안정적으로 제공되어 활용되고 있습니다. 국립국어원에서는 귀하의 소중한 대화 자료를 말뭉치로 구축하여 최소 2038년 12월 31일까지는 안정적으로 이용할 수 있도록 허락해 주시기를 바랍니다.

 ㅇ 귀하께서 이용 허락 기간이 끝나기 6개월 전부터 1개월 전까지의 기간에 서면으로 이용 허락 갱신 거절 의사를 밝히시면 최소 이용 허락 기간이 끝난 후 이용을 중지할 예정입니다.

4. 온라인 게시 자료 말뭉치는 어떠한 형식으로 구축되는 것인지?


 ㅇ 이용을 허락해 주신 분들의 게시판, 누리소통망 등에서 수집한 온라인 게시 언어 자료를 정제하고, 말뭉치의 형식을 갖추기 위한 정보를 부가하여 원시 말뭉치를 구축합니다. 여기에 형태소, 어휘, 문장과 관련된 언어적 정보를 부가하여 분석 말뭉치로 구축할 수 있습니다.

  

온라인 게시 자료 말뭉치 형식 예시(상세한 사항은 첨부파일 확인 필요) 

5. 개인 정보가 노출될 우려는 없는지?


 ㅇ 이름, 전화번호, 주소 등 개인 정보는 알아볼 수 없게 처리합니다.

 

공공저작물 자유이용허락 표시 기준(공공누리, KOGL) 제1 유형 조건에 따라 저작물의 출처를 구체적으로 표시한 후 이용할 수 있습니다.