본문으로 바로가기

공지 사항 상세보기

국립국어원 개인적 글쓰기 자료 수집 및 말뭉치 지식 강연회 개최 사업 관련 안내

작성자 국립국어원 등록일 2020. 2. 7. 조회수 148633

<국립국어원 공고 제2020-18호>

 

국립국어원 개인적 글쓰기 자료 수집 및
말뭉치 지식 강연회 개최 사업 관련 안내

 

 
 

  국립국어원에서는 우리말 인공지능 기술 개발과 국어 연구 등에 활용하고자 미공개‧미출판 자료를 수집하여 가공하고 이를 널리 알리는 ‘개인적 글쓰기 자료 수집 및 말뭉치 지식 강연회 개최’ 사업을 추진하고 있습니다. 우리말 인공지능 기술 발전 등에 기초가 되는 국가적 언어 자료의 수집과 구축 사업에 귀하의 소중한 글이 유용하게 활용될 수 있도록 많은 관심과 참여를 부탁드립니다.


□ 사업 개요

 ㅇ 사업명: 개인적 글쓰기 자료 수집 및 말뭉치 지식 강연회 개최

 ㅇ 사업 기간: 2019. 11. 14. ~ 2020. 3. 14.

 ㅇ 사업 수행자: ㈜메트릭스코퍼레이션, 주식회사 레인보우커뮤니케이션

 ㅇ 주요 사업 내용

    - 미공개‧미출판 글쓰기 자료 수집 

     * 수집 방법: 글쓰기 자료 수집 행사 ‘한 편 줍쇼’를 통해 수집   
                          (누리집(http://iwrite.kr)에서 온라인으로 수집함)

    - 수집된 글쓰기 자료를 대상으로 기초(원시) 말뭉치* 구축

    - 말뭉치 지식 강연회 개최

     * 말뭉치: 컴퓨터가 읽을 수 있는 형태로 입력, 분석한 대규모 언어 자료로, 사람에게 학습용 책이 필요하듯 인공 지능은 학습용 대규모 언어 자료가 필요함.

  ㅇ 담당자: 국립국어원 언어정보과 서샛별(02-2669-9607)

□ 주요 질의·답변

1. 개인적 글쓰기 자료를 수집하는 목적은?

ㅇ 일상 속에서 자연스럽게 작성한 글쓰기 자료를 모아 컴퓨터가 읽을 수 있는 형태로 가공한 비출판물 말뭉치를 국가적으로 구축하여 우리말 인공지능 개발과 국어 연구 등에 공공 자료로 활용할 수 있도록 하기 위해서입니다.

2. 글의 주제나 종류에 제한이 있는지?

ㅇ 시, 일기, 편지글 등 어떤 유형의 글도 제출하실 수 있습니다. 주제 혹은 소재에 대한 제한도 없습니다.

3. 저작권 이용 허락 범위는?

국립국어원과 국립국어원의 용역 사업 수행자가 귀하의 글쓰기 자료를 말뭉치로 구축하고 배포하기 위하여 아래 일을 할 수 있도록 허락을 해 주시는 것이 필요합니다.

   - 수집 자료를 일정한 형식으로 전자적 기록 매체에 담아 보존하는 일

   - 수집 자료를 형태소, 단어, 문장 등의 언어 단위별로 분리하며, 언어적·비언어적 정보를 부착하는 등 자료를 복제하여 변형하여 말뭉치를 구축하는 일

   - 구축된 말뭉치를 연구 및 기술 개발용으로 학계·연구기관·산업체 등이 이용할 수 있도록 제공·배포하는 일

학계·연구기관·산업체 등이 국어 연구와 언어 정보 처리 분야 응용 등을 위하여 아래 일을 할 수 있도록 허락을 해 주시는 것이 필요합니다.

   - 우리말 인공지능 기술 개발과 국어 연구용으로 말뭉치를 분석 및 처리하여 사용하도록 하는 일

4. 저작권 이용 허락 기간은?

ㅇ 학계·연구기관·산업체 등이 연구 및 기술 개발에 활용하기 위해서는 충분한 기간 동안 안정적으로 말뭉치를 이용할 수 있는 것이 중요합니다. 예를 들어 1990년대 초반에 영국에서 구축한 BNC(British National Corpus) 말뭉치는 25년이 지난 현재까지도 안정적으로 제공되어 활용되고 있습니다. 국립국어원에서는 귀하의 소중한 글쓰기 자료를 말뭉치로 구축하여 최소 2040년 12월 31일까지는 안정적으로 이용할 수 있도록 허락해 주시기를 바랍니다.

ㅇ 귀하께서 이용 허락 중지 의사를 밝히시면 최소 이용 허락 기간이 끝난 후 즉시 이용을 중지할 예정입니다.
 

5. 비출판물 말뭉치는 어떠한 형식으로 구축되는 것인지?

ㅇ 귀하께서 개인적으로 작성하신 글의 원문을 수집하고, 수집된 자료에 말뭉치의 형식을 갖추기 위한 정보를 부가하여 원시 말뭉치로 구축합니다. 여기에 형태소, 어휘, 문장과 관련된 언어적 정보를 부가하여 분석 말뭉치로 구축할 수 있습니다.

        * 아래 원시 말뭉치 예시 참고
 

6. 개인 정보가 노출될 우려는 없는지?

ㅇ 글쓰기 자료 내 이름, 전화번호, 주소 등 개인 정보는 철저하게 알아볼 수 없게 처리합니다.

ㅇ 저자명은 저작권 이용 허락 계약 단계에서 본인이 공개 여부를 결정합니다.

        * 미공개를 원하시면 원시 말뭉치 에 이름 대신 ‘개인글 작성자’로 기재됩니다.


<원시 말뭉치 예시>

원시 말뭉치 예시
공공저작물 자유이용허락 표시 기준(공공누리, KOGL) 제1 유형 조건에 따라 저작물의 출처를 구체적으로 표시한 후 이용할 수 있습니다.