본문으로 바로가기

국립국어원 20년사

성과

국어 정보화21세기 세종 계획

현대 사회를 흔히 지식 정보 사회라고 한다. 이러한 변화를 맞이하여 국어학에도 컴퓨터를 이용한 연구 방법이 활성화되어 자연 언어 처리 및 말뭉치 구축 등과 같은 분야에 대한 관심이 고조되었으며 국어학의 한 분야로 ‘국어 정보화’가 자리잡기에 이르렀다. 이에 따라 1995년 국어심의회에도 정보화분과위원회가 신설되었고 1994년 국어 정보 처리 기반 구축 사업이 시작되었다. 이어 1998년부터 “21세기 세종계획”이라는 국어 정보화 중장기 사업이 추진되어 국어 정보화 분야가 국어 정책의 한 축으로 자리잡게 되었다.
‘21세기 세종계획’이란 1998년부터 문화관광부가 주관하던 국어 정보화 중장기 발전 계획을 말한다. 2004년 직제 개편에 따라 국립국어원이 주관하게 되었다. ‘세종계획’이라는 명칭은 세종대왕이 훈민정음을 창제하여 우리말과 글을 쉽게 사용하게 되었듯이, 이 사업을 통해 국어 정보를 모두가 누릴 수 있게 하려는 취지에서 붙여진 것이다. 총 150억여 원의 예산이 투입되었으며, 연간 300여 명의 연구진이 참여하였다.
‘21세기 세종계획’의 세부 목표는 세 가지인데 첫째, 세계 수준의 국어 기초 어휘 자료 구축을 통한 우리말의 정보화, 둘째, 표준화된 전자사전 구축을 통한 우리말의 체계화, 셋째, 한민족 언어 정보화를 통한 우리말의 세계화가 그것이다. 세종 계획은 ‘발전 단계(1998년~2000년), 성숙 단계(2001년~2003년), 활성화 단계(2004년~2007년)’의 3단계로 나누어 실행되었다.

21세기 세종계획의 목적과 목표
[그림 5-1] 21세기 세종계획의 목적과 목표

세종 계획은 중장기 사업으로 진행되면서 ‘국어 정보 기반 구축 사업’과 ‘국어 정보화 여건 조성 사업’으로 나뉘어 진행되었는데 전자에는 국어 기초 자료 구축, 국어 특수 자료 구축, 전자사전 개발, 한민족 언어 정보화, 전문 용어 정비 등의 사업이 포함되며, 후자에는 문자 코드 표준화, 글꼴 개발 보급 지원, 국어 정보화 인력 양성, 21세기 세종계획 성과물 관리 및 정제 등의 사업이 포함되었다.

21세기 세종계획 사업 구성도
[그림 5-2] 21세기 세종계획 사업 구성도
21세기 세종계획 성과 발표회(2007. 12. 11.)
[그림 5-3] 21세기 세종계획 성과 발표회(2007. 12. 11.)

‘국어 정보 기반 구축 사업’에 속한 ‘국어 기초 자료 구축’은 ‘말뭉치’라고 하는 대규모 언어 자료를 구축하는 사업으로 문학작품, 신문 기사, 교양서적 등 각종 현대 국어 문어 자료를 가리키는 ‘기초 자료’와 구어 자료, 한영 또는 한일 대역 자료, 역사 자료, 북한 및 해외 한국어 자료 등을 가리키는 ‘특수 자료’로 나누어 구축되었다. ‘전자사전’은 다양한 용도의 전산 처리에 실질적으로 활용될 수 있도록 ‘체언, 용언, 복합어, 조사 어미’ 등의 전자사전을 개발하였다. ‘한민족 언어 정보화 분과’에서는 남북한 언어 비교 사전을 구축하고 남북한 언어 변환 프로그램, 남북한 방언 검색 프로그램, 어문 규범 검색 프로그램 등이 개발되었다. ‘전문 용어 정비’는 급속도로 일반화되고 있는 전문 용어를 정비하고 표준화함으로써 학계는 물론 일반 사회의 언어생활에 편의를 제공하기 위한 것이었다.
‘국어 정보화 여건 조성 사업’에 속한 ‘문자 코드 표준화 연구’에서는 한⋅중⋅일 한자 코드 표준화도 함께 진행하였으며, ‘글꼴 개발 보급 지원’을 통해 한글 글꼴 디자인에 대해 사회적인 관심이 일어났다. 또한 국어 정보화 분야의 인력을 양성하기 위하여 해마다 국어 정보화 아카데미를 개최하여 전문 인력을 양성하였다. 결과물 보급 관리는 1998년부터 시작한 21세기 세종계획의 중간 결과물, 최종 결과물을 효율적으로 관리하고 보급하는 것이다.
이러한 사업의 주요 실적을 살펴보면 ‘국어 기초 자료 구축’에서는 1998년부터 2006년까지 현대 국어 말뭉치 9,258만 어절, 국어 특수자료 3,288만 어절, 과거 국립국어원과 한국과학기술원의 말뭉치를 후처리한 7,500만 어절 등을 포함해 약 2억 46만 어절의 말뭉치를 구축하였다.

21세기 세종계획 누리집
[그림 5-4] 21세기 세종계획 누리집

또한 ‘전자사전 구축’에서는 품사별 하위 사전과 이것들을 통합한 통합 전자사전을 개발하였으며 이 사전은 하위 사전으로 체언 사전·용언 사전·연어 사전·특수어 사전·복합 명사구 사전·부사·관용 표현·어근/접사·고유명사 사전 등을 포함하고 있다. 통합 전자사전의 기반으로 기초 사전 45만 항목, 상세 사전 15만 항목을 구축하였다. 세종 전자사전은 사전 정보를 XML 방식으로 표상하여 현 상태 그대로 전산 프로그램에 활용될 수 있으며, 다른 유형의 데이터베이스 형태로도 쉽게 변환될 수 있다. 또한 세종 전자사전은 표상되는 각종 정보들이 고유명사, 전문용어, 방언, 북한어, 구어, 음성 사전 등의 위성 사전과 연계되도록 모듈화함으로써 확장성 및 기술적인 유연성을 강화하여 활용 가능성이 높도록 설계하였다.
한편, ‘한민족 언어 정보화’에서는 남북한 언어 이질화를 극복하고 국민의 언어생활에 도움이 되는 ‘어문 규정’, ‘남북한 언어 비교 사전’, ‘방언’, ‘국어 어휘의 역사’, ‘한국 전통문화 어휘’ 검색 프로그램을 개발하였다. 그리고 다양한 분야의 전문용어를 표준화하기 위하여 관련 분야 학회의 용어 심의를 거쳐 한·영 대응 목록 18만 건을 구축했고, 이들 단어에 대해 국어학적인 조어법 분석과 맞춤법·외래어 표기법 등을 검수하였으며 ‘문자 코드 표준화’에서는 ‘옛한글 표준화, 비표준 한자 표준화, 한자 정보 DB 구축’ 등의 사업을 전개하였다.
1998년부터 10년 동안 추진된 21세기 세종계획은 2007년 12월, ‘21세기 세종 계획 사업’ 성과 발표회를 개최함으로써 사업이 마무리되었다. 이 사업은 한글 정보화 사업의 첫 단추를 꿰었다고 할 수 있으며 이를 바탕으로 좀 더 수준 높은 국어 정보화 발전 계획이 필요하다고 평가할 수 있다. 성과물들은 시디(CD)와 디브이디(DVD)로 제작, 배포되었으며, 21세기 세종계획 누리집(www.sejong.or.kr)을 통해 말뭉치 용례 및 전자사전, 한민족언어정보화 검색이 가능하도록 시스템이 구축되어 있다

[표 5-1] 단위 사업별 추진 실적과 예산 (단위:백만원)
[표 5-1] 단위 사업별 추진 실적과 예산 (단위:백만원)
사업명 추진실적 투자액
국어 기초 자료 구축
  • 현대 국어, 역사 자료, 북한어 등 다양한 분야의 말뭉치 2억 어절 구축
  • 용례 추출기, 지능형 형태소 분석기 등 말뭉치 활용 도구 개발
5,174
전자사전 개발
  • 체언, 용언, 고유명사 등 약 57만 항목 구축
3,748
한민족 언어 정보화
  • 어문규정(맞춤법, 표준어 규정, 외래어/로마자 표기법) 검색 시스템 개발
  • 남북한 언어 비교 사전, 남한 및 북한 방언 검색 시스템, 국어 어휘 역사 검색 시스템 개발 등
1,656
전문용어 정비
  • 경제, 물리, 화학, 생물, 의학, 수학 분야 등 전문용어 목록 18만 항목 구축
  • 표준화를 위한 전문용어 목록의 국어학적 검토
799
국어정보화 여건 조성
(국어정보화 인력 양성, 비표준 문자 등록 지원, 글꼴 개발 보급 지원)
  • 국어정보화 아카데미(7회) 개설
  • 옛한글 및 한자 정보 데이터베이스 구축, 문자코드 표준화 연구 등
  • 한글 글꼴 용어 사전 편찬, 글꼴 현황 보고서 발간 등
1,583
기타
  • 21세기 세종계획 누리집 개발
  • 결과물 보급 센터 운영
  • 단계별 성과 발표회(2회)
  • 평가 및 감리
1,085
14,045