전자 사전은 왜 필요한가?


이승재(李承宰) / 국립국어연구원

사람은 태어날 때부터 가지고 있는 어휘에 관한 지식, 즉 머리 안에 들어 있는 어휘 사전을 기초 자료로 활용하여 말을 한다. 언어학에서는 이를 ‘어휘부(lexicon)’라고 하는데 컴퓨터가 사람의 말을 알아듣고 분석하기 위해서는 컴퓨터도 이러한 사전을 가지고 있어야 한다.

전자 사전에는 두 종류가 있어

“표준국어대사전”을 찾아보면 ‘전자 사전’에 대하여 다음과 같은 설명이 나와 있다.

전자 사전
① 사전의 내용을 종이가 아닌 디스켓과 같은 보조 기억 장치에 담은 전자 매체.
② 자연 언어 처리에서 컴퓨터 내부의 작업에 이용되는 사전.

①은 사람이 알아보기 쉽게 만들어진 사전을 이야기하는 것이고 ②는 사람의 말을 분석하기 위하여 컴퓨터가 알아보기 쉽게 만들어진 사전을 이야기하는 것이다. 즉 컴퓨터를 활용하여 만들어진 언어 사전과 컴퓨터에 필요한 언어 사전을 총칭하여 ‘전자 사전’이라고 하는 것이다.
   국립국어연구원에서는 1999년에 발간한 “표준국어대사전”을 시디롬 타이틀로 만드는 작업을 하고 있는데 이 사전은 종이 사전을 디지털 자료 형태로 바꾼 사전이다. ①은 바로 이와 같은 전자 사전을 말하는 것으로 이러한 사전을 전산학에서는 ‘기계 가독형 사전’(MRD: Machine Readable Dictionary)이라고 한다.
   그러나 문화관광부의 국어 정보화 중장기 사업인 21세기 세종 계획의 전자 사전 개발 분과에서 만들고 있는 전자 사전의 형태는 이와는 사뭇 다르다. 전자 사전 개발 분과에서는 컴퓨터가 언어 자료를 받아들여 이를 형태소별로 분석하거나 문장별로 분석할 때 컴퓨터가 참조해야 하는 사전을 만들고 있는데 이 사전은 사람보다는 컴퓨터가 알아보기 쉬운 형태로 만들어져 있다. ②는 바로 이러한 사전을 말하는 것으로 전산학에서는 이를 ‘기계 참조형 사전’(MTD: Machine Tractable Dictionary)이라 한다.

전자 사전은 정보 검색과 기계 번역 등에 필요해

기계 가독형 사전(MRD)은 컴퓨터에서 특정 단어를 검색하거나 특정 정보를 추출하기 위한 일반적인 용도로 많이 쓰인다. 국어사전에서 명사 목록을 뽑아 보거나 뜻풀이 부분에 특정 단어가 사용된 표제항을 찾아보려 할 때 기계 가독형 사전은 아주 유용하게 쓰일 수 있다.
   기계 참조형 사전(MTD)은 맞춤법 검사, 형태소 분석, 기계 번역 등을 하기 위하여 쓰이는데 여기에 들어가는 정보는 컴퓨터가 알 수 있는 정보여야 한다. 그래서 일반적으로 국어사전에 들어가는 뜻풀이 정보는 기계 참조형 사전에 들어가지 않는다. 왜냐하면 기계 참조형 사전은 문장의 뜻을 해석하지 못하는 컴퓨터가 문장의 뜻을 해석할 수 있도록 하기 위하여 만드는 사전이기 때문에 분석해야 할 대상이 되는 완결된 문장 그 자체는 기계 참조형 사전의 내용으로 들어갈 필요가 없는 것이다. 즉 컴퓨터가 문장을 분석하여 문장의 뜻을 만들어 내기 위해서는 기계 참조형 사전의 도움을 받아야 하는데 이러한 사전 안에 컴퓨터가 사전의 도움을 받아 분석을 끝내야만 뜻을 알 수 있는 완결된 문장이 들어가 있는 것은 아무런 의미가 없는 것이다.
   우리가 일반적으로 관심을 가지고 있는 전자 사전은 기계 가독형 사전이다. 그러나 기계 가독형 사전 못지 않게 중요한 것이 기계 참조형 사전이다. 기계 가독형 사전이 사람의 편의를 위한 것이라면 기계 참조형 사전은 컴퓨터의 성능이나 언어 처리 능력의 향상을 위한 것이다.