2006년도 국어학의 주요 일지
음성학·음운론 연구 동향 논저 목록
형태론 연구 동향 논저 목록
통사론 연구 동향 논저 목록
어휘론·의미론 연구 동향 논저 목록
국어정보학·사전학

연구 동향

국어(학)사·계통론 연구 동향 논저 목록
국어 정책 논저 목록
국어 교육  논저 목록
한국어 교육 논저 목록
문자·표기 논저 목록
사회언어학 논저 목록
방언 논저 목록
사전학 논저 목록
국어정보학 논저 목록
정기 간행물 목록 논저 목록
국어정책·사회언어학
국어 교육
한국어 교육
여론과 쟁점
남북의 규범어와
≪겨레말큰사전≫
국립국어원 동향
  Ⅱ. 국어 분야별 동향
 국어정보학 · 사전학
남 길 일 / 경북대학교
  1. 머리말

  이 글은 2006년도에 이루어진 ‘국어정보학’과 ‘사전학’ 분야의 연구 성과와 동향을 정리하는 데 목적이 있다. ‘국어’가 정보기술(IT) 분야의 중요한 연구 대상으로 인식되기 시작한 이후, 인접 학문 간의 학제적 분야로서 국어정보학, 사전학에 대한 연구가 날로 증가하고 있다. 이러한 연구 동향에 발맞추어 이번 연감에서는 ‘국어정보학’ 분야를 새로이 추가하고 지금까지의 연감에서 어휘론·의미론·사전편찬학의 일부로 기술되었던 ‘사전편찬학’을 ‘사전학’으로 독립시켜 함께 기술하게 되었다. 
  본격적인 논의에 앞서, 이 글의 구성 방식에 대해 다음 몇 가지 사항을 밝히고자 한다. 첫째, 사전이 언어 정보의 구조화된 집합체이며 사전편찬 과정 역시 대량의 언어 자료의 활용과 언어처리를 전제한다는 점에서 사전학은 국어정보학의 한 하위 분야라고 할 수 있다. 그럼에도 불구하고 이 글에서는 논의의 편의를 위해 국어정보학(2장)과 사전학(3장)을 장을 달리하여 기술하기로 한다. 이때 기계가독형 어휘부로서의 전자사전(Machine Readable Dictionary, Machine Readable Lexicon) 관련 주제들은 국어정보학 분야에서, 사전 단행본에 대한 소개나 인쇄사전(Book Dictionary) 및 시디롬·온라인 전자사전(Machine Readable Dictionary) 관련 연구는 사전학에서 논의할 것이다. 
  한편 이러한 구분에도 불구하고 어떤 논저들은 연구의 목적과 대상에 따라 양 분야 모두에서 언급이 필요한 경우도 있는데 이 경우에는 연구 목적과 대상, 연구 의의를 고려하여 한 분야에서만 비중을 두어 소개하고 다른 분야에서는 간략한 연구 목록만을 언급하는 방식을 취하고자 한다. 
  둘째, 국어정보학 및 사전학 관련 연구는 다른 국어학 연구 분야와 달리 국어학 외에도 공학, 정보학 등 인접 분야에서도 활발히 연구되고 있는 분야이다. 따라서 이 글에서는 국어학 분야뿐만 아니라 공학, 정보학 등 인접 연구 분야의 논저도 포괄적으로 소개하고자 한다. 단 공학, 정보학 분야의 논저들을 국내 주요 학회 논문집에 한하여 소개하는 것은 필자의 능력의 한계에 기인하는 것이다. 
  마지막으로 국어정보학이나 사전학 연구가 국어학 내 다른 연구 분야와 인접하고 있는 경우에 대한 언급도 필요하다. 이 글에서는 통사론, 형태론, 텍스트언어학, 한국어교육학 분야 등의 연구가 국어정보학적 방법론을 활용한 연구일 경우, 이들을 국어정보학의 하위 분야로서 말뭉치언어학 내에 포함시켜 소개할 것이다.



  2. 국어정보학

  여기서는 국어정보학 분야 논저를 말뭉치언어학 분야(2.1)와 자연언어처리 분야(2.2)로 구분하여 살펴보고자 한다. 말뭉치언어학 분야는 말뭉치를 활용한 통사, 형태, 어휘 범주 등에 대한 계량적 연구와 질적 연구를 포함하며, 자연언어처리 분야는 자연언어처리를 위한 기반 자료 구축과 응용 시스템 개발 부분으로 구성된다. 또한 국어정보학의 주요 분야로서 이 두 분야 외에 개론적 성격이 짙은 국어정보학의 일반론이나 정체성, 학문적 연구 동향 등과 관련한 기타 논의들을 별도의 절(2.3)에서 소개할 것이다.

    2.1. 말뭉치언어학

  말뭉치언어학적 방법론을 활용한 연구로 통사 분야의 연구는 “구문분석 말뭉치를 이용한 한국어 문형 연구”(신서인)를 들 수 있다. 이 연구에서는 구문분석 말뭉치를 활용하여 21세기 세종계획에서 구축된 57만 어절의 문어 텍스트를 대상으로 자동으로 문형을 추출하여 실제 문형의 실현 양상을 분석하였다. 이를 통하여 조사가 생략되는 등 실제 문장에서 추출한 문형은 규범적인 문형과 차이가 있음을 확인하였으며 문형과 용언의 의미 간에도 일정한 관련성이 있다는 것을 밝혔다. 또한 문형의 변이 양상을 살펴봄으로써 조사가 주로 생략되는 문장성분이 ‘주어>목적어’ 순에 의하고 논항의 생략이 빈번할수록 조사의 생략이 드물다는 것, 논항의 필수성과 논항의 의미역이 어순의 변이에 영향을 미친다는 것 등을 논의하였다. 
  “텍스트 장르에 따른 문장 확대 양상 연구 -학술개론서와 학술강의 텍스트를 중심으로”(남길임), “말뭉치 기반 국어 분열문 연구”(남길임)는 형태 분석 말뭉치를 분석함으로써 국어 통사 현상을 분석한 연구이다. 전자의 경우는 제보 텍스트로서의 공통성을 지닌 학술개론서(문어)와 대학 강의 전사 말뭉치(구어) 각각 5만여 어절씩을 주요 분석 대상으로 하여 문어와 구어에서 각각 달리 나타나는 문장 유형, 문장 확대의 양상을 분석·비교함으로써 텍스트에 따라 선호되는 텍스트 전개의 양상이 있음을 밝히고자 하였다. 이에 따르면 통사적 관점에서 텍스트의 복잡성은 텍스트를 구성하는 문장의 어절 수가 아닌 통사적 구조를 기준으로 분석되어야 하며, 이는 문장 내의 절 표지의 수와 절 구성을 통해 계량적으로 분석될 수 있다. 또한 후자, “말뭉치 기반 국어 분열문 연구”(남길임)에서는 국어 분열문의 개념을 통사 구조와 형태 분석 표지를 중심으로 정의하고, 문어·구어 형태 분석말뭉치에 나타나는 분열문의 계량적 특성과 질적 특성들을 비교·분석하였다. 
  어휘 분야의 연구로는 “한국어 어휘 교육·학습 자료 개발을 위한 계량적 분석의 한 방향 -어휘 빈도 조사 방법의 개선을 위하여”(한영균)를 들 수 있다. 이 연구에서는 말뭉치 분석 결과로서의 어휘 빈도 정보가 가지고 있는 문제점을 기존 연구 사례 분석을 통해 제시하고 이에 대한 해결 방안으로서 단어족 개념에 바탕을 둔 어휘 빈도 조사, 즉 단어족 빈도를 활용하는 조사가 효과적이라는 것을 주장하였다. 여기서의 ‘단어족’은 ‘문화성, 문화적, 문화화, 이문화’ 등과 같이 의미적으로 유연성을 지니는 일련의 단어 집합을 의미한다. 
  “한국어 어휘의 교육용 시소러스 개발 방향 연구”(조형일)에서는 온톨로지 환경의 어휘 분류 관점에서 시소러스 개발의 필요성을 논의하고, 한국어 시소러스 연구 현황과 구축 사례를 소개하고 있다. 이를 통해 필자는 한국어교육에서 필요한 한국어 어휘 시소러스의 개발 시 품사, 의미관계, 문법 정보, 화용 정보 등의 분류자가 명시된 어휘 정보의 총체로서 한국어 교육용 시소러스의 개발 필요성을 논의하였다. 
  어휘 분야의 연구로 어휘·문법적 관점에서 출발한 개념인 ‘패턴’과 관련한 연구도 있었다. “‘아니다’의 패턴 연구-말뭉치 문맥색인(concordance)을 중심으로”(남길임)에서는 문어·구어 말뭉치에 나타난 문맥색인을 중심으로 ‘아니다’의 어휘 기술을 시도하였다. 여기서는 한 어휘와 일정하게 조합되는 구조로서의 ‘패턴(pattern)’의 개념이 응용언어학적 유용성과 문법·의미의 상호 작용 관계를 명시하는 데 유용함을 지적하고, 패턴을 ‘중심어와 함께 빈번하게 자주 나타나는 조사, 어미 등의 문법 요소로 구성되며 그 구성 내에 빈칸을 가지는 구조적 단위’로 정의하고 있다. 이러한 정의를 기반으로 ‘아니다’의 말뭉치 용례를 분석한 결과 ‘아니다’는 ‘~가 아니면, -거나/-든지/-ㄹ지 아니면 ~’ 등을 포함한 10개의 패턴으로 기술된다.
  “지시 해석을 위한 ‘것’의 식별과 쓰임에 관한 연구”(조은경·이민행), “지시 해석을 위한 ‘그것’의 쓰임에 관한 연구”(조은경·서상규·서정연)는 자연언어처리에서의 지시 해석(reference resolution)과 관련한 연구이다. 전자에서는 지시 해석을 필요로 하는 ‘것’, 후자에서는 ‘그것’의 용례를 말뭉치에서 추출하여 지시 해석에 따른 유형을 분류하였다. 대표적으로 전자의 경우 약 5만 어절 가량의 대화말뭉치를 분석함으로써 ‘것’의 쓰임을 “비지시적인 ‘것’”과 “지시적인 ‘것’”으로 구분하고 후자의 경우 지시 대상의 해석 유형에 따라 고정 표현 및 고정 지시, 인접 지시, 비인접 지시, 임의 대상 및 후행 지시로 분류하고 있다. 이러한 분석을 통해 이 연구는 언어처리에 있어서 지시 해석의 효율성을 높일 수 있는 기초 연구를 수행하고자 하였다.
  또한 “코퍼스언어학적 관점에서 본 의미의 본질”(김진해)에서는 의미론적 관점에서 말뭉치언어학이 의미론 연구와 관련하여 가지는 함의를 논의하였다. 필자는 담화공동체 속에서 실현되는 어휘의 용법과 다시쓰기를 의미의 중요한 본질로 지적하고, 코퍼스언어학이 언어학적 주장의 객관성이나 용례 제시의 보조적인 기능을 넘어서 향후 의미 연구에 대한 새로운 패러다임을 제공하는 것이라 하였다. “말뭉치에 기반한 공간 명사의 의미 변화 연구”(김한샘), “은유 연구의 회고와 전망: 코퍼스를 이용한 은유 표현의 추출과 어휘데이터베이스”(최운호·강범모·차재은) 역시 의미론적 관점에서 말뭉치를 활용한 연구들이다. 
  이외에도 다양한 주제의 말뭉치언어학 관련 연구들이 진행되었다. 말뭉치 구축 프로그램 개발과 관련한 연구, 학습자 말뭉치나 역사 말뭉치를 활용한 연구, 소설에 나타난 방언에 대한 연구 등이 그것이다. 말뭉치 구축이나 주석 프로그램을 소개하는 연구로 “방언 음성 자료의 전산처리 방안에 대한 연구”(소강춘), “독립신문 어휘색인 작업과정에 이용된 형태주석 편집도구의 활용 전망”(송길룡) 등이 있는데, 전자는 국어학적 관점에서 방언 음성 자료를 효과적으로 전사할 수 있는 프로그램(메아리 1.0)의 구성과 기능, 전사 자료의 활용 방안을 소개한 연구이며, 후자는 필자가 개발한 역사 말뭉치의 형태 주석과 어휘 색인에 활용되는 프로그램(매김틀)의 기능과 확장 가능성을 제시한 논문이다. 
  “신소설 말뭉치와 깜짝새 프로그램 활용을 통한 최근세국어 문법의 연구 방안”(김남돈), “學習者 말뭉치에 기반한 國語知識의 計量的 硏究 方案-초등학교 일기 말뭉치에서 조사를 중심으로”(김남돈)는 각각 역사말뭉치와 학습자말뭉치를 활용한 문법 기술을 시도한 연구이다. 후자의 경우 국어 학습자 말뭉치 구축 방안과 깜짝새 등의 프로그램을 활용한 조사 추출 과정을 제시하고 이를 통해 초등학교 어린이의 조사 사용 실태와 계량적 특성을 밝히고 있다. 이 연구에서는 4만 5천 어절 규모의 실험 말뭉치를 대상으로 한 이 연구의 분석 결과 147개 조사 종류를 산출하였고 이를 균형말뭉치와 비교·분석하였다. 한편 “한국어 학습자 말뭉치 오류 표지 방안 재고”(이승연)는 외국어로서 한국어교육 분야에서의 오류말뭉치 관련 연구로, 기존의 한국어 학습자 오류 말뭉치의 오류 유형 분류 체계를 개괄적으로 살펴본 다음 학습자의 어휘·문법·담화 차원의 오류를 반영한 오류 말뭉치 구성 방안에 대해 논의하였다. 
  그밖에 문학작품 말뭉치를 활용하여 작품에 나타난 방언을 계량적으로 분석한 연구로 “조정래 소설 아리랑에 나타난 전북방언의 계량언어학적 연구: 음운현상을 중심으로”(김귀복)와 “박경리 소설 『토지』에 나타난 서부 경남 방언의 계량언어학적 연구: 음운현상을 중심으로”(박미경) 등의 학위논문을 들 수 있다.
    2.2. 자연언어처리

      2.2.1. 자연언어처리를 위한 기반 자료 구축
자연언어처리를 위한 구문 정보 및 의미 정보 구축을 위한 기반 작업들이 온톨로지(ontology), 어휘의미망 구축을 중심으로 활발하게 이루어졌다. 
  “한국어 부정표현의 형식화와 온톨로지 변환”(송도규)은 한국어 부정 문형을 ‘A는 B가 아니다, A는 B하지 않는다’ 등의 네 가지 형식으로 나누고 각 문형을 논리 언어로 형식화함으로써 온톨로지로 자동 변환하는 알고리듬을 제시하고자 하였다. “한국어 양화표현의 형식화와 온톨로지 변환”(송도규) 역시 논리언어와 형식언어를 적용하여 한국어 양화표현을 변환하는 알고리듬을 제시하고 있다. 이 두 연구는 자연언어가 가진 의미의 형식화를 통해 지식기술 텍스트가 담고 있는 의미를 컴퓨터가 직접 이해하고 추론, 처리할 수 있는 기반 자료 구축을 위한 연구의 특성을 가진다. 
  “자연언어처리를 위한 구문·의미 정보 구축 -날씨어휘장의 {비}를 중심으로”(박건숙)는 날씨 어휘장에서 사용빈도가 높은 어휘 항목을 대상으로 각 어휘 항목의 구문 결합 양상을 분석하여 자연언어처리에 활용할 수 있는 구문 정보와 의미 정보를 구축하는 방법을 제시하였다. 일기예보 텍스트에 나타난 ‘기상현상’이라는 어휘장 속에서 ‘비’의 구문 및 의미 정보를 구축하고 이와 함께 나타나는 선·후행 요소를 분석하였는데 이러한 정보가 자연언어처리 과정에서 어떻게 이용될 수 있는지를 구문 분석과 정보 검색 과정을 통해서 기술하고 있다. 
  어휘의미망 구축과 관련한 논저 중에는 사전정의문의 패턴을 활용한 인쇄사전의 재활용과 관련된 논의도 있었다. “동사 어휘의미망의 반자동 구축을 위한 사전정의문의 중심어 추출”(김혜경·윤애선)에서는 사전정의문을 이용하여 서술성명사와 기능동사 쌍을 중심으로 명사와 동사를 통합할 수 있는 어휘의미망을 구축하고자 하였다. 이때의 동사 어휘의미망은 사전정의문의 중심어(head word) 개념을 통해 반자동으로 구축되며 중심어는 명사의 경우 사전정의문에 포함된 상위어에, 동사의 경우는 풀이말에 대응된다. 중심어의 추출은 사전정의문의 형태적 제약 정보나 필수격 논항 정보를 활용함으로써 추출되는데 이러한 정보를 활용하는 몇 가지 규칙과 준거를 명시하고 있다. 
  또한 자연언어처리를 위한 어절 사전이나 의존명사, 용언 등의 하위 전자사전 구축과 관련한 연구도 다양하게 진행되었다. “한국어 형태론적 중의 어절 사전 구축과 표제어 선정”(유혜원·남경환·홍종선)은 한국어 정보처리를 위한 한국어 중의 어절 사전 구축을 위한 방법론을 중의 어절 사전 표제어 선정을 중심으로 논의하고 있다. 이 연구에서는 표제어 선정 절차로서, 형태분석 말뭉치를 활용하여 둘 이상의 서로 다른 형태소 분석 결과로 나타나는 어절 전체를 추출하고, 중의성 유형에 따라 품사 범주 중 대범주의 차이를 보이는 어절들을 대상으로 표제어를 선정하는 절차를 제시하고 있다.
  “한국어 의존명사 전자사전 어휘부 구성을 위한 연구”(남지순), “한국어 명사구성비자립어(NXF) 전자사전 데이터베이스 구축을 위한 논의”(남지순) 역시 자연언어처리를 위한 전자사전 구축과 관련한 연구이다. 두 연구에서는 각각 한국어 전체 어휘 부류에 대한 전자사전을 구현하는 작업의 일환으로 의존명사와 명사구성비자립어에 대한 체계적인 데이터베이스 구축을 위한 유형 분류를 제공하였다.
  “전산학적 응용을 위한 한국어 용언 위계 구축”(김종복·임경섭·이주원)에서는 잉여성을 최소화한 효율적인 용언 어휘부 구축에 대해 논의하고 있다. 이때의 잉여성이란 동사의 하위범주화 정보 등과 같이 어휘 요소가 다른 어휘 요소와 공유하는 정보에서 생기는 수직적 잉여성과 어휘요소의 굴절이나 파생 관계에서 나타나는 수평적 잉여성을 말한다. 특히 이 논문에서는 수직적 잉여성에 초점을 두고 형태·통사적 기준을 통해 용언의 하위 유형을 구분하였는데, 실제 이러한 연구 결과가 한국어 구문분석기 구축의 사전부에 적용되어 실효성이 있다는 것을 언급하였다. 

      2.2.2. 자연언어처리 및 응용 시스템 개발
자연언어처리 및 응용 시스템 개발과 관련한 연구는 주로 전문용어 자동 추출이나 핵심어·상위어 판별 시스템, 기계번역 시스템 등을 중심으로 다양하게 논의되었다. 
  “기계학습에 기반한 생의학분야 전문용어의 자동인식”(오종훈, 최기선)에서는 이상적인 전문용어 인식 기법은 용어 목록에 대한 올바른 순위화와 이를 통한 전문용어와 비전문용어 간의 경계 정보 제공이라고 하면서 이를 위한 전문용어 자동인식 기법을 제안하였다. 이 연구에서는 단순 통계적 정보만 사용하는 기존 연구에 대한 대안으로서 다양한 전문용어의 특징을 파악하고 이진분류 기계학습에 기반한 전문용어 선택 기법을 제안하였는데, 이를 통해 순위화의 문제와 전문용어와 비전문용어 간의 경계 인식 문제를 해결한다고 주장하였다.
  “MeSH 시소러스를 이용한 한영 교차언어 키워드 자동부여”(이재성·김미숙·오영순·이영성)는 한국어로 작성된 논문의 요약에서 통제된 영어 키워드, 특히 MeSH(Medical Subject Heading) 키워드를 자동으로 추출하는 일반적인 과정을 제안하였다. 이 과정에서 특히 한국어 키워드 추출의 성능을 높이기 위한 띄어쓰기 변이 처리 방법을 제시하면서 이러한 키워드 자동 부여 프로그램이 색인 전문가나 저자의 능력과 어떤 차이가 있는지를 통계적으로 검증하였다. 
  “기계가독형사전에서 상위어 판별을 위한 규칙 학습”(최선화·박혁로)은 사전 정의문에 포함된 각 명사의 문장 내 위치, 부착된 조사 및 어미, 명사의 문맥 정보 등 상위어 판별을 위한 구문적 특성들을 활용하여 상위어 판별 규칙 학습시스템을 개발하였다. 이 연구에서는 시소러스와 전자사전의 정의문을 선택하여 실험한 결과 구문 특징을 이용한 상위어 판별 결과가 기존 연구의 어휘패턴 중심의 상위어 추출 결과보다 정확도가 높다고 하였다.
  “‘단어-의미, 의미-단어’ 관계에 기반한 번역어 선택”(이현아)에서는 원시언어와 목적언어의 단어-단어 대응 관계에 기반한 기계번역 방식의 문제를 지적하고, 원시언어의 의미를 반영하면서 자연스러운 목적언어를 구성하는 단어를 선택할 수 있는 방안으로 원시단어의 의미와 그 의미에 대응하는 목적 언어의 단어 관계에 기반한 번역어 선택 과정을 제시하였다. 이 과정은 우선 번역 예문에서 문맥 정보나 공기 정보를 이용한 의미 선호도를 분석함으로써 의미를 분별하고, 목적 단어간의 공기 빈도를 이용하여 단어를 선택함으로써 최종적인 번역어 선택에 이르는 방법이다. 
  “한영 기계번역 시스템의 다의 정보 처리에 대하여”(이동혁)에서는 다의 형태 ‘굽’을 중심으로 기계번역 과정에서 문제가 되는 ‘다의성’의 개념, 다의어 정보의 저장·처리 과정을 논의한 연구이다. 이를 위해 기계 처리에 적용되는 다의어와 동형어의 구분 기준을 제시하고 기계 처리에서의 의미 분절 과정을 한영 기계번역 시스템을 중심으로 살펴보았다. 또한 논문의 마지막에서는 실제 시스템에서의 다의성 해소 알고리듬의 예를 ‘굽’을 통해 보이고 있다. 
  “자연언어 문장의 자동 변환을 위한 수화 표현의 언어학적 특성 분석”(최지원·장은영·이희진·박종철)은 자연언어를 수화로 변환하여 자연언어문장으로부터 수화 애니메이션을 자동생성하기 위한 기초 연구이다. 이를 위해 수화를 음성언어와 독립적인 언어로 인지하고 시각적인 언어로서의 특징을 고려하여 한국어 문장을 수화로 변환할 때 나타나는 여러 현상들을 수화의 표현 공간과 어순에 초점을 맞추어 분석하였다. 

    2.3. 기타 국어정보학 일반

  기타 국어정보학 일반에 대한 개론적 논의와 지금까지의 국어정보학의 성과와 현황을 점검한 논의들도 다수 있었다. <한국어와 정보>(황화상)는 한국어 정보 처리의 관점에서 자연언어처리의 개념을 소개한 개론서로, 정보 사회에서 언어의 역할, 정보 처리를 위한 컴퓨터 활용의 의의 등을 논의하면서 한국어 정보 처리와 자연언어 처리에 대해 개괄적으로 소개하고, 한국어 형태소 분석, 한국어 구문 분석의 과정 및 방법론을 제시하였다. 또한 국어정보학 관련 논저로 <응용국어학의 탐구>(시정곤)은 국어정보학, 한국어교육 분야를 포함하는 저자의 응용언어학 관련 논문들을 모아 엮은 것인데, 국어정보학 부분에서 어휘망 관련 연구와 전문용어 등에 대한 논문 6편을 제시하고 있다.
  “국어국문학의 정보화 수용에 대한 논의의 반성과 전망”(이태영)은 말뭉치 구축, 사전편찬, 21세기 세종계획 등 최근 20여 년간의 국어국문학계의 정보화 사업을 소개하고, 국어학 및 국문학에서 진행되고 있는 정보화의 현황을 자료 구축과 강의를 중심으로 제시하였다. 이 연구에서는 국어국문학의 정보화가 진행된 지 20년이 지났으나 아직 충분히 저변이 확대되지 못하였다고 주장하면서, 현재 시급한 과제로 정보화 인력 양성과 자연언어처리용 주석말뭉치 구축을 들고 있다. 
  “자연언어처리와 국어 연구”(박진호) 역시 국어학 연구가 자연언어처리와 가지는 관련성 및 실용적으로 활용할 수 있는 국어학 연구의 효용성을 개괄적으로 살펴보고 있는데, 자연언어처리의 형태 분석, 구문 분석, 단어 의미 중의성 해소 등의 분야에서 국어학적 연구가 적용되는 경우를 실제의 예를 통해 소개하였다. 또한 이러한 결과물이 실제 인간이 가지는 언어학적 메커니즘을 기계적 차원으로 적용하여 음성합성, 음성인식, 자동 문서 분류 등의 응용 학문에 활용될 수 있다고 하였다. 
  마지막으로 “남북 IT교류”라는 특집 주제 하에 정보처리학회지에서는 “남북정보기술 용어표준”(최기선·변정용·신효식·옥철영), “한글·조선글 문자부호표준 개선방안”(변정용), “전문용어 표준화의 원칙과 평가기준”(리수락), “남북 국어정보기술 표준안개발의 과제”(정희성) 등의 논문들이 발표되었다. 이들은 남북한의 문자부호 체계의 차이점, 어문체계의 자모순서, 전문용어 표준화 등과 관련한 논문들로, 모두 남북의 국어 정보 처리 표준 기술에 대한 논의를 주제로 하고 있다. 



  3. 사전학(Lexicography)

  여기서는 사전학 분야를 다음 세 가지 분야로 구분하여 논의할 것이다. 첫째, 실제 참고 저작물(reference work)로서의 각종 사전단행본(3.1), 둘째, 사전편찬 과정에서의 실제적인 쟁점들을 주제로 한 사전편찬학(lexicography) 관련 논저(3.2), 마지막으로 기존 사전에 대한 비평이나 사전 구조에 대한 이론적인 연구를 포함하는 사전학의 이론적인 논의들을 다룬 이론사전학(lexicography)(3.3)이다. 

    3.1. 사전단행본

  <(외국인을 위한)한국어 학습 사전>(서상규·백봉자·강현화·김홍범·남길임·유현경·정희정·한송화), <외국어로서의 한국어 문법 사전>(개정판)(백봉자), <Korean picture dictionary>(강현화)는 모두 외국인 학습자를 위한 사전이다. <(외국인을 위한)한국어 학습 사전>(서상규 외)은 한국어의 약 80%를 이해하는 데 필수적인 약 5000여 개의 기본 어휘로 구성되는데 여기에는 구어를 비롯한 일상생활 어휘, 문화어 등도 포함된다. 이 사전을 특히 각종 기관의 한국어교재와 한국어교육 말뭉치를 활용하여 표제어를 선정하고 각종 사전 정보를 기술했다는 데 의의가 있으며, 외국인 학습자를 위해 활용 및 곡용의 발음 정보, 문형정보, 관용표현, 연어 정보 등을 풍부하게 제시하고 있다는 점에서 기존의 사전과 변별된다. 또한 <외국어로서의 한국어 문법 사전(개정판)>은 <외국어로서의 한국어 문법 사전>(2000)의 개정판으로 한국어교육현장에서 중요하게 다루고 있는 한국어 문법 일반과 한국어 문법 형태를 사전 형식으로 배열한 것이다. 이와 함께 초급 학습자를 대상으로 한 <Korean picture dictionary>(강현화)는 기초 생활 한국어 어휘를 그림으로 보인 사전으로 ‘일상, 사람들, 의복, 음식’ 등 13개의 주제에 따라 그림으로 보여 주고, 영어, 중국어, 일본어 번역도 함께 제시하고 있다. 
  한편 <(풍부한 관용구를 수록한)어미·조사 사전: 한국어 학습 학습자용>(이희자·이종희)은 사용자 범위가 한국어 학습자를 넘어서는 사전이다. 이 사전은 국어 문법의 이해에 핵심적인 부분을 차지하는 어미와 조사를 주요 대상으로 하여 이들을 포함한 관용구·준꼴 등 900여 개의 표제어를 제시하고 있는데, 사용자 대상은 “국어문법 중 어미 조사부분에 흥미를 느끼는 학생 일반인 연구자부터 특히 외국어로서의 한국어 교사에게까지 사용가능한 사전”이라고 명시하고 있다.
  <입에 익은 우리 익은말: 글쓰기에 좋은 말글 사전>(김준영), <우리말글쓰기 연관어대사전:상, 하>(김일성종합대학 교수진)는 저작의 제목에 ‘글쓰기’를 명시하고 있다는 점에서 공통점이 있다. 이 중 <입에 익은 우리 익은말: 글쓰기에 좋은 말글 사전>은 속담이나 관용어 사전의 일종이다. 표제어는 주로 오랜 세월 동안 구전되면서 입에 익은 말들 중 재미있고 유용한 표현들을 모아 정리한 것이며, 속담, 관용표현, 유용한 어휘류 등을 포괄한다. 예를 들어 ‘가는 말이 고와야 오는 말도 곱다’와 같은 쉬운 속담부터 ‘강감찬이 번갯칼 꺾듯 한다’와 같은 다소 생소한 속담을 포함하고 있으며, ‘효불효, 황고집’ 등의 유용하고 재미있는 어휘류들도 표제어로 등재하고 있다. 한편 <우리말글쓰기 연관어대사전:상, 하>(김일성종합대학 교수진 외)는 표제어의 뜻풀이를 포함한 사전적 기술 외에 표제어와 연관된 문학적 표현을 제시하여 우리말 어휘들의 다양한 활용 방법을 보이고 있다. 
  역사사전으로서 고대 한국어 차자표기 자료에 사용된 용자를 표제어로 삼아 그 용례를 모은 <고대 한국어 차자표기 용자 사전>(이은규)과 1948년에 출판된 <朝鮮 古語 方言 辭典>을 복간한 <조선고어방언사전>(정태진·김병제)도 출판되었다. 고대 한국어 차자표기 용자 사전 경우 차자표기에 쓰인 용자가 어떤 문헌에 나오고 어떤 환경에 나타나는지를 쉽게 알 수 있고, 문헌별로 어떤 공통점과 차이점을 보이는지 비교할 수 있도록 구성하였다. 또한 해당 용례를 출전을 제시하여 원문을 쉽게 찾아볼 수 있게 하였다.
  그밖에도 <작가들이 결딴낸 우리말: 우리말 분류 소사전>(권오운), <우리말의 뿌리를 찾아서: 한국어 어원 사전>(백문식), <우리말 부사 사전>(백문식), <우리말 색이름 사전>(한국색채연구소 편) 등은 최근 국내 사전 편찬의 다양성을 보여 준다. 



    3.2. 사전편찬학

      3.2.1. 표제어 선정과 미시구조의 기술
우선, 거시구조와 관련한 연구 중 대표적인 논문으로는 박사학위청구논문으로 “국어사전에서의 구어 어휘 선정과 기술 방안 연구” (안의정)를 들 수 있다. 이 연구는 통계적 기법을 활용하여 말뭉치를 분석함으로써 사전에서의 구어 표제어를 선정하고 기술하는 방법을 연구한 논문이다. 이에 따르면 지금까지 국내 사전 편찬에서 구어 말뭉치를 활용한 시도가 없었으므로, 잘 구성된 구어 말뭉치를 계량적으로 분석함으로써 구어 표제어를 확충할 필요가 있다. 여기서 구어 표제어 추출 방법은 비교 대상 말뭉치 간의 유의미성을 검증하는 데 사용되는 G2값을 기준으로 하는데, 이때 G2값은 구어·문어 말뭉치의 어형별 빈도 목록을 비교하여 구어성 점수를 산출하는 데 객관적인 수치를 제공한다. 또한 이 논문에서는 구어 표제어와 가표제어 외에 미시구조 항목에서 기술되어야 할 구어의 특성에 관한 정보도 함께 다루고 있다. 
  “구어 어휘의 사전 기술 방법 -담화표지를 중심으로-”(전영옥) 역시 구어의 사전 기술 방법을 밝힌 논문이다. 이 연구에서는 현재의 사전이 표제어 선정과 미시구조의 의미 기술 방법 모두에서 구어의 쓰임을 충실하게 기술하지 못했음을 비판하면서 담화표지를 중심으로 사전 기술 방법을 제안하고 있다. 이에 따르면 어휘 부류나 구 표현으로서의 담화표지가 구어 전사 말뭉치의 분석을 통해 사전의 새로운 표제어로서 선정되어야 하며, 기존 사전의 표제어로 기술되어 있는 ‘아, 어, 응, 음’ 등의 감탄사류 역시 구어 말뭉치에 나타난 구어의 사용 의미를 분석함으로써 의미 기술이 보완되어야 한다. 
  “국어 중사전의 전문어 표제어 선정에 대하여 -역사전문어를 중심으로”(김양진)는 ‘중사전’ 내의 전문용어표제어의 선정 기준에 대한 연구이다. 여기서 중사전은 ‘휴대가능한 규모로 해당 언어의 필수적인 단어를 모두 담고 있는 사전’으로 규정되며 표제어는 ‘현대어’로 한정된다. 이때 교육목적과 교양적 필요 등의 요건에 의해 중사전의 표제어에는 일상화된 전문어를 포함하게 되는데 역사전문어의 경우 표제어의 선정 여부는 일반인의 이해도와 밀접히 관련된다. 즉, 이에 따르면 ‘문예부흥, 명예혁명, 보불전쟁’ 등은 현대어로 인정받은 상태에서 사용빈도나 검색빈도 등의 요건을 고려하여 중사전의 표제어로 선정되지만 ‘전옥서, 승지, 안찰사’ 등은 교육적 목적이나 교양적 필요가 있는 경우가 아니라면 선정될 필요가 없다.
  다음으로 미시구조 기술과 관련한 논문으로 “국어대사전의 새로운 발음정보 처리 방법에 대하여”(김선철)은 한국 표준어의 실제 모습을 제시하는 기술적 언어사전의 관점에서 이상적인 발음정보의 기술 방안에 대해 논의하였다. 그는 향후 전자사전이라는 사전 매체의 변화를 염두에 둘 때, 경제성과 사용자의 편의성을 고려해야 한다고 하면서 (1) 발음기호의 종류, (2) 굴절형의 발음, (3) 음장의 표시, (4) 표기 대상이 아닌 어형에 대한 배려의 관점에서 발음정보의 처리 방안을 논의하였다. 
  “외국인을 위한 한국어 학습 사전에서의 어휘 기술 방법론 연구 -시간표현을 중심으로”(남길임) 역시 미시구조의 참고상자 기술과 관련한 논문으로 한국어의 시간 명사 ‘해, 달, 월, 계절’ 등을 중심으로 어휘 기술 방법론을 살펴본 연구이다. 이 연구에서는 오류말뭉치에 나타난 한국어 학습자들의 시간 표현 관련 오류를 분석하고 한국어 교재 말뭉치를 분석함으로써 해당 표현의 사전 기술에 있어서 계열 관계와 통합 관계를 제시하는 방법론을 기술하였다. 이에 따르면 ‘참고상자(usage note)'는 표제항 중심의 사전 구조에서 어휘 이상의 구 표현과 계열 관계 정보를 효율적으로 제시할 수 있는 정보항목으로 기능하며, 이러한 정보는 학습자의 표현적 지식을 증가시키는 데 유용하다.
  “중세국어 심리 형용사의 사전 기술에 대하여”(이영경), “국어사전의 ‘관련어’ 연구”(이희자·우재숙) 역시 사전의 미시구조 기술에 대한 연구이다. 전자에서는 통사정보 등 문법 정보를 반영한 고어사전 편찬의 필요성을 주장하면서 정밀한 통사정보가 반영된 중세국어사전 편찬을 위한 기초 작업으로서 심리형용사의 문형 정보 기술의 모형을 제시하였다. 연구 결과 중세국어 심리형용사의 문형은 문형에 따라 ‘저프다, 믭다, 뉘웃브다, 랍다’를 대표적인 예로 하는 네 가지 유형의 기술 모형으로 제시된다. “국어사전의 ‘관련어’ 연구”에서는 사전의 미시구조 중 관련 어휘 정보에 초점을 두고 ‘관련어’항목을 ‘표제어의 의미 이해에 도움을 주는 의미 관계 정보’로 규정하고 체계적이고 풍부한 관련어의 기술 방안에 대해 논의하고 있다.
  전자사전과 관련한 연구로, “온라인 서비스를 위한 디지털 사전의 조건”(정철)에서는 인터넷 서비스를 위해 사전 데이터베이스가 갖추어야 할 요건들에 대해 논의하고 있다. 특히 이 논문에서는 기존의 책 사전 DB를 기본으로 인터넷 포탈사이트의 전자사전 서비스를 할 경우 새롭게 요구되는 점들에 대해 살피고 있는데, 표제어/부표제어/가표제어의 구분 문제부터 의미 항목의 배열, 약호, 발음 표현 등에서 인터넷 시대의 사전이 지향해야 할 요소들을 지적하였다. 한편 “국내외 전자사전 개발의 현황과 전망-자연언어처리 관점에서” (이용훈·이종혁)은 인간중심의 전자사전(human-oriented EDs)과 NLP시스템에서 주로 사용하는 NLP사전(pure NLP systems)의 두 가지를 전자사전의 범주로 한정하고, 출판용 전자사전과 말뭉치, 자연언어처리용 전자사전의 개발 현황을 각각 소개하였다. 여기서는 미래의 전자사전의 특성으로 다목적, 다기능 전자사전, 다국어 전자사전, 언어학적 지식과 인간의 세계 지식이 결합된 전자사전(Lexicon+Ontology)을 제시하였다. 
  마지막으로 어휘망 구축을 비롯한 전자 데이터베이스 구축을 위해 인쇄사전을 재활용한 연구들이 더러 있는데, 주로 사전정의문 패턴이나 구문 구조를 분석한 논의들이다. “동사 어휘의미망의 반자동 구축을 위한 사전정의문의 중심어 추출”(김혜경·윤애선), “기계가독형사전에서 상위어 판별을 위한 규칙 학습”(최선화·박혁로) 등은 어휘망 구축을 위한 기반 자료로서 <우리말큰사전>을 비롯한 인쇄사전의 정의문을 활용한 연구이다. 그밖에도 “한국어의 형태론적 중의 어절 사전 구축과 표제어 선정”(유혜원·남경완·홍종선), “한국어 의존명사 전자사전 어휘부 구성을 위한 연구”(남지순), “한국어 명사구성비자립어(NXF) 전자사전 데이터베이스 구축을 위한 논의”(남지순) 등도 자연언어처리를 염두에 둔 전자사전 개발에서 특정 언어 범주에 대해 논의한 연구들이다.(자연언어처리를 위한 전자사전, 어휘망 구축에 대한 연구는 2장 참조.)

      3.2.2. 사전 편찬 기반 자료 구축 및 도구 개발
사전 편찬 기반 자료 구축 및 도구 개발과 관련한 연구는 “독립신문 어휘색인 작업과정에 이용된 형태주석 편집도구의 활용 전망” (송길룡)이 유일한 것으로 보인다. 이 연구에서는 독립신문(1896 -1899) 말뭉치를 구축하여 어휘색인집을 만드는 작업 과정에서 개발된 형태 분석 작성 보조 프로그램 ‘매김틀’과 어휘 용례 색인 생성 프로그램을 소개하고 있다. 이 연구에서 소개된 ‘매김틀’은 유니코드를 지원하며, 기분석 사전을 이용하고, 미등재 어절의 분석 시 기분석 사전을 통해 자동생성된 규칙을 이용하는 형태 주석 도구로, 옛한글말뭉치나 구어 전사 말뭉의 주석에 활용될 수 있다. 필자는 이 논문에서 향후 이러한 프로그램의 후속 도구 개발에 있어서 말뭉치의 자료적 성격에 따라 폭넓은 처리 기법이 탐구되어야 함을 지적하고 있다.
      3.2.3. 특수 사전 관련 연구
  여기서는 사전편찬의 실제 작업 과정에 대한 연구 보고나 연구 제안의 성격을 띠는 논저들에 대해 소개하기로 한다. 특히 특수 사전류에 대한 사전편찬과정을 보인 연구가 많았는데, 실제 사전편찬 프로젝트를 수행하고 있거나 수행한 후 이 과정을 소개한 다음과 같은 논문이 이에 해당한다. 
  “구결사전편찬에 대하여”(이전경·하귀녀·박진호·황선엽)는 구결학회에서 수행하고 있는 구결사전 편찬 사업의 연구 진행 상황을 소개하고 구결사전의 구조를 거시구조적 측면과 미시구조적 측면을 구분하여 제시하고 있다. 또한 구결사전 편찬에서 실제 문제로 대두되고 있는 표제항 선정과 관련한 복합구결토의 처리 문제나 문법 기술 용어 통일 문제 등에 대한 논의를 소개하고 향후 구결 사전의 활용 방안에 대해서도 논의하였다. 
  “윤동주 시어 사전, 이렇게 편찬하였다”(조재수)에서는 필자가 2005년 직접 편찬한 <윤동주 시어 사전>의 작업 과정과 문학사전 편찬의 의의를 소개한 논저이다. 이 연구에서는 사전의 편찬 자료와 사전의 구조를 제시하면서 이를 통해 윤동주 시어와 표현의 특징을 분석하였다. 이 논문에서 필자는 문학이 좋은 사전의 밑바탕 자료가 됨에도 불구하고 지금까지 문학의 실적에 비해 사전편찬의 실적은 부족하였음을 지적하면서 문학 작품이 가진 시대성과 지역성, 작가의 특성을 반영하는 언어학적 고찰을 담은 사전 편찬의 중요성을 강조하고 있다. 
  “문화지형어사전의 편찬 가능성 검토”(강소영)는 ‘문화지형’을 문화현상들 아래 자리잡고 있는 문화세력들간의 관계, 그리고 그것의 형성과 변화에 영향을 미치고자 하는 주체들의 활동과 관계를 보여주는 개념으로 정의하고 개화교육잡지 <소년>(1908-1911)을 대상으로 개화기의 생활상과 의식을 조명할 수 있는 사전편찬의 가능성을 제시하였다. 따라서 문화지형어사전은 일반 사전과는 다소 변별되는 전자사전/백과사전/특수사전/선별형사전의 특성을 띠는데, 이 논문에서는 ‘개화, 문명, 인민/국민’ 등의 대표적인 어휘를 예시로 들면서 표제항 선정과 미시구조 기술의 문제를 논의하고 있다. 

    3.3. 이론사전학

  이론사전학에서는 사전비평에 대한 연구가 주를 이루었다. “≪표준국어대사전≫의 용례에 대한 사전학적 검토-용언의 경우”(한영균)는 확장형 단일어 사전에서의 용례의 역할을 중시하는 관점에서 <표준국어대사전>의 용언 주표제항와 부표제항에 나타난 용례를 계량적으로 분석한 결과를 제시하였다. 이 연구에 따르면 용언류 주표제항, 어근형 표제항의 부표제항 용언, 일반 표준어 표제항의 부표제항 용언 전체 중 용례가 제시된 것은 48.6%에 지나지 않았다. 또한 이 연구에서는『표준국어대사전』의 일러두기와 편찬지침의 용례 선정 원칙이 반영되지 못함을 지적하면서 인용례의 중복, 표제어에 등재되어 있지 않은 어휘가 용례에 쓰이는 문제 등을 용례 선정의 문제로 제시하였다. 
  두언어사전(bilingual dictionary)에 대한 사전 비평으로 “Parvum Vocabularium Latino Coreanum(羅鮮小字典)과『羅韓辭典』의 학적 가치와 중요성에 대하여”(안재원·김현권)와 “초기 露韓辭典의 편찬 經緯 및 체제와 구조”(곽충구)가 있다. 전자의 경우, <Parvum Vocabularium Latino Coreanum(羅鮮小字典)>(1891)과 <羅韓辭典>(1936-1959) 두 사전이 라틴어 단어에서 한국어로의 단순한 대응․번역이 아니라 라틴어에 기반하고 있는 서양의 문화와 제도, 세계관이 번역․조어된 한국어 단어에 나타나고 있음을 주목하고 사전의 분석이 당시 한국 사회의 근대화 양상을 해명해 줄 수 있는 언어 자료의 보고라고 주장하고 있다. 이 연구에서는 두 사전의 분석을 통해 당시 라틴어에서의 한국어로의 번역․조어 과정이 단순한 축자적 번역·대응이 아니라 라틴어 의미 세계를 한자 문명권으로 옮길 때의 한자 문명권의 체계와 구조가 반영되었음을 조심스럽게 언급하고 있다. “초기 露韓辭典의 편찬 經緯 및 체제와 구조”에서는 최초의 노한사전이자 최초의 한국어 대역사전으로 알려진 <Opyt RusskoKorejskago Slovarja (시험적인 露韓辭典)>와 <Opyt Krat- kago RusskoKorejskago Slovarja (시험적인 露韓小辭典)>의 편찬 경위와 내적 구조를 소개하고 있다. 필자는 이 논문에서 우리 민족이 러시아 영내로 이주함으로써 생겨난 산물로서의 이들 사전이 한 세기 전 육진방언 및 그 변화, 한국어의 음운, 어휘 연구 등에 대해 중요한 자료를 제공하고 있음을 밝히고 있다. “한·중 사전 비교 연구” (황은하) 역시 두언어사전으로서의 한·중 사전의 비교·분석을 연구의 목적으로 하고 있다. 이 연구에서는 한국 내에서 출판된 한·중 사전의 목록을 수집하고 표제어 규모 및 특성, 뜻풀이, 대역어 등의 미시구조 정보항목에서의 각각의 특성과 문제점을 분석하였다. 
  “한국어 학습 사전의 연구 동향 분석”(박수연)은 외국인을 위한 한국어 학습사전을 연구 대상으로 하는 논문들을 연구 주제별로 제시하여 연구 동향을 분석한 논문이다. 다섯 가지의 연구 영역 분류 기준 즉, 사용 언어, 사전의 종류, 편찬 방식, 연구 방법, 거시·미시 구조에 따라 학습 사전과 관련한 연구 동향을 분류한 다음 문제점을 지적하였다. 이에 따르면 지금까지의 학습 사전 연구는 사전 모형을 제시한 연구가 부족하며, 미시구조에 대한 연구가 미흡하고 사전 편찬자 중심으로만 논의되었다는 한계가 있다. 



  4. 결론

  이상으로 2006년도의 국어정보학과 사전학의 연구동향을 개괄하였다. 국어정보학의 경우는 말뭉치언어학과 자연언어처리 분야로 구분하여 살펴보았고, 사전학은 사전단행본과 사전편찬학 관련 연구들을 중심으로 연구 동향을 살펴보았다. 
  2006년도의 말뭉치언어학의 연구는 통사, 형태, 어휘·의미 등 국어학 전 분야를 망라하여 연구되었으나 음성말뭉치와 관련한 연구는 드문 듯하다. 자연언어처리 분야의 연구는 자연언어처리를 위한 온톨로지와 어휘의미망 구축이나 전자사전 관련 연구가 활발하게 진행되었으며, 공학 분야를 중심으로 전문용어 자동 추출, 핵심어 자동 추출 시스템 등의 응용 시스템 개발과 관련한 주제도 다양하게 논의되었다. 한편 말뭉치언어학 연구는 주로 국어학 분야에서 연구된 반면, 자연언어처리 관련 연구는 양적인 면에서 주로 공학 분야의 논문이 훨씬 많은 것으로 분석되어 연구 경향에 있어서 확연한 차이를 보였다. 
  사전학의 경우 표제어 선정과 미시구조 기술, 사전 편찬 기반 자료 구축 및 도구의 개발, 특수 사전 관련 연구, 사전 비평을 비롯한 이론사전학 연구 등 비교적 다양한 주제의 연구가 이루어졌다. 또한 단행본 사전 역시 다양한 유형의 소사전들이 출판되고 있으며, 편찬의 주체 역시 국어학, 사전학자뿐만 아니라 전문 분야의 연구소, 기관 등 각 분야의 전문가들로 확장되는 추세를 보였다. 단, 사전학 관련 논문들이 대부분 하나의 학회 논문집에서 나온 자료들이어서, 국내 사전학 연구의 저변이 그리 넓지 않음을 알 수 있다. 
  국어정보학과 (국어)사전학은 비교적 역사가 짧은 학문으로, 다른 분야에 비해 논문의 수가 그리 많은 것은 아닌 듯하다. 이 글에서 소개된 2006년도 국어정보학, 사전학 관련 논저 중에 언급되지 못하거나 연구 내용이 잘못 소개된 경우도 있을 듯하다. 또한 이 글에서 다룬 논저는 주로 국내 저서와 학회 논문지로, 자연언어로서 한국어 정보 처리와 관련한 해외 학회지의 논문에 대해서는 다루지 못했다는 아쉬움이 남는다. 이 모든 것은 전적으로 필자의 능력 부족에 기인하는 것이다. 이에 대해서는 연구자들의 양해를 구한다.