• 홈
  • 화살표
  • 국어 배우기
  • 화살표
  • 뭉치가 알려주는 국어 말뭉치
책 그림
  •  
    뭉치가 알려주는 국어 말뭉치
  • 대화 잘하는 인공 지능을
    만들기 위한 지식구축
    기본 원칙

  • (주)와이즈넛 에이비엠(ABM)사업부 김정민 이사

○우리 생활 속 다양한 인공 지능

 생활 속에서 나의 말에 귀 기울이는 존재들이 정말 많다. ‘사람’ 이야기가 아니다. 주위를 돌아보면 최신 자동차에서, 텔레비전에서, 스피커에서, 무심코 귀에 착용한 이어폰에서, 냉장고와 같은 가전기기에 탑재된 이른바 인공 지능 비서들이 사용자인 우리의 말을 듣기 위해 귀를 기울이고 있다.

img4

아마존의 가정용 에이아이(AI) 로봇 아스트로(Astro)(사진 출처: 아마존 공식 누리집)

 또, 스마트폰에 깔려 있는 금융이나 택배 등 다양한 서비스 앱을 켜면 이제는 챗봇이 상담을 기다리고 있고, 최근 몇 년간 콜센터 상담 또한 인공 지능 상담으로 대체되고 있다. 이제는 단순한 질문에 대한 답변, 통지나 안내를 위한 통화는 인공 지능으로 대체하고 ‘사람 상담원’은 조금 더 심화된 상담에 집중하는 식으로 역할이 구분되고 있다. 제반 기술의 고도화와 가용 인력의 부족, 24시간 365일 운영 요구로 인해 유통시장 역시 무인화되어 가고 있으며, 무인화의 중심에는 에이아이 비서가 있다.

img4

세븐일레븐 디티(DT) 랩 스토어, 아이스 지오(GO)24 에이아이 무인 주류 판매기(사진 출처: AI 타임스, 2021)

 그러나, 실제 인공 지능 비서들에게 조금 복잡한 문장 형태로 질의를 하게 되면 잘 이해를 하지 못하거나 엉뚱한 답변을 하기도 하여 사용자들이 당황하는 경우가 종종 발생하게 된다. 특정 인공 지능 비서 시스템에서 질문 이력을 분석해 보면 업무 처리 시스템임에도 일상적인 질문을 던지는 경우가 발생하는데, 이는 비서와의 대화 시작 시 해당 기업 또는 기관의 서비스 운영 목적과 이용 가이드를 명확하게 제시하지 않는 경우가 많기 때문이다.

○인공 지능 비서의 지식 유형

 아마존 부사장이자 통계학 교수인 Matt Taddy는 인공 지능은 비즈니스 전문성과 빅 데이터 자산, 그리고 범용 머신러닝(General Purpose Machine Learning)으로 구성되어 있다고 정의했다.

img4

AI definition(Matt Taddy, 2018)

 인공 지능은 잘 구현된 범용 알고리즘(General Purpose ML)과 비즈니스 전문성(Domain Structure)이 잘 반영된 빅 데이터(Data Generation)로 구성되어 있다는 것이 Matt Taddy 교수의 설명이다.
 비즈니스 전문성(Domain Structure 하에 Business Expertise)이란 결국 목적 시스템이 활용되는 분야에 대한 깊은 이해를 의미한다. 이런 이해가 담보되지 않을 경우 해당 서비스는 최종 사용자가 효용성 이슈로 외면할 수도 있으므로 주의해야 한다. 가령, 택배회사의 챗봇이라면 사용자가 가장 관심 있어 할 사항들은 택배회사의 주요 업무인 택배 접수, 배송 현황, 반품 신청 등일 것이다. 만약 택배 서비스의 챗봇을 만드는 데 배송 현황에 대해 문의할 수 없다면 챗봇 서비스의 활용도는 현저히 낮아질 것이다.

img4

대화의 유형 및 특징(Wisenut Analysis, 2022)

 스탠퍼드대학에서 출간한 ‘Speech and Language Processing’에서는 챗봇 대화의 유형을 Goal-oriented(목적성 대화)와 Chit-Chat(일상 대화)로 구분 하였다. 목적성 대화(Goal Oriented Conversation)는 주로 기업 및 기관에서 업무 서비스 제공 목적으로 축적한 지식으로 특정 범위를 선정하여 대화 주제와 이에 대한 학습 데이터를 구축한다. 주로 우리가 이용하는 금융 앱 내 챗봇 서비스가 이에 해당한다고 할 수 있다. 목적성 대화는 알고리즘으로 추천된 답변에 대한 정확도가 상당히 중요한 서비스이다.

 일상 대화(Chit-chat Conversation)는 주로 목적성 대화와 달리 사람 간의 흥미 및 감정 교류 위주의 대화로서 정확도에 대해서 주관적인 판단이 개입되는 것이 특성이다.

○인공 지능 비서의 답변 의도 파악하는 방법

- 목적성 대화 챗봇

 챗봇은 주로 질문에서 주요 특징점을 찾아 기존에 구축된 특징점과의 유사도를 판단하여 답을 내 주는 규칙기반 방식의 서비스이다. 주요 특징점은 질의가 예상되는 질문을 구성하는 주요 단어 및 표현이다. 보통 인공 지능 저작 도구를 제공하는 구글과 카카오, 와이즈넛 등의 기업들은 이런 예상되는 사용자의 질의 의도를 인텐트(Intent)로, 사용자 질의 의도에 포함되어 있는 단어 및 표현을 엔티티(Entity) 또는 피처(Feature)로 기술한다. 각 기업마다 최적화 방법은 다르기 때문에 다수 알고리즘을 앙상블하거나 다른 알고리즘을 사용할 수 있지만 기본 원리는 유사하다.

img4

목적 지향 대화의 답변 의도 파악 방법(Wisenut Analysis, 2022)

 일상 대화는 ‘배고파’, ‘뉴진스 최신 앨범에 수록된 곡이 너무 좋아’ 등과 같이 개인의 경험, 감정의 상태 등 주관적인 특징점들로 주로 구성되어 있다.

 우리가 챗봇을 구축할 때 종종 이런 일상 대화와 목적성 대화를 한데 모아 지식을 구성하게 되는데, 서로 비슷하게 표현될 수 있어 오매칭을 유발하게 된다. 예를 들어 ‘너네 집은 어디 있어?’라는 일상 대화지만 위치에 대한 문의는 ‘지점 문의’와 동일하게 매칭되어 오매칭이 될 수 있다.

 주로 소수의 피쳐로 구성된 질의가 오매칭을 유발하는 요인이 된다. 그래서 전처리 과정에서 소수의 피쳐로 구성된 질의의 경우 포괄적인 답변 또는 정확성에 대한 임계값을 높이는 방식으로 처리되어야 한다. 그래서, 보통 답을 찾는 과정에 있어 목적성 대화와 일상 대화의 모델을 분리하거나, 목적성 대화에 우선순위를 두어 매칭되는 지식이 없을 경우 일상 대화를 통해 답을 구할 수 있도록 한다.

 하지만, 이보다 더 우선적으로 실사용자에게 고지해야 하는 사항은 해당 챗봇의 ‘목적성과 한계’이다. 실제로 특정 공공기관의 경우 챗봇임을 별도 고지하지 않아 사용자가 이를 인간 상담사의 채팅 상담으로 오인하여 몇 천 자 수준의 민원을 제기하는 질의가 지속 유입되기도 했다.(결국 민원 접수 기능을 챗봇에 부여하였다.) 목적성 대화는 해당 업무 분야의 사용자 관심도를 기준으로 예산을 감안하여 구축한다. 브이오시(VOC)나 콜센터를 통해 유입되는 질의에서 주로 단순 즉답 및 처리를 할 수 있는 문의를 우선순위로 구축한다.

img4

목적 지향 인공 지능 비서 서비스의 지식 도출 절차(Wisenut Analysis, 2022)

- 일상 대화 챗봇

 일상 대화 챗봇은 지식을 특정하기에 상당히 방대하므로 주로 인공 신경망 기반으로 모델을 구축한다. 대규모의 학습 데이터를 기반으로 스스로 공통 성질을 추출하는 방식은 모델링을 위한 고사양의 서버 리소스와 방대한 데이터가 요구된다. 주로 사전 학습된 언어 모델인 비이아르티(BERT)와 같은 피엘엠(PLM, Pretrained Language Model)을 기반으로 구축한 학습 데이터를 미세 조정(Fine Tuning)하는 방식으로 구현한다.

img4

일상 대화 답변 예측을 통한 추천 모델(Wisenut Analysis, 2022)

 일상 대화는 상당히 포괄적이기 때문에 학습 데이터 구축에 앞서 어떤 데이터를 구축할지를 정해야 한다. 그런 부분에서 선행적으로 일상 대화의 분류 체계 수립이 중요하다.

 국립국어원은 일상 대화를 지난 2019년부터 구축해 왔다. 2019년에는 메신저 대화 말뭉치를 구축했는데, 일상 대화의 포괄적인 범주의 주제 분류를 참고하고자 ‘국제 통용 한국어 표준 교육과정’(국립국어원, 2017; 김정숙. 이정희, 2018)의 주제 분류 체계를 준용하여 적용함으로써 일상 대화 유형 분류의 초석을 다졌다.

 지능정보사회진흥원 역시 인공 지능 학습 데이터 구축 사업의 일환으로 일상 대화에 대한 구축을 지난 2020년도부터 진행해 왔는데, 일상 대화에 대한 편향성을 염두하고 일상 대화 범주의 주제 분류를 정하는 데 있어 선행 과제인 국립국어원 ‘메신저 대화 자료수집 및 말뭉치 구축’ 과제의 일상 대화 범주를 참조했다. 그러나 국립국어원의 말뭉치 사전은 약 1만 개 수준에 적용된 기준을 약 200만 건의 대규모 데이터를 적용하는 과정에서 예외 사항이 다수 발생했다.

img4

국립국어원 메신저 대화 말뭉치와 엔아이에이(NIA) 한국어 누리소통망 데이터 분류 체계 비교

 와이즈넛은 이번 지능정보사회진흥원의 2020년도 한국어 누리소통망 데이터에 대한 고도화를 진행하면서, 지능정보사회진흥원에서 2021년도 기구축한 주제별 텍스트 일상 대화를 통합하여 고도화하는 과제를 수행하고 있다. 본 과제의 주요 목표는 기존 데이터에 대한 고도화도 있지만, 일상 대화 모델링 시 학습 데이터 구축에 참조할 수 있는 분류 체계를 정립하고자 했다. 그래서 한국외국어대학교 언어 인지학과와 함께 분류 체계를 정의하는 데 있어, 선행 연구 분석을 기반으로 한 하향식 분류 체계와 현재까지 축적된 약 190만 개의 데이터에서 샘플링한 데이터를 분석하여 상향식 체계를 수립하여 이를 통합하는 방법을 고려했다.

 통합안 수립 원칙은 첫째, 크라우드 워커를 활용하는 만큼 분류가 용이하도록 직관적 명칭을 사용하려 했고 둘째, 에이아이 모델 활용성을 고려한 범용성과 셋째, 최대 3단계에 걸친 계층적인 분류 체계를 통해 구체화를 고려하였다.

img4

 분류 체계를 수립하는 것 이상으로 형상 관리가 중요하다. 따라서, 190만 개의 데이터의 고도화 과정에서 발생되는 이슈는 대학과, 주관 기관, 가공 기관의 담당자로 구성된 형상 관리 위원회를 통해 의사 결정을 진행하여 체계를 형상 관리 과정을 진행하고 있다. 본 분류 체계와 관련된 분석 보고서는 본 과제 완료 후 최종 보고서로 공유할 계획이다.

○인공 지능 학습데이터의 중요성

 인공 지능 비서를 만드는 데 있어 학습 데이터의 중요성은 아무리 강조해도 지나치지 않다. 스탠퍼드대학교 부교수이자 코세라 공동 창업자였던 앤드류 응(Andrew Ng) 교수는 Bigdata보다 Good Data가 중요하다고 강조한다. 앤드류 응 교수가 지목한 좋은 데이터란 첫째, 일관성이 있어야 하고(Defined consistenly) 둘째, 모델을 적용할 에이아이 서비스에는 해당 분야의 중요한 영역이 포함되어야 하며(Cover of important cases) 셋째, 생산 데이터로부터 시기적절한 피드백을 받으며(has timely feedback from production data) 넷째, 크기가 적당한 데이터(sized appropriately)라고 한다.
 인공 지능 학습 데이터를 구축하는 데 있어 의미의 정확성, 구분의 정확성 그리고 통계적 다양성을 감안하여 가공하는 것이 중요하다. 다만, 통계적 다양성도 실제 사용성을 감안하는 것이 중요하다. 실제 사용하지 않는 대화를 만들어서 활용성이 떨어지게 되면 그만큼 비용 투자 대비 손실이 발생하기 때문이다.

○마무리 - 인공 지능 학습데이터 구축 유의사항

 최근 들어 인공 지능 서비스에서 가장 문제가 발생하는 것 부분은 바로 데이터의 편향성이다. 엠아이티(MIT) 미디어 랩의 연구원 조이 부울 란위니는 아마존의 얼굴 인식 에이아이 서비스에서 흑인 여성의 얼굴이 제대로 인식되지 않는 점을 과제를 수행하는 과정에서 우연히 알게 되었고, 이에 대해 원인을 파헤쳐 갔다. 이를 후에 다큐멘터리로 만든 것이 넷플릭스에서 방영된 알고리즘의 편견(Coded Bias)이다.

img4

아마존 서비스에 대한 얼굴 인식 서비스 테스트 결과

 실제 아마존에서 직원 채용 시 활용하는 에이아이 이력서 검증 프로그램을 통해 여성이 한 명도 채용되지 않는 상황이 발생되는 상황이 있었다. 결국 20년 6월 10일에 아마존은 자사 얼굴 인식 알고리즘을 경찰이 사용하는 것을 1년 중단시켰고, 20년 6월 25일 미국 국회의원들은 얼굴 인식을 연방 차원에서 사용하는 것을 금지하는 법안을 도입하게 되었다.

 또한, 미국 탐사 보도매체 ‘프로퍼블리카’는 미국 내 많은 법원에서 사용 중인 에이아이 재판 지원 시스템인 COMPAS에 대한 기사를 보도했는데, 미국 플로리다에서 체포된 범죄자 1만 명을 대상으로 재범 가능성을 예측해 보니 흑인의 재범 가능성이 백인보다 2개 이상 높게 나오는 결과를 보여 줬다. 그러나 실제 현실에서는 흑인의 재범률은 백인보다 높지 않은 결과를 보여 줬다고 한다.

img4

데이터 편향성에 따른 오예측 사례(사진 출처: propublica)

 데이터의 편향성을 발생시키는 주요 원인 중 하나는 데이터의 불균형이다. 데이터가 국소적인 분야만 적용될 경우 범용적으로 활용이 어렵다는 것이다. 이는 집합의 개념과 비슷하다. 편향된 데이터와 이미 편향성이 반영된 데이터를 학습하거나, 관련성이 떨어지는 데이터를 학습하거나, 표본 크기가 균형을 갖추지 못하는 등의 원인을 통해 기계 학습은 편향성이 작용하게 된다.

 이처럼, 학습 데이터 구축 시 많은 부분을 고려해야 하지만. 명심 또 명심해야 할 사항은 구체적인 목적과 한계치를 정확히 인지하고, 편향성이 발생하지 않도록 더욱 신중해야 한다는 점이다.

img4

기계 학습에서 편향성을 발생시키는 주요 원인(그림 출처: 동아사이언스, 2021)