[우리문화신문=김영조 기자] 새해 벽두부터 인공지능(AI)이 높은 관심을 받고 있다. 현재 다양한 인공지능 기술이 쏟아져 나오고 있지만, 인공지능을 맹신하는 것은 위험할 수 있다. 인공지능도 실수를 범할 수 있기 때문이다. 가끔 인공지능은 뻔뻔하게 엉뚱한 답변을 내놓는데, 이를 ‘할루시네이션(Hallucination)’이라고 한다. 이는 인공지능 모델, 특히 딥러닝(DL) 기반 모델이 현실에 기반하지 않은 정보나 데이터를 생성해 허구적이고 비논리적인 결과를 도출하는 현상을 의미한다. 완벽해 보이는 인공지능이 왜 오류를 일으키는지, 그리고 그로 인한 위험은 무엇이며, 어떻게 해결할 수 있는지 자세히 살펴보자.
챗GPT가 국내에 소개된 지 얼마 되지 않았을 때, 화제가 된 사건이 있었다. 한 사용자가 “조선왕조실록에 기록된 세종대왕의 맥북프로 던짐 사건에 대해 알려달라”는 다소 황당한 질문을 던지자, 챗GPT는 “세종대왕이 훈민정음의 초고를 작성하던 중 어떤 일로 문서 작성이 중단되었고, 이에 세종대왕이 담당자에게 분노해 맥북 프로와 함께 그를 방으로 던졌다”라는 답변을 내놓았다.
세종대왕이 맥북을, 그것도 에어가 아닌 프로를 최환이라는 관료에게 던졌다는 챗GPT의 답변은 정말 어이없다. 어디서 이런 데이터를 가져와 조합했는지 모르겠지만 정말 그럴듯한 거짓 역사 소설을 만들어낸 것이다.
챗GPT 초창기 버전인 3.5버전에서는 이와 같은 할루시네이션이 자주 발생했지만, 최신 버전에서는 이러한 문제를 상당 부분 극복했다. 세종대왕이 맥북 프로를 던졌다고 물어봐도, 시대적 배경이 맞지 않는다며 정상적인 답변을 한다. 이처럼 최신 챗GPT는 오류가 완전히 사라진 것은 아니지만, 이전처럼 터무니없는 '큰 실수'는 거의 하지 않는다.

하지만 다양한 인공지능 응용 분야에서 할루시네이션은 여전히 존재한다. 최근 공개된 오픈인공지능의 텍스트-비디오 생성형 인공지능 ‘소라(Sora)’에서도 이런 현상이 관측됐다. 오픈인공지능이 공개한 영상인데 초반에 원근법으로 층수를 나눠놨지만, 물리적으로 구분되지 않아 주요 인물들이 시장 상인들보다 몇 배나 큰 거인이어야 가능한 영상이 만들어졌다. 동영상 생성형 인공지능으로 학습 데이터를 만들어 비전 인식 인공지능을 고도화하려는 시도가 오류 데이터로 학습되어 예측할 수 없는 결과를 낳은 것이다.
인공지능 할루시네이션은 단순한 기술적 오류를 넘어 사회적, 윤리적 문제로 확대될 수 있는 중요한 문제이다. 특히 의료, 법률, 금융 등 중요한 의사결정이 필요한 분야에 인공지능이 활용될 때, 인공지능 할루시네이션은 치명적인 결과를 낳을 수 있다. 의료 인공지능이 잘못된 진단을 내리거나, 법률 자문 인공지능이 부정확한 법적 조언을 제공해 돌이킬 수 없는 피해로 이어질 수도 있다.
인공지능 할루시네이션은 대체 왜 일어날까? 그 원인은 크게 3가지로 정리할 수 있다.
첫째, 인공지능 모델이 학습하는 데이터에 내재한 편향, 곧 데이터 편향이 대표적인 원인이다. 학습 데이터가 부정확하거나 편향된 정보를 포함할 경우, 모델은 이를 기반으로 잘못된 예측을 하거나 비현실적인 결과를 생성할 수 있다. 최근 출시된 딥시크(DeepSeek)도 이러한 데이터 편향 문제를 안고 있다.
예를 들어, 딥시크에 ‘톈안먼(천안문) 사건’, ‘신장위구르 문제’, ‘홍콩 민주화 운동’ 등 특정 주제에 관해 물으면 답변을 회피하거나 중국 정부의 공식 입장을 따르는 식으로 대응한다. 이와 관련해, 딥시크는 서구 인공지능 모델보다 훨씬 강한 자체 검열 기능을 적용하고 있어, 이 같은 데이터 편향이 발생하는 것으로 알려졌다.
둘째, 알고리즘 설계 문제이다. 딥러닝 모델은 입력 데이터의 패턴을 일반화하려는 경향이 있지만, 때로는 이 과정에서 과도한 일반화가 발생해 잘못된 결론에 도달할 수 있다. 예를 들어, 언어 모델은 문맥상 적절하지만, 사실과 일치하지 않는 문장을 생성할 가능성이 있다.
셋째, 모델의 과적합이다. 인공지능 모델이 학습 데이터에 과도하게 적응했을 때 발생하는 문제다. 과적합한 모델은 새로운 데이터에 대한 일반화 능력이 떨어지며, 이 탓으로 허구적인 결과가 나타날 수 있다.
그렇다면 인공지능 할루시네이션 현상을 줄이고, 보다 더 강력한 인공지능 모델을 만들기 위해서는 어떻게 해야 할까?
첫째, 높은 품질의 학습 데이터를 활용하면 된다. 인공지능 모델이 더 정확하고 신뢰할 수 있는 답변을 생성할 수 있도록 믿을 수 있는 다양한 출처의 데이터를 기반으로 학습시키는 것이 중요하다. 또한, 데이터 전처리 및 라벨링 과정에 대한 철저한 관리도 빼놓을 수 없는 요소다.
둘째, 지속적이고 체계적인 검증이 필요하다. 품질이 좋은 데이터를 활용해 학습시키는 것과 더불어, 인공지능 모델의 답변을 지속적으로 검증하고 개선하는 것도 중요하다. 이를 위해 모델의 성능을 지속적으로 평가하고, 새로운 데이터를 학습시켜 모델이 최신 상태와 정확성을 유지하도록 지속적으로 모델을 개선하는 절차를 도입해야 한다.
셋째, 다양한 기술을 활용하는 것도 방법이다. 학습 데이터의 품질을 높이고 동적 검증도 가능한 RAG(Retrieval-Augmented Generation, 검색 증강 생성), 언어의 맥락, 의미, 뉘앙스 등 문맥 이해를 개선할 수 있는 자연어 처리(NLP), 데이터의 양과 다양성을 늘리는 데이터 증강(Data Augmentation) 기술 등을 이용하는 것도 중요하다. 활용하는 것도 중요하다.
AhnLab 콘텐츠마케팅팀 제공