서강대학교 최준석·장부루 교수 연구팀, 인공지능 분야 최우수 국제학술대회, AAAI 2025 논문 채택

입력 2025.01.15 10:49

- 다중모달 거대언어모델 환각 문제 완화 연구로 AAAI 2025 Main Technical Track 수락

서강대학교(총장 심종혁) 컴퓨터공학과 최준석 교수 연구실의 박예지 석박통합 학생과 인공지능학과 장부루 교수 연구실의 경제학과 22학번 이덕영 학생이 수행한 다중모달 거대언어모델(Multimodal Large Language Models, MLLMs)의 환각(hallucination) 문제 완화 연구가 AAAI Conference on Artificial Intelligence (AAAI 2025)의 Main Technical Track에 수락되었다. AAAI는 인공지능 분야에서 세계적으로 권위 있는 학술대회로, BK 우수국제학술대회(인정 IF 4.0)로 등록되어 있으며, 2025년 2월 25일부터 3월 4일까지 미국 필라델피아에서 개최될 예정이다.

이번 논문은 “ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models”라는 제목으로, 추가 학습 없이 디코딩 과정만으로 환각 문제를 완화하는 대조적 디코딩(Contrastive Decoding) 기법 ConVis를 제안했다. ConVis는 텍스트-이미지 생성 모델이 생성한 캡션으로 이미지를 복원한 뒤, 복원된 이미지와 원본 이미지 간의 대조적 확률 분포를 비교해 환각 신호를 억제하는 방식으로 작동한다.

실험 결과, ConVis는 다섯 가지 주요 벤치마크에서 기존 방법과 비교해 우수한 성능을 입증하며, AI 모델의 신뢰성과 실용성을 저해하는 환각 문제를 효과적으로 완화할 수 있음을 보여주었다. 특히, 추가적인 데이터 수집이나 복잡한 학습 과정 없이 기존 시스템에 간단히 적용할 수 있다는 점에서 실제 응용 환경에서의 활용 가능성을 크게 높일 수 있을 것으로 기대된다.

이번 연구는 MLLM의 환각 문제를 해결하기 위한 새로운 접근법을 제시하며, 학계와 산업계에서 MLLM 활용 논의에 중요한 기여를 할 것으로 전망된다.

▶논문 제목: ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models

저자: 박예지 (공1저자), 이덕영 (공1저자), 최준석 (교신), 장부루 (교신)

▶논문 링크: https://arxiv.org/abs/2408.13906

- 다중모달 거대언어모델 환각 문제 완화 연구로 AAAI 2025 Main Technical Track 수락

내가 본 뉴스 닫기