서강대학교 컴퓨터공학과 최준석 교수 연구팀, 인공지능 분야 최우수 국제학술대회 ICLR 2026 논문 채택

입력 2026.02.20 09:34

▲ (좌측 상단부터 시계방향으로) 서강대학교 컴퓨터공학과 최준석 교수, 이민영 박사과정, 박예지 석박통합과정, 김예진 석사과정, 황동준 박사과정

서강대학교(총장 심종혁) 컴퓨터공학과 최준석 교수 연구팀(이민영 박사과정, 박예지 석박통합과정, 황동준 박사과정, 김예진 석사과정)은 다중 이미지 입력 환경에서 대규모 비전-언어 모델 (Large Vision-Language Models, LVLMs)에서의 구분 토큰의 역할을 분석하고, 이를 통해 성능을 향상시키는 효과적인 기법을 제안하여 국제 저명 학술대회 International Conference on Learning Representations (ICLR) 2026에 논문이 채택되었다. ICLR은 인공지능 및 머신러닝 분야에서 세계적으로 권위 있는 국제 학술대회로, 오는 4월 23일부터 27일까지 브라질 리우 데 자네이루에서 개최될 예정이다.

LVLM은 단일 이미지 기반 과제에서는 우수한 성능을 보인다. 그러나 여러 이미지를 동시에 입력받는 경우 이미지 간 정보가 혼합되는 cross-image information leakage 문제로 인해 추론 성능이 크게 저하되는 한계가 존재한다. 기존 모델들은 이미지 구분을 위해 delimiter 토큰을 사용하고 있으나, 본 연구팀의 분석 결과 이러한 토큰들이 실제로는 이미지 간 정보 누수를 효과적으로 차단하지 못함을 확인하였다.

이에 본 연구팀은 delimiter 토큰의 hidden state를 스케일링하는 간단하면서도 효과적인 기법을 제안하였다. 해당 방법은 이미지 내부 토큰 간 상호작용(intra-image interaction)을 강화하는 동시에, 서로 다른 이미지 간의 불필요한 상호작용을 억제함으로써 모델이 이미지별 정보를 보다 명확히 구분하고 정확한 다중 이미지 추론을 수행할 수 있도록 한다.

본 연구는 LVLM에서 상대적으로 간과되어 온 delimiter 토큰의 역할을 재조명하고, 모델 구조 변경이나 추가 학습 없이도 멀티 입력 추론 성능을 안정적으로 향상할 수 있는 실용적인 해법을 제시했다는 점에서 의의가 있다. 향후 멀티 이미지·멀티 문서 기반 AI 시스템의 신뢰성과 정확도를 높이는 핵심 기술로 활용될 것으로 기대된다.

▶논문 제목: Enhancing Multi-Image Understanding through Delimiter Token Scaling

▶저자: 이민영(제 1저자, 서강대), 박예지(제 2저자, 서강대), 황동준(제 3저자, 서강대), 김예진(제4저자, 서강대/카이스트), 오성준(제 5저자, 카이스트/University of Tübingen), 최준석(교신저자, 서강대)

▶논문 링크: https://arxiv.org/abs/2602.01984

▶코드 링크: https://github.com/MYMY-young/DelimScaling

내가 본 뉴스 닫기