입력 2026.02.27 14:23
- 전자전기컴퓨터공학부 엄대호 교수 연구팀, 사진 조작 공격에도 속지 않는 멀티모달 AI 기술 개발
- 다중 시각 분석과 적응적 보정으로 멀티모달 AI 강인성 대폭 향상
서울시립대학교(총장 원용걸)는 전자전기컴퓨터공학부 엄대호 교수 연구팀의 논문이 인공지능 분야 세계 최고 권위의 국제 학술대회인 CVPR 2026에 채택되는 성과를 거두었다고 밝혔다.
IEEE/CVF에서 주관하는 CVPR(Computer Vision and Pattern Recognition Conference)은 인공지능 및 컴퓨터 비전 분야에서 가장 영향력이 큰 학회로 꼽힌다. CVPR 2026은 오는 6월 3일부터 6월 7일까지 미국 덴버에서 개최될 예정이다.
해당 연구성과는 ‘When CLIP Sees More, It Fights Back Harder: Multi-View Guided Adaptive Counterattacks for Test-Time Adversarial Robustness’라는 제목의 논문으로, 대규모 비전–언어 모델(CLIP)이 사진을 교묘하게 조작하는 적대적 공격에 취약하다는 한계를 효과적으로 개선하는 새로운 방어 기법을 제안했다. 연구팀은 입력 이미지에 다양한 변형을 적용해 여러 시각의 이미지를 생성한 뒤, 각 시각별로 추정된 손상 수준에 따라 반격 강도를 적응적으로 조절함으로써 모델의 예측을 보정하는 기법을 개발했다. 이를 통해 기존 기법들이 강한 공격 환경에서 성능이 급격히 저하되던 문제를 효과적으로 완화했다.
제안한 기법은 총 20개 데이터셋 실험에서 세계 최고 수준의 적대적 강인성을 달성했으며, 추가 학습이나 파라미터 튜닝 없이도 빠른 추론 속도와 낮은 메모리 사용량을 동시에 유지하는 것으로 확인됐다.
본 연구는 단국대학교 김선오 교수(제1저자)와 서울시립대학교 엄대호 교수(교신저자)의 공동연구로 수행되었다.
엄대호 교수는 “이번 연구는 비전–언어 모델이 현실 환경에서 직면하는 보안 위협을 테스트 시점에서 효과적으로 완화할 수 있음을 보여준 사례”라며, “추가 학습 데이터나 모델 수정 없이도 강력한 안정성을 확보할 수 있어, 자율주행, 의료 영상 분석, 산업용 비전 시스템 등 안전이 중요한 AI 응용 분야에 폭넓게 활용될 수 있을 것”이라고 밝혔다.