본문 바로가기
Daily Papers

Huggingface Daily Papers - 2025.04.23

by rltjq09 2025. 4. 24.
728x90

https://huggingface.co/papers/date/2025-04-23

 

Daily Papers - Hugging Face

new Get trending papers in your email inbox once a day! Get trending papers in your email inbox! Subscribe

huggingface.co


1. Progent: Programmable Privilege Control for LLM Agents

(게재일: 2025년 4월 16일, 소속: UC Berkeley, UC Santa Barbara)

주요 Task

  • Privilege Control for LLM Agents
  • Security Policy Generation
  • Tool Use Restriction
  • Prompt Injection Defense

중요 내용 요약

본 논문은 LLM 기반 에이전트의 보안 문제를 해결하기 위한 프로그래머블 권한 제어 시스템인 Progent를 제안한다. LLM 에이전트는 외부 도구를 호출하여 다양한 작업을 수행할 수 있으나, 이러한 자유도가 악성 명령 실행 위험을 초래할 수 있다. Progent는 이러한 보안 위협에 대응하고자 도구 호출 수준에서 세밀한 권한 제어를 프로그래밍할 수 있는 프레임워크를 설계하였다.

핵심 아이디어는 최소 권한 원칙(Principle of Least Privilege)을 에이전트 실행 과정에 적용하여, 작업 수행에 필요한 도구 호출만 허용하고 그 외는 차단하는 것이다.

주요 기여 및 내용은 다음과 같다:

  • Progent는 JSON 기반의 도메인 특화 정책 언어를 통해 도구 호출을 제어할 수 있는 정책을 표현하며, 이 정책은 실행 중 동적으로 갱신 가능하다. 정책에는 호출 조건과 차단 시 대체 행동(fallback)이 포함된다. (Figure 1 참조)
  • 자동 방어를 위해 최신 LLM을 활용하여 사용자 쿼리에 기반한 초기 정책을 생성하고, 도구 호출 결과에 따라 동적으로 정책을 업데이트한다. 이로써 인간의 개입 없이도 자동으로 보안을 강화할 수 있다. (Figure 4 참조)
  • 다양한 공격 시나리오에서 Progent의 효과를 실험적으로 입증하였다. 예를 들어, AgentDojo 벤치마크에서는 공격 성공률이 41.2%에서 2.2%로 감소하였으며, ASB 벤치마크에서는 자동 정책만으로도 70.3%에서 7.3%까지 감소하였다. 지식 베이스 오염 공격(AgentPoison)에서는 성공률을 0%로 낮추었다. (Figure 5, 6, 7 참조)
  • 정책의 수동/자동 혼합 관리가 가능하며, 수동 정책은 일반 보안 요구사항에 대한 결정적 보장을 제공하고, 자동 생성 정책은 작업 특화 보안을 자동화할 수 있어 실용성과 안전성을 모두 확보할 수 있다.
  • Progent는 모듈형 구조를 가지며, 기존 에이전트 시스템에 간단히 통합 가능하다. 통상 10줄 이내의 코드 수정만으로 기존 시스템에 적용할 수 있다.

Progent는 정책 기반의 시스템 레벨 방어 접근법을 LLM 에이전트 보안에 적용한 최초의 사례로, 다양한 도메인에 걸쳐 에이전트의 실행을 안전하게 제어할 수 있는 실용적이고 확장 가능한 솔루션을 제시한다.


2. Personalized Text-to-Image Generation with Auto-Regressive Models

(게재일: 2025년 4월 17일, 소속: The University of Hong Kong, The Chinese University of Hong Kong)

주요 Task

  • Personalized Image Synthesis
  • Auto-regressive Text-to-Image Generation
  • Text Embedding Optimization
  • Transformer Fine-tuning

중요 내용 요약

본 논문은 기존에는 주로 확산 기반 모델(diffusion models)이 활용되었던 개인화 이미지 생성(personalized image generation) 분야에 대해 오토리그레시브(auto-regressive) 모델의 가능성을 본격적으로 탐구한다. 저자들은 텍스트-이미지 통합 아키텍처를 가진 오토리그레시브 모델이 개인화 이미지 생성에도 적합할 수 있음을 보이며, 이에 맞춰 두 단계의 학습 전략을 제안한다.

핵심 기여는 다음과 같다:

  • 2단계 학습 전략 제안: 첫 번째 단계에서는 특정 주제를 대표하는 텍스트 임베딩을 최적화하고, 두 번째 단계에서는 트랜스포머 계층을 미세 조정하여 모델의 표현력을 강화한다. 이 과정은 Figure 2에 요약되어 있다.
  • 텍스트 임베딩 최적화: DreamBooth 방식처럼 “[V]”라는 고유 식별자를 통해 텍스트 임베딩을 새롭게 정의하고, 주어진 몇 장의 이미지로 학습시킨다. per-image token 전략을 병행하여 학습 안정성과 표현력의 균형을 도모한다.
  • 트랜스포머 계층 미세조정: 텍스트 임베딩만으로는 충분한 표현이 어려워, 트랜스포머 전체를 미세조정하는 2단계 방식이 도입된다. LoRA 방식도 병행 평가되며, 풀 파인튜닝 대비 유사한 성능을 보이나 다소의 손실이 발생한다 (Table 3 참조).
  • 정량적 성능 평가: DreamBench 벤치마크를 기반으로 평가한 결과, 제안된 방법은 Textual Inversion, Re-Imagen, zero-shot BLIP-Diffusion 대비 더 나은 주제 충실도(subject fidelity)와 프롬프트 수행력(prompt following)을 보이며, DreamBooth 수준과도 유사한 성능을 달성하였다 (Table 1 참조).
  • 정성적 예시: 다양한 배경 및 소품에 맞춰 생성된 이미지 결과들을 통해, 주제 재배치(re-contextualization), 소품 적용(accessorization), 속성 변경(property modification)에서의 우수한 표현력을 시각적으로 확인할 수 있다 (Figure 3, 4 참조).
  • 사전지식 보존: diffusion 기반 모델에서는 미세조정 시 class drift가 발생할 수 있으나, 오토리그레시브 모델은 본래의 클래스 표현력을 유지하면서도 주제 개인화를 수행할 수 있어, Prior Preservation Loss 없이도 안정적으로 학습 가능함을 보인다 (Table 2, Figure 5 참조).
  • 한계 및 향후 과제: 예술 스타일 적용, 새로운 시점의 생성, 다중 개체 혼합 등 복잡한 요청에 대한 대응에서는 여전히 한계가 존재한다 (Figure 7 참조). 또한 학습과 추론 속도 문제, 그리고 윤리적 악용 가능성 등의 이슈가 논의된다.

이 연구는 오토리그레시브 모델이 확산 기반 모델의 대안으로 개인화 이미지 생성에 유효함을 실험적으로 입증하며, 텍스트-이미지 통합 생성의 새로운 가능성을 제시한다.


3. CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

(게재일: 2025년 4월 18일, 소속: Tsinghua University, PLA General Hospital)

주요 Task

  • Radiograph Representation Learning
  • Local Anatomical Structure Modeling
  • Global Anatomical Layout Modeling
  • Domain Variation Modeling

중요 내용 요약

본 논문은 세계 모델링(world modeling)의 개념을 방사선 영상 표현 학습에 적용한 최초의 시도로, 자기지도 방식의 의료 영상 학습 프레임워크인 CheXWorld를 제안한다. CheXWorld는 방사선 전문의가 진단 시 고려하는 핵심적인 세 가지 의료 지식 차원을 모사하는 세 가지 모델링 과제를 통합하여 설계되었다.

핵심 기여는 다음과 같다:

  • 지역 해부 구조 모델링(Local Anatomical Structure Modeling)
    마스킹된 조직 영역의 미세한 구조를 주변 정보만으로 복원하는 과제를 통해, 뼈, 혈관 등 국소 해부학적 특징을 학습한다. 이 방식은 단순한 픽셀 복원 대신 구조적 연속성 이해에 초점을 맞춘다 (Figure 1(a), Figure 4(a) 참조).
  • 전신 해부 레이아웃 모델링(Global Anatomical Layout Modeling)
    영상 내 두 영역 간의 상대 위치 정보를 바탕으로, 하나의 영역으로부터 다른 해부 구조를 예측하도록 학습하여 장기 간의 공간적 관계를 학습한다 (Figure 1(b), Figure 4(b) 참조).
  • 도메인 변이 모델링(Domain Variation Modeling)
    병원, 장비, 노출 조건 등에 따라 달라지는 영상 도메인 간 변화를 모델링한다. 데이터 증강을 통해 시뮬레이션한 도메인 전이에 대해 예측 가능성을 높임으로써 강인한 표현 학습을 유도한다 (Figure 1(c), Table 4 참조).
  • 통합 프레임워크
    상기 세 과제를 하나의 전방향 학습 파이프라인으로 통합한 unified loss 설계를 통해, 각각의 정보를 동시에 학습하며 상호 보완적인 효과를 극대화하였다 (Figure 1(d) 참조).
  • 전이 성능 및 분석 실험
    CheXWorld는 8개의 의학 영상 분류 및 분할 벤치마크에서 다른 최신 자기지도 학습 방식(MAE, SimMIM, Adam-v2 등)과 비교해 모든 지표에서 우수한 성능을 기록했다. 특히 소량 데이터 학습(1% 수준) 환경에서도 강력한 성능을 발휘함으로써 효율성과 범용성을 입증하였다 (Table 1, Table 2, Figure 7 참조).
  • 해부학적 의미의 학습 시각화
    모델이 마스킹 영역의 구조를 복원하거나 특정 해부학적 포인트 간의 의미 기반 유사성을 포착하는 등의 결과를 통해, 실제로 의료 지식을 내재화하고 있음을 보여준다 (Figure 5, Figure 6 참조).

본 논문은 방사선 이미지에 대한 표현 학습에 있어 단순 복원 중심의 자기지도 학습을 넘어, 의미 중심의 세계 모델링 접근을 도입함으로써 의료 영상 특화 모델 학습에 있어 새로운 방향성을 제시한다. CheXWorld는 의료 영상 분야에서 범용성과 설명력을 갖춘 파운데이션 모델 구축을 위한 중요한 기반이 될 수 있다.


4. BookWorld: From Novels to Interactive Agent Societies for Creative Story Generation

(게재일: 2025년 4월 20일, 소속: Fudan University)

주요 Task

  • Multi-Agent Story Simulation
  • Fictional World Reconstruction
  • Character-Driven Story Generation
  • Worldview-Aware Language Modeling

중요 내용 요약

본 논문은 기존 문학 작품의 설정과 캐릭터를 바탕으로 인터랙티브한 사회를 구성하고, 이를 통해 창의적인 이야기 생성을 가능하게 하는 시스템 BookWorld를 제안한다. 기존의 다중 에이전트 시스템 연구가 주로 인공적인 캐릭터 설정에 의존한 반면, BookWorld는 실제 소설에서 등장인물과 세계관을 추출하여 이를 기반으로 소설 기반 에이전트 사회를 구성한 것이 특징이다.

핵심 구성 요소 및 기여는 다음과 같다:

  • 다층적 시뮬레이션 프레임워크 설계
    BookWorld는 등장인물을 기반으로 하는 역할 에이전트(role agent)와 전체 환경 및 시간 흐름을 제어하는 월드 에이전트(world agent)를 포함한다. 시뮬레이션은 다수의 장면(scene)으로 구성되며, 각 장면에서 에이전트들은 목표에 따라 행동을 결정하고 상호작용을 수행한다 (Figure 2 참조).
  • 정교한 정보 추출 기법
    원문 텍스트로부터 등장인물 정보, 행동 양식, 대사, 관계, 세계관 설정(지리, 사회 규범, 문화 등)을 구조화된 형태로 추출하며, 총 16권의 영어 및 중국어 문학 작품에서 9,142개의 세계관 설정을 구축하였다 (Table 5, 6 참조).
  • 강화된 환경 반응 및 캐릭터 기억 시스템
    캐릭터는 짧은 기억(STM)과 요약된 장기 기억(LTM)을 기반으로 일관된 행동을 보이며, 환경과의 상호작용 시 월드 에이전트가 설정된 세계관에 따라 문학적 반응을 생성한다 (Table 3 참조).
  • 자유 시뮬레이션 및 스크립트 기반 생성 모드 지원
    사용자 설정에 따라 에이전트들이 자율적으로 행동하는 Free Mode와, 미리 정의된 줄거리에 따라 시뮬레이션을 진행하는 Script Mode를 제공하여 다양한 활용 가능성을 확보하였다.
  • 정량적 평가 결과
    BookWorld는 기존 방식인 Direct generation 및 HoLLMwood 대비 전반적인 이야기 품질(몰입감, 캐릭터 일관성, 배경 설정 충실도 등)에서 높은 우세를 보였다. 특히 몰입감 측면에서 모든 모델에서 월등한 성능을 기록했으며, 전체 비교 실험에서 75.36%의 승률을 달성하였다 (Table 1 참조).
  • Ablation Study 및 기능 중요도 검증
    장면 단위 구조(Scene), 환경 응답(Environment), 세계관 설정(Set)을 제거했을 때 몰입도, 서사 일관성, 창의성 등 대부분의 지표에서 성능 하락이 나타나, 각 기능의 중요성을 실증하였다 (Table 2 참조).

BookWorld는 기존 문학 기반 세계를 디지털 에이전트 사회로 전환함으로써, 창작·게임·교육 등 다양한 분야에서 활용 가능한 이야기 생성 시스템의 가능성을 입증하며, 향후 다중 에이전트 기반 인터랙티브 시뮬레이션 연구의 새로운 방향성을 제시한다.


5. DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions

(게재일: 2025년 4월 20일, 소속: Queen Mary University of London, Sony AI, Sony Group Corporation)

주요 Task

  • Differentiable Audio Effects Modelling
  • Vocal Effects Parameter Estimation
  • Automatic Music Mixing Analysis
  • Timbre Feature Decomposition

중요 내용 요약

본 논문은 보컬 트랙의 전문적인 음향 효과 설정을 모사하고 분석하기 위한 DiffVox라는 차별화 가능한 모델을 제안한다. 이 모델은 실제 음악 믹싱에서 사용되는 EQ, 압축기, 딜레이, 리버브 등의 효과를 모듈화하여 미분 가능한 구조로 구성하며, 수백 개의 실제 보컬 트랙에 효과를 피팅하고 그 결과로 얻어진 파라미터 분포를 분석한다.

핵심 기여는 다음과 같다:

  • 효율적이고 해석 가능한 효과 체인 구성
    6밴드 파라메트릭 이퀄라이저, 피드포워드 압축기 및 익스팬더, 핑퐁 딜레이, 피드백 딜레이 네트워크(FDN) 리버브를 포함한 효과 체인을 미분 가능한 구조로 구성하였다. 각각의 효과는 실시간 구현 가능성을 고려하여 컴팩트하게 설계되었으며, GPU 병렬 처리를 통해 학습 속도를 개선하였다 (Figure 1 참조).
  • 멀티해상도 기반 손실 함수 설계
    스펙트럼 기반 MRS(Multi-Resolution STFT) 손실과 마이크로다이내믹스를 반영한 MLDR(Multi-Resolution Loudness Dynamic Range) 손실을 결합하여 정밀한 음향 피팅이 가능하도록 설계하였다.
  • 보컬 효과 파라미터 추정 및 공개 데이터셋 제공
    MedleyDB 및 내부 보컬 스템 데이터셋(총 435 트랙)을 사용하여 효과 피팅을 수행하였으며, 결과로 생성된 파라미터를 로그릿 형태로 공개하였다.
  • 공간 효과의 중요성 실증
    FDN 또는 딜레이가 없을 경우에는 마이크로다이내믹스 피팅 성능이 현저히 저하되며, 리버브와 딜레이를 함께 사용할 때 가장 낮은 손실을 기록하였다 (Table 2 참조).
  • 파라미터 상관 분석
    PEQ, 딜레이, 리버브 등 개별 효과 파라미터 간의 상관관계를 분석한 결과, 예를 들어 딜레이 시간과 피드백 게인 사이에 음의 상관관계가, 리버브 고주파 감쇠와 LP 필터 간에 양의 상관관계가 확인되었다 (Table 3, Figure 5 참조).
  • 주성분 분석(PCA)을 통한 해석적 이해 제공
    파라미터 분포의 주요 성분은 공간감(spaciousness)과 스펙트럼 대역폭(spectral bandwidth)에 대응되며, 이는 McAdams의 음색 공간 이론과 일치하는 경향을 보인다. PCA를 통해 구성된 분포는 정규 분포가 아니며, 더 정교한 생성 모델이 필요함을 시사한다 (Figure 2, Figure 3 참조).

DiffVox는 보컬 효과의 복잡한 분포와 상호작용을 모델링할 수 있는 해석 가능하고 차별화 가능한 모델을 제공하며, 향후 자동 믹싱, 오디오 스타일 변환, 뉴럴 오디오 효과 학습 분야에 활용될 수 있는 잠재력을 지닌다.


6. RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

(게재일: 2025년 4월 22일, 소속: DAMO Academy, Alibaba Group, Zhejiang University, Hupan Lab, Southern University of Science and Technology, Shenzhen University)

주요 Task

  • Controllable Character Animation
  • Video Generation from Pose and Reference Image
  • Model Fine-tuning for Animation
  • Open-Scene Character-Object Interaction Synthesis

중요 내용 요약

본 논문은 개방된 실제 환경에서도 강력하게 작동하는 캐릭터 애니메이션 생성 모델RealisDance-DiT를 제안한다. 기존 방식은 복잡한 구조의 Reference Net을 통해 캐릭터 ID를 주입하는 데 집중하였으나, 복잡한 포즈나 조명, 스타일화된 캐릭터, 오브젝트 상호작용 등의 다양한 장면에서 성능 저하 문제가 있었다. 이에 저자들은 강력한 비디오 기반 생성 모델인 Wan-2.1에 기반하여 구조적으로 단순하면서도 성능이 뛰어난 새로운 접근을 제안한다.

핵심 기여는 다음과 같다:

  • 단순한 구조 수정만으로 고성능 달성
    기존의 Reference Net 없이, 조건 입력 계층 및 RoPE 포지션 인코딩 수정 등 최소한의 아키텍처 변경을 통해 뛰어난 성능을 보이는 베이스라인을 구축하였다 (Figure 3 참조). 오히려 Reference Net은 대규모 DiT 모델에서는 부작용을 초래할 수 있음이 확인되었다.
  • 효율적인 파인튜닝 전략 제안
    모델 프리트레인된 지식을 보존하면서 수렴 속도를 빠르게 하는 두 가지 전략을 제안하였다:
    • Low-noise warmup: 초기 학습 단계에서 적은 양의 노이즈를 주입함으로써 안정적인 수렴 유도 (Figure 5 참조)
    • Large batches and small iterations: 큰 배치와 적은 반복 횟수로 과적합 방지 및 프리트레인된 priors 유지 (Figure 9 참조)
  • 다양한 실제 장면을 아우르는 벤치마크 데이터셋 수집
    기존 TikTok 및 UBC 패션 영상 외에, 복잡한 포즈, 캐릭터-오브젝트 상호작용, 조명 변화 등을 포함하는 RealisDance-Val 데이터셋을 수집하여 성능을 다각도로 검증하였다.
  • 정량적 및 정성적 실험에서 우수한 성능 확인
    다양한 영상 생성 모델들과 비교했을 때, RealisDance-DiT는 모든 데이터셋에서 가장 낮은 FID와 FVD 값을 기록하였으며, 스타일화된 캐릭터, 조명 처리, 동적 배경 처리 등에서도 뛰어난 성능을 보였다 (Table 1-3, Figure 6-7 참조).
  • 주요 파라미터만 미세 조정해도 동일한 성능 확보
    전체 모델 파인튜닝이 아니라, 일부 계층만 파인튜닝해도 동일한 성능을 낼 수 있어 학습 효율성과 실용성을 입증하였다 (Table 4 참조).

RealisDance-DiT는 "강력한 비디오 파운데이션 모델을 어떻게 효율적으로 활용할 수 있는가"에 대한 새로운 시각을 제시하며, 간결한 구조와 실제 활용 가능한 성능을 동시에 충족시키는 모델로서 향후 캐릭터 애니메이션 분야의 유의미한 기준점이 될 수 있다.


7. Efficient Pretraining Length Scaling

(게재일: 2025년 4월 22일, 소속: ByteDance Seed, Peking University, Hong Kong University)

주요 Task

  • Pretraining Length Scaling
  • Efficient Transformer Training
  • KV Cache Optimization
  • Hidden Decoding Mechanisms

중요 내용 요약

본 논문은 기존에는 주로 사후 학습(post-training)에서만 논의되던 Length Scaling을 사전 학습(pre-training) 단계에서도 효율적으로 활용할 수 있는 새로운 프레임워크인 PHD-Transformer를 제안한다. 단순히 입력 토큰을 반복(repetition)하여 모델의 추론 능력을 높이는 기존 방식은 KV 캐시(KV Cache) 사용량 증가 및 추론 지연 등의 문제를 유발한다. 이에 저자들은 병렬 은닉 디코딩 방식으로 이를 해결하며, 다양한 최적화 기법을 통해 효율성과 성능을 동시에 확보하였다.

핵심 기여는 다음과 같다:

  • PHD-Transformer 프레임워크 제안
    입력 토큰을 반복하되, 원래 토큰(original tokens)의 KV 캐시만 유지하고, 반복된 은닉 디코딩 토큰(hidden decoding tokens)의 KV 캐시는 예측에 사용된 후 즉시 폐기하는 구조를 채택하였다. 이를 통해 캐시 크기를 기존과 동일하게 유지하면서도 성능 향상을 달성하였다 (Figure 2 참조).
  • PHD-SWA 및 PHD-CSWA 확장
    은닉 디코딩 토큰의 국소 정보를 일부 유지하는 Sliding Window Attention(PHD-SWA)을 통해 성능을 더 향상시키고, 그에 따른 선형적 시간 증가 문제는 Chunk-wise Sliding Window Attention(PHD-CSWA)로 해결하여 실용성을 높였다 (Figure 4 참조).
  • 실험을 통한 효과 검증
    다양한 벤치마크(ARC, HellaSwag, PIQA, Winogrande, MMLU, CommonsenseQA)에서 PHD-CSWA-2-16-32PHD-CSWA-3-16-32는 평균적으로 1.5~2.0%의 정확도 향상과 손실 감소를 보였다 (Table 1, Figure 5 참조).
  • 효율성 확보
    PHD-CSWA는 pre-filling 시간과 decoding latency를 기존 수준으로 유지하면서도 scaling factor(K)를 크게 늘려도 부하가 거의 증가하지 않음을 보여주었다 (Figure 9 참조).
  • 창의적인 설계 기반의 kernel 최적화
    sparse attention 구조를 효과적으로 재배치하여 연산량을 줄이고, 반복 토큰의 메모리 사용을 효율화하였다 (Figure 3 참조).
  • 해석 가능한 성능 향상 요인
    PHD-SWA의 window 크기 및 chunk 크기를 조절한 ablation 실험을 통해, 작은 window만으로도 충분한 성능 향상이 가능하고, chunk size가 클수록 성능 손실 없이 더 높은 효율을 보장함을 입증하였다 (Figure 6, 7 참조).

본 논문은 사전 학습에서의 토큰 반복이 성능을 개선할 수 있다는 점을 실험적으로 입증하고, 효율적인 캐시 관리 전략과 attention 구조 설계를 통해 기존 한계를 뛰어넘은 실용적인 길을 제시한다. 이는 향후 대규모 LLM 훈련 전략의 설계에 있어 중요한 전환점이 될 수 있다.


8. Kuwain 1.5B: An Arabic SLM via Language Injection

(게재일: 2025년 4월 22일, 소속: Misraj.ai, 사우디아라비아 Khobar)

주요 Task

  • Language Injection
  • Multilingual Language Model Adaptation
  • Tokenizer Expansion for Arabic
  • Cross-lingual Knowledge Retention

중요 내용 요약

본 논문은 영어 기반 LLM에 아랍어를 효율적으로 삽입하여, 기존 모델 성능을 보존하면서 새로운 언어 능력을 부여하는 기법을 제안한다. 저자들은 1.5B 파라미터 규모의 경량 모델 Kuwain을 제안하며, 이는 기존 TinyLlama 1.1B 모델에 아랍어를 언어 주입(language injection) 방식으로 통합하여 구축되었다.

핵심 기여는 다음과 같다:

  • 계층 확장 방식 적용
    기존 모델의 구조를 변경하지 않고, 특정 층마다 새로운 계층(identity blocks)을 삽입하여 오직 해당 계층만 학습시키는 방식으로 아랍어 언어 능력을 주입함. 원래 계층은 동결(frozen) 상태를 유지하여 기존 영어 능력을 보존 (Figure 2(b), Figure 3 참조).
  • 어휘 집합(tokenizer) 확장
    SentencePiece 기반으로 훈련한 26K개의 아랍어 토큰을 기존 영어 중심 tokenizer에 추가하여, 토큰화 효율성을 대폭 개선하였다. 이로 인해 아랍어에서 발생하는 불필요한 토큰 분할을 줄이고 학습 효율을 높임 (Figure 2(a), Table 1 참조).
  • 효율적 데이터 비율 제안
    전체 학습 데이터의 20%만 영어로 유지하면서도 기존 모델의 영어 성능을 보존하고, 아랍어 성능도 확보하였다. 이 접근은 기존의 50% 이상 영어 데이터를 사용하는 방식보다 훨씬 효율적이다 (Table 2 참조).
  • 대조 실험을 통한 방법론 검증
    계층 확장 없이 전체 모델을 다시 훈련한 경우(Kuwain-Naive) 영어 성능이 크게 하락한 반면, 제안 방식은 기존 영어 성능을 유지하며 아랍어 성능도 유사하게 확보하였다 (Table 3, Table 4 참조).
  • 압도적인 성능-효율 비
    Arabic LLM Leaderboard에서 1.5B 파라미터의 소형 모델임에도 불구하고, 7B 이상의 대형 모델들과 유사하거나 더 나은 성능을 기록하였다. 이는 특히 HellaSwag, Copa, ARC-e 등에서 돋보였으며, 전반적인 평균 점수에서도 강한 경쟁력을 보였다 (Table 6 참조, Figure 1 참조).
  • 최적의 계층 배치 전략 제시
    학습 안정성을 위해 연속된 계층 삽입은 피하고, 마지막 계층은 반드시 학습 가능 상태로 유지해야 한다는 점을 실험적으로 입증하였다 (Figure 4 참조).

Kuwain은 기존 영어 모델을 최소 비용으로 새로운 언어(아랍어)에 적응시키는 데 성공한 사례로, 계층 확장과 어휘 확장이라는 간단하지만 효과적인 기법을 통해 다국어 모델 설계의 새로운 방향을 제시한다. 본 방식은 특히 리소스가 제한된 환경에서 다양한 언어 지원이 필요한 경우에 높은 실용성과 확장 가능성을 제공한다.


9. IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs

(게재일: 2025년 4월 21일, 소속: ByteDance Inc.)

주요 Task

  • Image-Grounded Video Perception
  • Video Reasoning
  • Temporal Reasoning
  • Keyframe Localization
  • Spatial Relationship Understanding

중요 내용 요약

본 논문은 이미지 기반 비디오 이해(Image-grounded Video Perception and Reasoning)의 능력을 평가할 수 있는 최초의 벤치마크 IV-Bench를 제안한다. 기존 멀티모달 대형언어모델(MLLM)에 대한 벤치마크는 대부분 이미지 혹은 텍스트 중심으로 구성되어 있으며, 비디오 내 의미를 정밀하게 이해하기 위해 정적인 이미지 맥락이 필요한 상황을 반영하지 못하고 있었다.

주요 기여는 다음과 같다:

  • IV-Bench 데이터셋 구성:
    총 967개의 비디오와 외부 이미지로 구성된 2,585개의 질의-정답 쌍을 포함하며, 13개의 Task (7개의 perception, 6개의 reasoning)를 다룬다. 모든 이미지와 질문은 영상 외부에서 수집된 이미지를 기반으로 수작업으로 주석되었으며, 비디오와 이미지 모두를 결합해야 정답 도출이 가능하도록 설계되었다 (Figure 1, 2 참조).
  • 다양한 Task 구성:
    Perception Task에는 객체 존재 여부(Existence), 키프레임 추출(Keyframe), 공간관계 인식(Spatial Relationship) 등이 포함되며, Reasoning Task에는 속성 변화(Attribute Change), 시공간 계산(Space-Time Computing), 요약(Summary) 등의 고차원적 추론 능력이 요구된다.
  • 기존 벤치마크와의 비교:
    IV-Bench는 기존 Video-MMMU, V2P-Bench 등과는 달리, 이미지, 텍스트, 비디오 세 modality가 모두 필수적이며 각 modality가 문제 해결에 반드시 기여해야 정답을 도출할 수 있도록 설계되어 있다 (Table 1, Figure 7 참조).
  • 최신 MLLM 성능 분석:
    GPT-4o, Gemini-2-Pro 등의 폐쇄형 모델과 Qwen2.5-VL, InternVL2.5 등의 오픈소스 모델 포함 총 27개 모델을 비교하였다. 최고 성능 모델조차 전체 정확도는 28.9%에 그쳤고, reasoning task의 경우 평균 정확도는 24.9%로, 특히 Temporal Reasoning은 16.7%에 불과하였다 (Table 2 참조).
  • 추론 패턴 및 입력 순서의 영향 분석:
    이미지가 비디오보다 먼저 주어졌을 경우 정보가 무시되는 경향이 있어, 큰 모델일수록 이미지를 나중에 제공하는 방식이 효과적이었다 (Figure 3 참조). 또한, 프레임 수나 해상도를 늘리면 성능 향상에 도움이 되나, 일정 수준 이상에서는 효과가 미미해진다 (Figure 4 참조).
  • 간단한 합성 데이터 실험:
    기존 영상 QA 데이터셋을 활용하여 IV-Bench 형식의 질의로 변환한 후 모델을 파인튜닝한 결과, 성능은 다소 향상되었으나 한계가 분명하였다. 단순히 포맷 정렬만으로는 IV-Bench에서 요구하는 수준의 이해력을 획득할 수 없음을 시사한다 (Table 3 참조).

본 논문은 멀티모달 모델이 실세계에서 이미지와 비디오가 결합된 맥락을 얼마나 정확히 해석할 수 있는지를 측정하는 기준점을 제시하며, 향후 영상 기반 추론 능력 강화를 위한 모델 설계와 학습 데이터 구성에 중요한 인사이트를 제공한다.


10. Learning Adaptive Parallel Reasoning with Language Models

(게재일: 2025년 4월 21일, 소속: UC Berkeley, UCSF)

주요 Task

  • Parallel Inference Optimization
  • Adaptive Reasoning Structure Learning
  • Inference-time Computation Allocation
  • Reinforcement Learning for Reasoning

중요 내용 요약

본 논문은 언어 모델의 추론 성능을 향상시키기 위한 새로운 방식인 Adaptive Parallel Reasoning (APR)을 제안한다. 기존 체인 오브 쏘트(Chain-of-Thought, CoT) 방식은 긴 출력을 초래하여 컨텍스트 윈도우 초과와 높은 지연(latency) 문제를 낳았고, 병렬 방식인 Self-Consistency는 비효율적 중복 탐색이 문제였다. APR은 이 두 방식의 한계를 해결하고, 언어 모델이 동적으로 직렬(serial)과 병렬(parallel) 추론 구조를 학습 및 조정할 수 있도록 한다.

핵심 기여는 다음과 같다:

  • 스폰(spawn)과 조인(join) 기반 다중 스레드 구조
    모델은 추론 도중 spawn()을 통해 병렬 하위 스레드를 생성하고, 각 스레드는 독립적으로 탐색을 수행한 후 join()을 통해 결과를 반환한다. 부모 스레드는 자식 스레드들의 결과를 받아 이를 반영해 추론을 이어간다 (Figure 1, 2, 3 참조).
  • 종단 간 강화학습(end-to-end RL)
    단순 모방 학습을 넘어, 강화학습을 통해 어느 시점에서 병렬화를 수행할지, 얼마나 병렬로 탐색할지를 모델이 스스로 결정하도록 학습시켰다. 이로써 효율성과 성능을 모두 개선할 수 있었다 (Figure 5 참조).
  • Countdown 문제에서의 성능 개선
    실험은 숫자 조합을 통해 목표 숫자를 만드는 Countdown 문제를 기준으로 진행되었으며, 다음과 같은 성능을 확인하였다:
    • 동일한 컨텍스트 윈도우 조건(4k)에서 기존 방식보다 23.4%p 높은 정확도(83.4% vs 60.0%)
    • 총 토큰 20k 기준 13.5%p 더 높은 정확도(80.1% vs 66.6%)
    • 동일한 추론 지연 조건(5000ms)에서 17.9%p 더 높은 정확도(75.2% vs 57.3%) (Figure 4, 6 참조)
  • 효율성 분석
    APR은 병렬화를 통해 실질적 추론 지연과 시퀀셜 토큰 수를 절감하면서도 더 높은 정확도를 유지함. 특히 실제 GPU 기반 환경에서 SoS+ 대비 높은 처리 효율을 보였으며, 8-GPU 서버 환경에서도 뛰어난 성능을 발휘함.
  • 훈련 방법론
    초기에는 하이브리드 symbolic solver를 통해 병렬 탐색이 포함된 추론 시퀀스를 생성하고, 이를 모방(supervised)하여 학습. 이후 강화학습을 통해 병렬 탐색의 깊이와 범위를 동적으로 최적화함 (Algorithm 2 참조).

APR은 언어 모델이 추론 중 스스로 연산 자원을 병렬적으로 배분할 수 있도록 훈련됨으로써, 기존의 고정 구조 기반 추론 기법에 비해 더 유연하고 효율적인 대안이 될 수 있음을 입증하였다. 이는 향후 일반적인 복합 추론 문제 해결에서도 중요한 패러다임 전환을 의미할 수 있다.


11. CAPTURE: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

(게재일: 2025년 4월 21일, 소속: UNC Chapel Hill)

주요 Task

  • Occluded Object Counting
  • Pattern Recognition under Occlusion
  • Spatial Reasoning in VLMs
  • Amodal Completion

중요 내용 요약

본 논문은 비전-언어 모델(Vision-Language Models, VLMs)의 공간 추론 능력을 정량적으로 평가하기 위해, CAPTURE라는 새로운 벤치마크를 제안한다. CAPTURE는 모델이 가려진(occluded) 물체들을 규칙적 패턴에 따라 추론하여 총 개수를 맞추는 능력을 평가하며, 이는 실제 환경에서의 공간 이해와 세계 모델링 능력과 밀접한 연관이 있다.

CAPTURE 벤치마크는 다음 두 가지로 구성된다:

  • CAPTUREreal: 실제 이미지 기반, 924개의 패턴 이미지와 92종의 물체 유형 포함. FSC-147에서 추출된 데이터를 바탕으로 인위적으로 가림(occlusion)을 추가함.
  • CAPTUREsynthetic: 색상, 모양, 배치 등 모든 요소를 통제한 1250개의 합성 이미지로 구성. 정확한 분석을 위한 조건 제어가 가능함.

주요 내용은 다음과 같다:

  • 모델의 전반적 성능 저하
    GPT-4o, InternVL2, Qwen2VL, Molmo 등 4개의 최신 VLM을 테스트한 결과, 모든 모델이 가려지지 않은 이미지보다 가려진 이미지에서 오차율이 높아지는 현상을 보였음. 예를 들어, GPT-4o는 CAPTUREreal에서 13.34% → 14.75%, CAPTUREsynthetic에서 5.90% → 9.71%로 오차율 증가를 보였다 (Table 2 참조).
  • 사람은 거의 오차 없이 수행 가능
    동일한 데이터셋에서 사람의 오차율은 CAPTUREreal 3.79%, CAPTUREsynthetic 0.92%에 불과하여, 모델과 큰 성능 격차가 존재함을 확인하였다 (Table 3 참조).
  • 객체 검출 기반 방법(COUNTGD)은 VLM보다 우수하지만 reasoning은 불가능
    COUNTGD는 가려지지 않은 이미지에서는 낮은 오차(3.15%)를 보이지만, 가려진 이미지에서는 10.34%로 성능이 크게 저하됨. 이는 해당 모델이 단순 검출만 가능하고 occlusion 상황에서는 reasoning이 불가능함을 보여준다.
  • 보조 정보 제공 시 성능 향상
    VLM에게 텍스트 기반으로 객체 좌표를 제공하는 ‘oracle’ 실험에서 성능이 눈에 띄게 향상됨. 예: GPT-4o의 경우 전체 좌표 제공 시 오차율이 14.75% → 2.93%로 감소함 (Table 5 참조). 이는 모델의 오류가 단순 시각 처리보다 공간 reasoning 및 counting 능력 부족에 기인함을 시사함.
  • 합성 데이터로 인한 원인 분석 가능
    CAPTUREsynthetic 실험에서 다음과 같은 패턴이 관찰됨:
    • 가려진 객체 수가 많을수록 성능 저하 (Figure 6 참조)
    • 모델은 특정 숫자를 선호하여 예측 편향 발생 (예: 8, 10, 12 등)
    • 원형 배열은 다른 배열보다 상대적으로 높은 정확도 기록 (Figure 7 참조)
  • 패턴 인식은 가능하나 reasoning은 부족
    대부분 모델이 가려진 상황에서도 패턴 유형(원형, 삼각형, 직사각형 등)을 구분하는 능력은 70~85%로 비교적 높았으나, 이를 활용한 occluded counting에는 실패함 (Table 4 참조).
  • 추론 구조 설계 방향 시사
    VLM이 시각 입력에 대한 reasoning 능력을 갖추기 위해서는 단순 시각 정보 처리보다 world model 형성, 수량 추론, 구조적 reasoning 훈련이 필요함을 강조.

CAPTURE는 단순 물체 인식이 아닌 부분 정보에 기반한 공간 추론이라는 복합 과제를 통해, VLM이 실제 환경에서 신뢰할 수 있는 판단을 내리기 위해 반드시 필요한 능력을 평가할 수 있는 유용한 기준점을 제시한다.


12. The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

(게재일: 2025년 4월 23일, 소속: Alibaba International Digital Commerce, Monash University, The University of Edinburgh, Tsinghua University, Universität Hamburg)

주요 Task

  • Multilingual Benchmark Analysis
  • Evaluation-Human Alignment
  • Language Representation Equity
  • Localized Benchmark Design
  • Cross-lingual Performance Correlation

중요 내용 요약

본 논문은 2021년부터 2024년까지 발표된 2,000개 이상의 다국어 벤치마크를 종합 분석하여, 대형 언어 모델(LLM) 시대의 다국어 평가 현황과 그 한계를 체계적으로 정리하고 향후 방향을 제안하는 포지션 페이퍼이다. 연구진은 148개국에서 수집된 벤치마크를 기반으로, 과거-현재-미래라는 시간축 프레임을 통해 평가 관행의 문제점을 고찰하고 인간 판단과의 불일치, 문화적 비적합성, 저자원 언어의 저평가 등의 문제를 지적한다.

핵심 기여는 다음과 같다:

  • 언어 불균형과 번역의 한계
    영어를 제외한 벤치마크만 수집했음에도 영어가 가장 빈번하게 등장하며, 중국어, 독일어, 프랑스어 등 고자원 언어가 대부분을 차지한다 (Figure 2 참조). 전체 벤치마크의 61.4%는 번역 없이 원어로 구성되었고, 인간 번역은 단 13.2%에 불과하다 (Figure 3 참조).
  • 과제 유형과 데이터셋 크기 추이 분석
    판별형(discriminative) 과제가 66.5%로 지배적이며, 질문응답 및 독해는 LLM 도입 이후 급격히 증가하였다. 생성형(generative) 과제는 전체의 23.5%로 상대적으로 저조하다 (Figure 4(a) 참조). 데이터셋 크기는 해마다 급증하고 있으며, 전체 구축 비용은 약 1,100만 달러에 달한다 (Figure 4(b) 참조).
  • 사용자 요구와 평가 간의 괴리
    실제 사용자 요청 분석(Chatbot Arena, WildChat 기반)에 따르면, 작성(writing), 상식 추론, 프로그래밍이 언어에 관계없이 핵심적인 수요임이 확인되었다 (Figure 7 참조). 그러나 현재의 벤치마크는 해당 수요와 충분히 일치하지 않으며, 특정 과제(XNLI, XQuAD 등)는 인간 판단과 상관관계가 매우 낮다 (Table 2 참조).
  • 현실과의 괴리
    번역 기반 벤치마크는 인간 판단과의 일치도가 낮으며, 실제 언어 환경에서 수집된 지역화 벤치마크(CMMLU 등)는 훨씬 더 높은 상관관계를 보였다. 예: CMMLU(0.682) > MMLU 번역본(0.473) (Table 2 참조).
  • 향후 벤치마크가 갖춰야 할 조건 6가지 제시
    정확성, 오염 방지, 난이도, 실제성, 언어 다양성, 문화 적합성이 필수 조건으로 제시되었다 (Figure 8 참조).
  • 5가지 미래 연구 방향 제안
    ① 자연어 생성 중심 벤치마크 확대
    ② 저자원 언어 대표성 강화
    ③ 지역화된 평가 자원 구축
    ④ LLM 자체를 평가자로 활용 (LLM-as-a-Judge)
    ⑤ 효율적이고 축소된 평가 체계 설계
  • 글로벌 협력 촉구
    중복된 벤치마크 구축 비용을 줄이고, 진정한 언어 형평성을 달성하기 위해 전 세계 연구자, 산업, 지역 사회가 협력해 인간 중심 평가(Human-Aligned Evaluation) 프레임워크를 개발할 것을 제안한다.

본 논문은 단순한 수치 비교를 넘어서, 다국어 평가의 구조적 한계와 개선 방향을 총체적으로 정리한 실질적 로드맵으로 기능하며, 다언어 LLM이 실제 세계에서 공정하고 효과적으로 작동하기 위한 평가 기준 정립에 중요한 기여를 한다.


13. Progent: Programmable Privilege Control for LLM Agents

(게재일: 2025년 4월, 소속: University of California, Berkeley)

주요 Task

  • LLM Agent Security
  • Dynamic Privilege Enforcement
  • Prompt Injection Defense

중요 내용 요약

본 논문은 대규모 언어 모델 기반 에이전트(LLM Agents)의 보안 문제, 특히 외부 도구 호출 시 발생할 수 있는 권한 남용 및 프롬프트 인젝션 위협을 해결하기 위한 새로운 시스템인 Progent를 제안한다. Progent는 정책 기반의 동적 권한 제어를 제공하는 프로그래밍형 프레임워크로, 다양한 환경에서 에이전트의 보안성을 강화한다.

핵심 기여는 다음과 같다.

  • Progent는 각 도구 호출에 대해 조건 기반 접근 제어 정책을 정의할 수 있도록 하며, 상황에 따라 정책을 동적으로 갱신할 수 있도록 설계되었다.
  • 에이전트가 실행 중 획득하는 정보에 따라 보안 정책을 실시간으로 업데이트하며, 최소 권한 원칙(Least-Privilege Principle)을 강제할 수 있다. 예를 들어 Figure 1(b)에서는 수신자 정보가 확보된 후에만 송금이 가능하도록 정책이 강화된다.
  • Prompt Injection 방어에서 Progent는 기존 방어 기법 대비 매우 낮은 공격 성공률(ASR)을 달성하였다. 예를 들어 다양한 LLM(예: GPT-4o, Claude-3, o3-mini)을 사용한 실험에서 Progent의 도입 시 ASR이 0~5% 수준으로 감소함을 확인하였다 (Figure 9, 10 참조).
  • 다양한 도메인(금융, 헬스케어, 업무 생산성 도구 등)에서 실험을 수행하여 일반성과 확장성을 입증하였다. 특히 Figure 1은 각 도메인에서 발생 가능한 보안 시나리오를 구체적으로 설명하며 Progent의 필요성을 강조한다.

Progent는 도구 사용에 대한 세밀한 접근 통제를 가능하게 하며, 단순한 정적 규칙이 아닌 상황 인지형 정책을 제공함으로써 LLM 에이전트의 실시간 동작 환경에서도 높은 수준의 보안을 유지할 수 있도록 한다. 본 연구는 차세대 에이전트 보안의 핵심 아키텍처로서의 가능성을 제시하고 있으며, 후속 연구에서 다양한 도구 조합 및 에이전트 설계에의 적용 가능성을 넓힐 수 있다.


14. Vidi: Large Multimodal Models for Video Understanding and Editing

(게재일: 2025년 4월 22일, 소속: ByteDance Inc.)

주요 Task

  • Temporal Video Retrieval
  • Multimodal Video Understanding
  • Audio-Visual Grounding
  • Video Caption Alignment
  • Long-Form Video Editing Support

중요 내용 요약

본 논문은 영상 기반의 자연어 질의에 따라 적절한 시간 구간을 정확히 추출하는 Temporal Retrieval을 중심으로, 영상 이해와 편집을 위한 대형 멀티모달 모델 Vidi를 제안한다. Vidi는 영상, 오디오, 텍스트를 입력으로 받아 1시간 이상의 초장편 비디오에서도 자연어 기반 질의에 따른 정확한 시간 범위 검색을 가능하게 하며, 이를 통해 실사용 편집 워크플로우를 자동화할 수 있는 기반을 제공한다.

주요 기여 및 특징은 다음과 같다:

  • Decomposed Attention 기반 효율적 아키텍처
    영상 길이에 따라 수백만 개의 토큰이 발생할 수 있는 상황에서도 계산 복잡도를 O(N²)에서 O(N)으로 줄인 Decomposed Attention을 도입하였다. 시각-시각, 텍스트-텍스트, 텍스트-시각 간 주의를 분리하여 긴 시퀀스를 효율적으로 처리함 (Figure 3, 4 참조).
  • VUE-TR: 새로운 벤치마크 제안
    총 428개의 영상, 1,598개의 질의를 포함한 VUE-TR 벤치마크는 초단편부터 1시간 이상 초장편까지 아우르며, 시각 및 오디오 기반 질의, 다양한 질의 형식(키워드, 구, 문장) 등 실제 사용 시나리오를 반영한 평가가 가능하다 (Table 1, Figure 8 참조).
  • 정교한 데이터 생성 및 정렬 전략
    실영상에 대해 LLM 기반 캡션 생성 → 질의 생성 → 타임스탬프 정렬 → 사람 검수의 2단계 과정을 거쳐 고품질 쿼리-시간쌍 데이터를 구성하였다. 쿼리는 시각, 청각, 또는 양쪽을 모두 요구하는 것으로 분류되어 모델의 멀티모달 처리 능력을 정밀하게 평가할 수 있다 (Figure 6, 7 참조).
  • 3단계 훈련 전략
    ① Adapter 훈련 (고정된 LLM 위에 비전/오디오 어댑터 학습),
    ② 합성 데이터 기반 학습 (수십만 개 영상/오디오 클립에서 생성된 시간-캡션 쌍 사용),
    ③ 실제 영상 기반 미세조정 (30M 쌍 이상의 timestamp-caption/subtitle 활용) 을 통해 강건한 정렬 능력을 확보하였다.
  • 정량적 성능 비교 결과
    GPT-4o, Gemini-2.0-Flash, Gemini-2.5-Pro와 비교했을 때, Vidi는 모든 구간, 형식, modality 기준에서 가장 높은 정확도와 IoU 점수를 기록하였다. 특히 초장편 영상(>60분)과 오디오 기반 질의에서의 우월성이 두드러졌으며, 긴 문장형 질의에서도 다른 모델 대비 현저히 높은 성능을 보였다 (Table 3, Figure 10 참조).
  • 현실성 있는 응용 시나리오 고려
    모델은 양질의 검색뿐 아니라 실제 영상 편집 시스템에서 사용될 수 있도록 GPU 1개만으로도 2시간 이상의 영상을 실시간 처리할 수 있는 효율성을 갖추었다. 또한 향후 Video QA, 하이라이트 요약 등으로 확장 가능성을 열어두고 있다.

Vidi는 단순한 장면 탐색을 넘어, 장시간 영상에서 복잡한 질의에 기반한 세분화된 시간 구간 추출이 가능한 최초의 실용적 LMM 모델로서, 향후 영상 생성 및 편집 자동화의 중심 기술로 기능할 수 있음을 보여준다.


15. WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

(게재일: 2025년 4월 22일, 소속: University of Technology Sydney, University of Maryland, Tencent)

주요 Task

  • World Model Alignment
  • Model-Predictive Control (MPC)
  • NeuroSymbolic Learning
  • Embodied Reasoning
  • Symbolic Rule Extraction

중요 내용 요약

본 논문은 대형 언어 모델(LLM)을 기반으로 한 에이전트가 새로운 환경에서 효과적으로 작동하도록 돕기 위해, LLM의 세계 모델을 실제 환경의 동역학에 정렬하는 NeuroSymbolic 기반의 학습 프레임워크인 WALL-E 2.0을 제안한다. LLM의 사전지식과 환경 특유의 규칙 간의 불일치를 해결하고, 별도의 미세조정 없이도 빠르게 적응 가능한 에이전트를 구성하는 것이 주요 목표이다.

핵심 기여는 다음과 같다:

  • NeuroSymbolic Learning 기반 세계 정렬
    실제 실행 궤적과 모델의 예측 궤적을 비교하여 오차가 발생한 부분에서 행동 규칙, 지식 그래프, 장면 그래프와 같은 심볼릭 지식을 추출하고, 이를 코드 규칙으로 변환하여 LLM의 예측을 수정할 수 있도록 한다 (Figure 3 참조).
  • MPC 기반 추론 프레임워크 설계
    LLM은 미래 행동을 시뮬레이션하고, 세계 모델은 그 결과를 예측 및 평가하여 피드백과 제안을 반환한다. 에이전트는 이를 바탕으로 계획을 수정하며, 이를 반복함으로써 환경에 맞는 적절한 행동을 선택한다 (Figure 2 참조).
  • 학습 없이도 고성능 적응 가능
    학습이 필요 없는 구조로, LLM은 사전지식과 소량의 환경 기반 심볼릭 지식만으로 빠르게 환경에 적응할 수 있다. 특히 코드 기반 규칙으로의 변환을 통해 강제된 예측 구조를 제공하고, 불확실성과 환각(hallucination)을 방지한다.
  • Mars 및 ALFWorld 환경에서의 실험 검증
    Mars(게임 유사 환경)와 ALFWorld(실내 가상 환경)에서 기존 강화학습 및 LLM 기반 기법들 대비 최대 51.6%의 성능 향상을 보였으며, ALFWorld에서는 단 4회의 반복으로 98%의 성공률을 달성하였다 (Figure 4, 5 참조).
  • 심볼릭 지식의 축적이 성능 향상에 기여
    학습 반복 횟수에 따라 규칙 커버율(예측 오류 정정률)이 92.3%까지 상승하였고, 이에 따라 보상도 지속적으로 증가함을 보였다 (Figure 6 참조). 코드 기반 규칙 세트의 정제(pruning) 또한 필수적인 단계로, 불필요하거나 충돌되는 규칙 제거를 통해 성능 저하를 방지한다 (Table 5 참조).
  • 다양한 심볼릭 요소의 결합 필요성 확인
    단일 지식 형태(Knowledge Graph 또는 Action Rule)만 사용하는 경우 성능이 급감하며, 모든 심볼릭 요소를 결합했을 때 가장 높은 성능을 보였다 (Table 3 참조). 이는 LLM의 세계 모델이 다양한 구조적 제약을 반영해야 보다 정밀한 예측이 가능함을 시사한다.

WALL-E 2.0은 LLM을 기반으로 한 세계 모델 정렬을 통해 환경 적응력과 계획 능력을 크게 향상시키며, 실제 환경에서의 LLM 기반 에이전트 설계에 있어 강력한 대안으로 작용할 수 있음을 입증한다. 특히 사전학습된 모델을 변경하지 않고도 구조적 피드백을 통해 LLM을 "세계 정렬"하는 본 연구는, 복잡하고 동적인 환경에서의 LLM 응용 가능성을 획기적으로 확장시킨다.


16. Live: Learning Video LLM with Streaming Speech Transcription at Scale

(게재일: 2025년 4월 22일, 소속: National University of Singapore, ByteDance)

주요 Task

  • Streaming Video Commentary
  • Video Question Answering (Video QA)
  • Temporal Video-Language Alignment
  • Instruction Tuning for Video LLM
  • Real-time Video Understanding

중요 내용 요약

본 논문은 자동 음성 인식(ASR) 자막을 기반으로 실시간 비디오 해설이 가능한 대규모 비디오 LLM인 LiveCC를 제안하며, 이를 위해 새로운 학습 프레임워크와 대규모 데이터셋, 그리고 평가 벤치마크를 함께 구축하였다. 기존 LLM 기반 비디오 모델은 고비용 주석 데이터에 의존하거나 실시간 대응이 어려웠으나, 본 연구는 저비용 고확장성 ASR 데이터를 활용하여 학습 효율성과 스트리밍 성능을 모두 확보하였다.

주요 기여 내용은 다음과 같다:

  • ASR 기반 밀도 교차 학습(Streaming Training with Dense Interleaving)
    비디오 프레임과 해당 타임스탬프의 ASR 단어들을 정밀하게 결합하여 프레임별 자막을 생성하도록 학습. 이는 비디오 장면의 미세한 시공간적 정보와 발화 간의 관계를 정확하게 모델링할 수 있도록 하며, 0.17초의 초저지연 응답 속도를 구현함 (Figure 5 참조).
  • 대규모 데이터셋 구축
    • Live-CC-5M: YouTube 자막 기반 5M 클립을 포함한 사전 학습용 데이터셋
    • Live-WhisperX-526K: WhisperX 기반 정제된 ASR 자막 및 GPT-4o 생성 프롬프트를 포함한 SFT용 고품질 데이터셋 (Figure 2, 4 참조)
  • LiveSports-3K 벤치마크 제안
    실제 스포츠 영상에서 자막 정렬 품질을 평가하는 CC 트랙과, 시제(When), 주체(Who), 행위(What) 중심의 QA 트랙으로 구성된 새로운 평가 프레임워크. GPT-4o를 심판으로 설정한 페어와이즈 비교 방식을 통해 모델의 실시간 해설 품질을 정량적으로 측정함 (Figure 6 참조).
  • 모델 성능
    • LiveCC-7B-Instruct는 VideoMME, OVOBench, MVBench 등 다양한 QA 벤치마크에서 기존 72B 모델과 유사하거나 더 나은 성능을 달성하였으며 (Table 3 참조),
    • LiveSports-3K 해설 품질 비교에서도 72B LLaVA-Video, Qwen2.5 모델을 상회함 (Table 4 참조).
    • 특히 LLaVA-Video-72B 대비 120배 빠른 응답 속도를 기록함 (Table 5 참조).
  • 학습 전략 및 효과 분석
    • 스트리밍 기반 프리트레이닝은 캡션 방식보다 해설 품질이 탁월하며, 최대 10M 클립까지 확장 시 성능 향상이 관측됨 (Table 1 참조).
    • 영상 제목, 이전 자막(ASR)을 함께 맥락으로 활용했을 때 성능이 가장 높았으며, ASR 문맥이 없는 경우에는 제목만 사용하는 하이브리드 전략이 가장 적절한 것으로 나타남.
  • 실시간 해설 데모 제공
    스포츠, 과학, 뉴스, 튜토리얼 등 다양한 분야의 YouTube 영상에 대해 사람처럼 문맥과 시간에 맞는 해설을 제공하는 능력을 시연하였으며, GPT-4o로부터 문체 및 의미 정합성 평가에서 높은 점수를 획득함 (Figure 10~13 참조).

LiveCC는 자막-프레임 정렬을 활용한 새로운 학습 패러다임을 통해, 실시간 비디오 해설과 QA 능력을 동시에 확보한 최초의 스트리밍 중심 비디오 LLM이며, 향후 비디오 편집, 스포츠 해설, 실시간 인스트럭션 등 다양한 분야에서의 응용 가능성을 제시한다.


17. Describe Anything: Detailed Localized Image and Video Captioning

(게재일: 2025년 4월 22일, 소속: NVIDIA, UC Berkeley, UCSF)

주요 Task

  • Detailed Localized Captioning (DLC)
  • Regional Image and Video Captioning
  • Semi-supervised Captioning Data Generation
  • Mask-based Visual Prompting
  • Fine-grained Caption Evaluation

중요 내용 요약

본 논문은 특정 지역(Region)에 대한 세밀하고 정확한 이미지 및 비디오 설명을 생성하는 Detailed Localized Captioning (DLC) 모델인 Describe Anything Model (DAM)을 제안한다. 기존 모델들이 전체 이미지에 대한 설명은 잘 수행하지만, 부분 지역에 대해서는 세밀한 표현이 부족하다는 한계를 극복하기 위해 DAM은 세밀함(local detail)문맥(global context)을 동시에 반영하는 구조를 갖춘 새로운 멀티모달 모델이다.

핵심 기여는 다음과 같다:

  • Focal Prompt + Localized Vision Backbone 구조
    사용자가 지정한 지역(마스크 기반)을 중심으로 포컬 크롭(focal crop)을 생성하고, 전체 이미지와 결합하여 시각 특징을 추출한다. 이때 두 특징은 cross-attention을 통해 통합되며, 세밀한 표현을 유지하면서도 주변 문맥을 반영할 수 있게 한다 (Figure 3 참조).
  • SSL 기반 데이터 생성 파이프라인 (DLC-SDP)
    고품질 분할 데이터와 웹 이미지의 마스크를 활용하여 자가 학습 방식으로 DLC 데이터를 확장함.
    • 1단계: 기존 세그멘테이션 데이터셋에서 마스크 + 키워드 기반으로 상세 캡션 생성
    • 2단계: 웹 이미지에서 마스크를 추출하고 DAM을 통해 캡션을 생성하며, CLIP 기반 필터링으로 품질 보증
      최종적으로 145만 개의 지역을 포함한 82만 장 이상의 이미지와 9.4만 개의 비디오 지역을 포함하는 학습 데이터를 구축함 (Table A.5, A.6 참조).
  • 참조 캡션 없이 평가 가능한 DLC-Bench 벤치마크 제안
    사전 정의된 속성(positive/negative attribute) 기반의 질문-응답 체계로 구성되어, 참조 캡션이 없는 상황에서도 세밀한 설명의 정확성과 환각 여부를 평가할 수 있다 (Figure 4, A.5 참조).
  • 정량적 성능
    • 키워드 수준: LVIS/PACO에서 Semantic IoU 기준 73.2%, Sem. Similarity 기준 84.2% 기록하며 기존 대비 23.2%p 향상 (Table 2 참조)
    • 구 수준: Flickr30k Entities에서 BLEU, METEOR, CIDEr 등 모든 지표에서 평균 12.3% 상대 향상 (Table 3 참조)
    • 문장/단락 수준: Ref-L4 및 VideoRefer에서 기존 대비 평균 13.1%~33.4% 향상 (Table 4, 7 참조)
  • 비디오 캡셔닝 성능
    DAM은 HC-STVG, VideoRefer 등의 상세 비디오 캡셔닝 벤치마크에서 기존 모델보다 높은 세부 묘사 능력을 입증하였으며, 움직임, 외형, 맥락을 모두 포괄하는 설명을 생성할 수 있음 (Table 6, Figure 6, 11 참조).
  • 기타 강점
    • 영상 및 이미지 학습을 병행하여 성능 향상
    • 명확한 분리된 입력 구조(마스크 기반)를 통해 사용자 지정을 쉽게 하며 모델의 정확한 지역 이해 가능
    • 다양한 길이 조절 가능한 설명 생성 지원 (Figure 7 참조)

Describe Anything Model은 기존의 글로벌 설명에서 벗어나 지역 기반 정밀 설명이라는 새로운 과제를 효과적으로 해결할 수 있는 구조적 설계를 바탕으로 하며, 그 성능은 다수의 벤치마크에서 입증되었다. 이미지 및 비디오 분석, 콘텐츠 생성, 시각 보조 기술 등 다양한 응용 분야에서 실용적인 대안이 될 수 있음을 보여준다.


18. LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

(게재일: 2025년 4월 23일, 소속: Google DeepMind, Johannes Kepler University Linz)

주요 Task

  • Decision-Making with LLMs
  • Reinforcement Learning Fine-Tuning (RLFT)
  • Chain-of-Thought Reasoning
  • Exploration-Exploitation Trade-off
  • Knowing-Doing Gap Analysis

중요 내용 요약

본 논문은 대형 언어 모델(LLM)이 의사결정 시나리오에서 보이는 탐색 부족, 빈도 편향, 그리고 알고도 실행하지 못하는(gap between knowing and doing) 세 가지 주요 실패 원인을 체계적으로 분석하고, 이를 완화하기 위한 강화학습 기반 미세조정(RL Fine-Tuning, RLFT) 전략을 제안한다.

핵심 기여 내용은 다음과 같다:

  • 세 가지 실패 모드 정의 및 분석
    • Greediness: LLM이 높은 보상을 받은 소수의 행동만 반복하는 경향 (Figure 3 참조)
    • Frequency Bias: 보상과 무관하게 빈도가 높은 행동을 계속 선택 (Figure 4 참조)
    • Knowing-Doing Gap: 과제를 푸는 방법(CoT reasoning)은 알고 있으나 실제로는 잘못된 행동을 선택 (Figure 5, 22 참조)
  • RLFT를 통한 탐색 성능 향상
    모델이 스스로 생성한 CoT(reasoning) 라쇼날을 활용하여 보상 기반으로 미세조정함으로써, 위의 세 가지 실패 현상을 완화함.
    • 2B 모델 기준으로 행동 커버리지가 12% 증가 (Figure 7 참조)
    • 빈도 편향이 70% → 35%로 완화됨 (Figure 18 참조)
    • Tic-tac-toe 게임에서는 승률이 15% → 75%로 상승, MCTS 상대로도 비기거나 이기는 수준 달성 (Figure 9a 참조)
  • 탐색 전략 비교 분석
    Try-all, ε-greedy, Context Randomization, Self-correction, Self-consistency, Exploration Bonus 등 7가지 전략을 평가함.
    그 중 exploration bonus (+1 보상) 방식이 가장 큰 성능 향상을 유도하였고, try-all 전략도 높은 효율을 보임 (Figure 8 참조).
  • Chain-of-Thought(COT) 및 "생각 시간"의 중요성 검증
    CoT를 제거한 RLFT는 성능이 급격히 저하되었으며, 생성 토큰 수를 256에서 512로 증가시키면 성능이 9B 모델 수준까지 향상됨. 이는 복잡한 의사결정 과제에서 충분한 사고 시간이 필수적임을 시사 (Figure 9b, 9c 참조).
  • 다양한 환경에서의 일관된 효과 검증
    다중 슬롯 밴딧(Multi-Armed Bandit), 문맥 기반 밴딧(Contextual Bandit), 그리고 상태 기반 게임(Tic-tac-toe) 환경에서 모두 RLFT가 지속적으로 성능을 향상시킴을 보였음 (Figure 6, 19, 20 참조).

본 논문은 LLM이 의사결정 과제에서 구조적으로 겪는 어려움을 분석하고, CoT 기반 RLFT를 통해 이들을 극복할 수 있음을 실험적으로 입증하였다. 이는 향후 에이전트 지향 LLM 설계에서 효율적인 미세조정 및 탐색 전략 수립에 있어 중요한 설계 지침을 제공하며, 보다 실용적인 인공지능 시스템 개발에 기여할 수 있다.


19. From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

(게재일: 2025년 4월 22일, 소속: CUHK MMLab, KAUST, Hugging Face, Shanghai AI Lab)

주요 Task

  • Inference-Time Optimization for Diffusion Models
  • Reflection-Level Scaling
  • Prompt Refinement
  • Image Quality Evaluation
  • Iterative Image Self-Improvement

중요 내용 요약

본 논문은 기존 텍스트-이미지 생성(diffusion) 모델이 복잡한 장면이나 미세한 디테일을 잘 생성하지 못하는 문제를 해결하기 위해, 추론 단계에서의 반복적 자기개선(self-refinement) 프레임워크인 ReflectionFlow를 제안한다. 이는 대형 언어 모델(LLM)에서의 self-reflection 기법을 이미지 생성 모델에 도입한 새로운 시도이다.

핵심 기여는 다음과 같다:

  • 세 가지 차원의 추론 시간 스케일링
    Noise-level scaling: 다양한 초기 노이즈로부터 샘플링
    Prompt-level scaling: 프롬프트를 반복적으로 개선
    Reflection-level scaling: 생성된 이미지에 대해 Verifier가 반영(reflection)을 생성하고 Corrector가 이를 기반으로 이미지를 수정
    이 세 축을 통합한 방식으로, 최종적으로 모델은 점진적으로 더 높은 품질의 이미지를 생성하게 된다 (Figure 1, 4 참조).
  • 대규모 reflection 데이터셋 GenRef 구축
    100만 개의 (결함 이미지, 고품질 이미지, 텍스트 반영) 삼중쌍을 포함하며, 다양한 도메인에서 수집되었고, 추가적으로 GPT-4o 기반 22.7만 개의 CoT reflection도 포함됨. 자동화된 파이프라인으로 구축되어 효율성과 다양성 모두 확보됨 (Figure 2 참조).
  • 기존 Diffusion 모델을 위한 고효율 Corrector 튜닝 방식 제안
    FLUX.1-dev와 같은 프리트레인된 diffusion transformer를 기반으로, multimodal attention을 활용하여 reflection prompt, 결함 이미지, 고품질 이미지를 하나의 시퀀스로 처리함. LoRA를 이용해 모델 성능을 유지하면서 효율적 튜닝을 가능하게 함 (Equation 3, 4 참조).
  • 정량적 성능 향상
    GenEval 벤치마크 기준으로 FLUX.1-dev 기본 모델(0.67) 대비 noise scaling (0.85), prompt scaling 추가 시 (0.87), 세 가지 모두 결합한 ReflectionFlow는 0.91의 점수로 성능 극대화됨 (Table 1 참조). 특히 복잡하고 어려운 프롬프트에서 성능 개선이 뚜렷함 (Figure 5 참조).
  • 추론 예산 및 반영 깊이 실험 분석
    동일한 계산 예산 내에서 search width(N), reflection depth(M)를 조절하며 다양한 전략(N=1, M=16 등)을 테스트한 결과, 깊은 반영 전략이 가장 효과적임을 확인 (Table 2 참조). 이는 실제 이미지 오류를 반복적으로 분석하고 수정할 수 있는 모델의 자기개선 능력을 입증함.
  • 다양한 Verifier 효과 비교
    GPT-4o, SANA, 자체 훈련된 Verifier 등을 비교했으며, Verifier가 개선됨에 따라 성능이 지속적으로 상승함을 보여줌. 이는 ReflectionFlow 프레임워크가 확장성과 일반화 가능성이 높음을 의미 (Figure 5 참조).

ReflectionFlow는 단순한 노이즈 샘플링 기반 이미지 향상을 넘어, 자기반성적 리플렉션 구조를 통해 diffusion 모델이 스스로 오류를 진단하고 개선하는 패러다임을 제시하며, 고품질 이미지 생성을 위한 추론 기반 강화 전략의 새로운 기준을 제안하고 있다.


20. MR. Video: “MapReduce” is the Principle for Long Video Understanding

(게재일: 2025년 4월 22일, 소속: University of Illinois Urbana-Champaign)

주요 Task

  • Long Video Understanding
  • Caption-based Video Reasoning
  • Temporal and Spatial Context Aggregation
  • Question Intention Analysis
  • Goal-Aware Inference

중요 내용 요약

본 논문은 초장편 비디오에 대한 이해 성능을 극대화하기 위해, 대용량 데이터 처리 프레임워크로 알려진 MapReduce 개념을 비디오 이해에 적용한 MR. Video 프레임워크를 제안한다. 기존 비디오 이해 방식은 컨텍스트 길이 제한 또는 키프레임 선택의 비효율성에 의해 성능이 제한되었으나, MR. Video는 이를 병렬적 짧은 클립 분석(Map)과 전역적 통합 추론(Reduce)으로 분리하여 해결한다.

핵심 기여는 다음과 같다:

  • 2단계 MapReduce 구조 설계
    Captioning 단계: 비디오를 짧은 장면으로 분할하고 각각에 대해 상세한 설명을 생성(Map), 이후 반복 등장 인물 및 객체명을 통합하여 일관성 있는 전역 표현 생성(Reduce).
    Analysis 단계: 질문에 따라 장면 단위로 독립적 분석(Map) → 전반적 맥락에서 답안 산출(Reduce). 이 과정을 통해 장면 간 의미 연결 및 질문 의도에 따른 해석이 가능하다 (Figure 2 참조).
  • Context 제한을 초월한 병렬 처리 능력
    기존 VLM들은 컨텍스트 길이 제한으로 인해 장면 일부만 처리할 수 있으나, MR. Video는 수천 개의 장면을 병렬적으로 처리하여 상세 정보를 손실 없이 확보함 (Figure 1, 3 참조).
  • 질문 의도 추론 및 목표 기반 분석 프레임워크
    단순 키프레임 검색 대신, 질문 의도를 해석하여 관련 장면들을 추론하고, 이후 장면 기반 분석을 통해 최종 정답을 도출하는 구조. 이로써 다의적 문장이나 맥락 기반 질문에도 강한 성능을 보인다 (Figure 4, 5 참조).
  • 대규모 벤치마크에서 탁월한 성능 달성
    LVBench에서 기존 최고 성능 대비 10%p 이상 향상된 60.8% 정확도를 기록하였으며, LongVideoBench, EgoSchema, Video-MME 등 다양한 벤치마크에서도 강력한 성능을 입증함 (Table 1, 2 참조).
  • 정성적 분석 및 실패 사례 분석 포함
    시각적 디테일을 철저히 검토하고 전역 문맥을 통합하는 행동을 보이며, 오답 사례에서는 VLM의 시각 정보 손실이나 LLM의 비정렬된 해석에서 기인함을 설명 (Figure 7, 8 참조).

MR. Video는 간단하면서도 효과적인 “MapReduce” 구조를 활용하여, LLM 기반 비디오 에이전트가 초장편 비디오에서 세밀한 정보 추출과 전역적 맥락 추론을 동시에 수행할 수 있게 하며, 향후 다양한 비디오 분석 및 생성 작업의 기반 구조로 활용될 수 있는 가능성을 보여준다.


21. TTRL: Test-Time Reinforcement Learning

(게재일: 2025년 4월 22일, 소속: Tsinghua University, Shanghai AI Lab)

주요 Task

  • Test-Time Reinforcement Learning
  • Unlabeled Reasoning Task Adaptation
  • Majority Voting Reward Estimation
  • Inference-Time Self-Improvement
  • Math Reasoning Optimization

중요 내용 요약

본 논문은 정답 라벨 없이 주어진 추론 문제에 대해 대형 언어 모델(LLM)을 향상시키기 위한 새로운 학습 프레임워크인 Test-Time Reinforcement Learning (TTRL)을 제안한다. 기존의 강화학습(RL)은 라벨이 주어진 데이터에서만 작동할 수 있었으나, TTRL은 테스트 시점(test-time)자체 생성 결과를 활용한 다수결(majority voting) 방식의 보상 추정을 통해 RL을 가능케 한다.

핵심 기여 내용은 다음과 같다:

  • 보상 없는 환경에서의 RL
    TTRL은 테스트 시점에 정답이 없는 문제에 대해 반복 샘플링으로 모델 출력을 생성하고, 가장 자주 등장하는 답변을 대리 정답(pseudo label)으로 간주하여 보상을 계산한다. 이를 통해 RL을 수행하면서 모델 성능을 자체적으로 개선할 수 있다 (Figure 2 참조).
  • 대규모 수학 추론 벤치마크에서의 성능 향상
    Qwen2.5-Math-7B 모델에 TTRL을 적용한 결과,
    • AIME 2024에서는 +159.3% (13.3 → 43.3),
    • AMC에서는 +74.9%,
    • MATH-500에서는 +66.4%의 성능 향상이 있었다 (Table 1 참조).
      이는 어떤 정답 라벨도 사용하지 않은 채 이뤄낸 성과이다.
  • 자기 초월(Self-supervision surpassing supervision)
    TTRL은 학습 신호로 활용한 다수결 예측 정확도(Maj@N)를 초월하는 결과를 얻었으며, 이는 모델이 스스로 생성한 결과로부터도 학습적으로 유의미한 개선이 가능함을 의미한다 (Figure 6 참조).
  • RL 알고리즘과의 호환성 및 일반화
    PPO, GRPO 등 다양한 강화학습 알고리즘과의 결합이 가능하며, AIME, AMC, MATH-500 외의 벤치마크에서도 효과적으로 일반화됨을 보였다 (Figure 3, 4 참조).
  • 왜 작동하는가?
    추정된 보상이 실제 정답 기반 보상과 다소 차이가 있음에도 불구하고,
    • (i) RL의 구조적 특성상 보상 오류에 강인하며,
    • (ii) 낮은 정확도의 예측 결과도 다양한 출력 간 차이로 인해 유의미한 음수 보상 신호를 생성할 수 있어 자기 강화가 가능하다 (Figure 8, 9 참조).
  • 한계 및 실패 가능성 분석
    • 사전 지식이 부족한 모델(Qwen2.5-Math-1.5B, LLaMA-3.1-8B 등)은 복잡한 벤치마크에서 성능 향상이 제한됨 (Table 2 참조).
    • 하이퍼파라미터(온도, 에피소드 수 등)에 매우 민감하며, 설정에 따라 훈련이 실패할 수 있음 (Figure 10 참조).

TTRL은 라벨 없는 테스트 데이터만으로 모델을 향상시킬 수 있는 실질적이며 강력한 프레임워크로, 강화학습 기반의 실시간 적응 학습(test-time adaptation)지속적 자가학습(self-evolution)에 있어 중요한 기반 기술로 작용할 수 있다. 향후 스트리밍 데이터 적응, 온라인 학습, 과학적 추론 등의 고차원 도메인에도 적용 가능성이 높다.

728x90

'Daily Papers' 카테고리의 다른 글

Huggingface Daily Papers - 2025.04.25  (0) 2025.04.28
Huggingface Daily Papers - 2025-04-24  (1) 2025.04.25
Huggingface Daily Papers - 2025.04.22  (0) 2025.04.24
Huggingface Daily Papers - 2025.04.21  (0) 2025.04.23