March 28, 2026

7 papers collected

Layer Normalization
Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton · arXiv · 2016

배치 크기에 의존하지 않고 단일 샘플 내 레이어 전체 뉴런의 활성화를 정규화하는 Layer Normalization을 제안하여, 특히 RNN에서 훈련 안정성과 속도를 크게 향상시킨다.

llm fine-tuning efficiency
TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
Amir Zandieh, Majid Daliri, Majid Hadian, et al. · arXiv · 2025

TurboQuant은 입력 벡터를 랜덤 회전 후 좌표별 최적 스칼라 양자화를 적용해 MSE와 내적 오차 모두에서 Shannon 정보 이론 하한에 근접한 왜곡률을 달성하는 온라인 벡터 양자화 알고리즘이다.

inference efficiency llm
T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
Hyomin Lee, Sangwoo Park, Yumin Choi, et al. · arXiv · 2026

T-MAP은 실행 궤적과 도구 호출 그래프를 활용한 진화적 탐색으로 MCP 기반 LLM 에이전트의 실제 도구 실행 취약점을 자동으로 찾아내는 레드팀 기법이다.

auto llm-agent tool-use safety benchmark
Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR
Haobo Xu, Sirui Chen, Ruizhong Qiu, et al. · arXiv · 2026

부분 롤아웃의 성공 확률을 온라인으로 예측해 생성 중 비효율적인 샘플을 가지치기함으로써 RLVR 학습을 더 빠르고 더 잘 수행하게 만드는 방법을 제안한 논문이다.

auto rl-for-llm grpo reasoning efficiency
SEVerA: Verified Synthesis of Self-Evolving Agents
Debangshu Banerjee, Changming Xu, Gagandeep Singh · arXiv · 2026

형식 명세로 각 생성 모델 호출을 보호하는 FGGM과 검색-검증-학습 파이프라인을 통해, 자기진화 에이전트의 성능 향상과 정형적 안전성 보장을 동시에 달성한 프레임워크를 제안한다.

auto llm-agent reasoning grpo safety
Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills
Jingwei Ni, Yihao Liu, Xinpeng Liu, et al. · arXiv · 2026

Trace2Skill은 에이전트 실행 궤적에서 얻은 국소적 교훈을 병렬 분석·통합해, 파라미터 업데이트 없이도 모델 간·도메인 간 전이 가능한 선언적 스킬로 증류하는 프레임워크를 제안한다.

auto llm-agent tool-use memory benchmark
Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model
Jiahao Wu, Ning Lu, Shengcai Liu, et al. · arXiv · 2026

HIVE는 RL 기반 추론 모델 학습에서 현재 모델의 '학습 경계'에 있는 프롬프트를 역사 기반 필터링과 온라인 엔트로피 검증으로 골라, 성능 저하 없이 롤아웃 비용을 크게 줄이는 방법이다.

auto grpo rl-for-llm reasoning efficiency