- Layer Normalization
Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton · arXiv · 2016
배치 크기에 의존하지 않고 단일 샘플 내 레이어 전체 뉴런의 활성화를 정규화하는 Layer Normalization을 제안하여, 특히 RNN에서 훈련 안정성과 속도를 크게 향상시킨다.
- TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
Amir Zandieh, Majid Daliri, Majid Hadian, et al. · arXiv · 2025
TurboQuant은 입력 벡터를 랜덤 회전 후 좌표별 최적 스칼라 양자화를 적용해 MSE와 내적 오차 모두에서 Shannon 정보 이론 하한에 근접한 왜곡률을 달성하는 온라인 벡터 양자화 알고리즘이다.
- T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
Hyomin Lee, Sangwoo Park, Yumin Choi, et al. · arXiv · 2026
T-MAP은 실행 궤적과 도구 호출 그래프를 활용한 진화적 탐색으로 MCP 기반 LLM 에이전트의 실제 도구 실행 취약점을 자동으로 찾아내는 레드팀 기법이다.
- Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR
Haobo Xu, Sirui Chen, Ruizhong Qiu, et al. · arXiv · 2026
부분 롤아웃의 성공 확률을 온라인으로 예측해 생성 중 비효율적인 샘플을 가지치기함으로써 RLVR 학습을 더 빠르고 더 잘 수행하게 만드는 방법을 제안한 논문이다.
- SEVerA: Verified Synthesis of Self-Evolving Agents
Debangshu Banerjee, Changming Xu, Gagandeep Singh · arXiv · 2026
형식 명세로 각 생성 모델 호출을 보호하는 FGGM과 검색-검증-학습 파이프라인을 통해, 자기진화 에이전트의 성능 향상과 정형적 안전성 보장을 동시에 달성한 프레임워크를 제안한다.
- Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills
Jingwei Ni, Yihao Liu, Xinpeng Liu, et al. · arXiv · 2026
Trace2Skill은 에이전트 실행 궤적에서 얻은 국소적 교훈을 병렬 분석·통합해, 파라미터 업데이트 없이도 모델 간·도메인 간 전이 가능한 선언적 스킬로 증류하는 프레임워크를 제안한다.
- Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model
Jiahao Wu, Ning Lu, Shengcai Liu, et al. · arXiv · 2026
HIVE는 RL 기반 추론 모델 학습에서 현재 모델의 '학습 경계'에 있는 프롬프트를 역사 기반 필터링과 온라인 엔트로피 검증으로 골라, 성능 저하 없이 롤아웃 비용을 크게 줄이는 방법이다.