Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

Summary

이 논문은 LLM 에이전트의 도메인 특화 성능을 높이기 위해, 개별 실행 궤적(trajectory)에서 얻은 교훈을 단순히 순차적으로 덧붙이는 대신 하나의 일관된 스킬 문서로 통합하는 Trace2Skill 프레임워크를 제안한다. 핵심 아이디어는 인간 전문가가 충분한 사례를 훑어본 뒤 종합적인 작업 지침(SOP)을 작성하듯, 다양한 성공/실패 궤적을 병렬로 분석하고 그 결과를 계층적으로 병합해 충돌 없는 스킬 디렉터리로 증류하는 것이다. 이 과정은 기존 인간 작성 스킬을 강화하는 deepening과, 약한 초안으로부터 새 스킬을 만드는 creation 두 모드를 모두 지원한다.

방법적으로는 3단계 파이프라인을 따른다. 먼저 고정된 에이전트가 진화용 데이터셋에서 궤적을 생성하고, 이후 성공 분석가와 실패 분석가 서브에이전트들이 각 궤적을 독립적으로 분석해 패치를 제안한다. 마지막으로 이 패치들을 계층적으로 병합하면서 중복 제거, 충돌 방지, 형식 검증을 수행한다. 특히 실패 분석은 단일 LLM 호출이 아니라 ReAct형 상호작용 루프로 구현되어, 파일 확인과 정답 비교를 통해 실제 원인을 검증한 뒤 패치를 만들도록 설계되었다.

실험은 스프레드시트, 수학 추론, DocVQA에서 수행되었고, 결과적으로 Trace2Skill은 인간 작성 스킬, 파라메트릭 초안, 순차 편집, 검색 기반 메모리 베이스라인을 모두 능가하거나 안정적으로 상회했다. 특히 Qwen3.5-35B가 자신의 궤적으로 만든 스킬이 Qwen3.5-122B의 WikiTableQuestions 성능을 최대 57.65%p 끌어올린 결과는, 궤적 기반 스킬이 특정 모델의 편향을 암기한 것이 아니라 더 일반적인 절차 지식으로 압축되었음을 보여준다.

Problem

기존 LLM 에이전트 스킬 작성은 사람 손으로 만들면 확장성이 낮고, 자동 생성은 보통 모델의 얕은 파라메트릭 지식에 의존하거나 개별 궤적에서 얻은 국소 교훈을 순차적으로 반영해 쉽게 파편화·과적합된다. 그 결과 특정 작업이나 특정 모델에는 맞더라도 다른 모델 크기, 다른 분포, OOD 환경으로 잘 전이되지 않는다. 이 논문은 이런 한계를 해결하기 위해, 많은 실행 경험을 한꺼번에 분석해 일반화 가능한 규칙만 남기는 방식으로 전이 가능한 선언적 스킬을 자동 생성·개선하는 문제를 다룬다.

Method

Trace2Skill은 세 단계로 구성된다. 1단계에서는 고정된 LLM 에이전트가 초기 스킬 (인간 작성 또는 LLM 초안)을 가지고 진화 데이터셋에서 병렬로 실행되며 성공/실패 궤적을 수집한다. 2단계에서는 각 궤적마다 독립적인 분석 서브에이전트가 스킬 패치를 제안한다. 성공 궤적은 단일 패스 분석으로 일반화 가능한 좋은 패턴을 추출하고, 실패 궤적은 ReAct형 에이전트가 파일/출력/정답을 조사하며 원인을 확인한 뒤 패치를 만든다. 3단계에서는 모든 패치를 계층적 병합기로 통합해 중복을 제거하고, 동일 위치 충돌이나 잘못된 파일 참조를 프로그램적으로 차단하며, 빈도가 높고 반복적으로 관측된 패턴만 주 스킬 문서에 남긴다. 드물지만 유용한 규칙은 references 하위 자료로 분리하여 저장한다. 이 전체 과정은 파라미터 업데이트나 외부 검색 모듈 없이 동일한 LLM만으로 수행된다.

Results

주요 실험인 SpreadsheetBench/WikiTableQuestions에서, 인간 작성 스킬은 122B 모델에는 강하지만 35B에는 오히려 해가 될 수 있었고, 파라메트릭 초안은 거의 No Skill과 비슷했다. 반면 Trace2Skill은 일관되게 개선을 보였다. 예를 들어 122B가 인간 작성 스킬을 deepening한 +Combined는 SpreadsheetBench-Verified에서 +21.50%p, Soft에서 +10.87%p, Hard에서 +12.50%p, WikiTQ에서 +4.56%p를 기록했다. creation 모드에서는 35B가 만든 +Error 스킬이 122B 사용자 모델의 WikiTQ 성능을 +57.65%p 끌어올려, 최종 81.38%로 인간 작성 스킬보다도 높았다.

분석 실험에서도 장점이 분명했다. 병렬 통합은 순차 편집 대비 122B 기준 성능이 더 높았고, 시간도 약 3분 vs 60분으로 훨씬 빨랐다. 검색형 ReasoningBank 베이스라인과 비교하면 same-model deepening에서 122B 기준 Vrf +13.8%p, Soft +7.1%p, Hard +8.2%p 우세했다. 또한 단일 LLM 호출 기반 오류 분석보다 agentic error analysis가 네 가지 설정 모두에서 Avg 점수가 높았다. 도메인 확장 실험에서도 수학에서 DAPO-Math-Test-100 +3.0~+5.0%p, AIME 2026 +0.5~+5.0%p 향상을 보였고, DocVQA에서는 122B 저자가 만든 스킬이 same-model ANLS +0.1639, 정확도 +15.3%p를 달성했다.

Key Insights

개별 경험을 검색 메모리로 유지하는 것보다, 여러 궤적을 하나의 선언적 스킬로 압축하는 편이 더 휴대 가능하고 전이성이 좋다.
실패 궤적 분석은 단일 LLM 호출보다 에이전트형 원인 분석 루프가 훨씬 신뢰할 수 있으며, 특히 OOD 전이에 유리하다.
스킬 진화에서 중요한 것은 더 많은 패치를 쌓는 것이 아니라, 반복적으로 나타나는 패턴만 남기는 병렬 통합이다.
인간 작성 스킬도 강한 prior이지만 모든 모델에 이식되지는 않으며, 오히려 모델별 재증류가 필요할 수 있다.
작업 수행 능력과 스킬 저작 능력은 다를 수 있으며, DocVQA 결과는 잘 푸는 모델이 꼭 잘 가르치는 모델은 아님을 시사한다.

Limitations

논문이 직접 밝히듯 아직 진행 중인 작업이며, 개별 패치가 최종 성능에 얼마나 기여했는지 인과적으로 분해해 측정하지 못한다. 또한 생성된 스킬의 어떤 섹션이 실제 추론 시 유용하게 사용되는지에 대한 세밀한 사용 추적 메커니즘이 없다. 더 나아가 일부 설정에서는 success 분석이 불안정했고, 작은 모델이 스킬 작성자로 항상 적합하지 않다는 점도 드러났다. 따라서 패치 선택 기준의 정교화, 스킬 섹션별 기여도 추적, 저자 모델 선택 전략이 향후 과제로 남는다.