AI 에이전트에게 연구의 전 과정을 맡길 수 있을까: 2,101번의 메타 실험

최근 나는 작은 메타 실험 하나를 해봤다. 궁금했던 것은 기술적인 성능 자체보다 조금 다른 것이었다. AI 에이전트에게 가설을 세우고, 실험을 돌리고, 결과를 정리하고, 초안을 쓰는 일까지 연구의 end-to-end를 어디까지 맡길 수 있을까. 내가 보고 싶었던 것은 에이전트가 얼마나 똑똑한가보다, 연구라는 긴 흐름 안에서 어디까지 스스로 걸어갈 수 있는가였다.

그래서 에이전트에게 터미널 권한을 주고 2,101번의 실험을 병렬로 돌리게 했다. 그렇게 모인 결과로 초안을 쓰게 한 뒤에는, 다시 냉정한 비평가 역할의 god-feedback(교수님 에이전트)에게 넘겼다. 스스로 만든 초안을 다시 스스로 비판하게 해본 셈이다.

처음 몇 단계는 생각보다 훨씬 매끄러웠다. 에이전트는 많은 실험을 동시에 관리하며 결과를 수집했고, 흩어진 내용을 하나의 초안으로 무난하게 엮어냈다. 사람이 적지 않은 시간을 들여야 하는 노동집약적인 구간을 짧은 시간 안에 통과하는 모습을 보면서, 적어도 실행과 정리의 영역에서는 에이전트가 이미 꽤 멀리 와 있다는 생각이 들었다.

하지만 정말 흥미로웠던 것은 초안 자체보다, 그 초안을 다시 읽은 비평가 에이전트의 반응이었다. 비평가 에이전트는 초안을 가차 없이 되돌려 보냈다. 요지는 분명했다.

방대한 데이터를 쌓았다는 사실만으로 연구가 되는 것은 아니다. 좁은 범위에서 관찰한 패턴을 곧바로 일반적인 모델로 확장해서는 안 된다. 정말 중요한 것은 얼마나 많은 실험을 했느냐가 아니라, 그 실험이 어떤 질문을 겨누고 있느냐다.

이 피드백이 인상적이었던 이유는 비판이 매서워서가 아니었다. 오히려 내가 이번 메타 실험에서 확인하고 싶었던 경계를 정확히 드러냈기 때문이었다. 에이전트는 수행과 정리에는 매우 능숙했지만, 결과들 사이에서 무엇이 진짜 문제인지 고르고 그 문제를 학술적인 질문으로 다듬는 단계에서는 아직 사람의 역할이 또렷하게 남아 있었다.

그 지점에서 나는 연구의 자동화를 조금 다르게 생각하게 됐다. 처음에는 어렴풋이 버튼 하나로 논문이 완성되는 미래를 상상했는지도 모르겠다. 그런데 실제로는 그보다, 인간과 AI가 서로의 산출물을 검토하고, 부수고, 다시 세우는 피드백 루프가 훨씬 중요해 보였다. 에이전트는 많은 실험을 빠르게 실행하고 정리하는 데 강했고, 이미 나온 초안을 냉정하게 되돌려보는 비평가 역할도 꽤 잘 해냈다. 반면 인간은 그 피드백을 받아들여 무엇을 더 깊게 물어야 하는지 다시 정하고, 다음 질문의 방향을 잡는 쪽에 더 가까웠다.

그래서 2,101번의 실험은 단순한 결과의 축적이 아니었다. 오히려 이번 메타 실험은 연구에서 정말 중요한 것이 데이터의 규모보다 질문의 해상도에 더 가깝다는 사실을 다시 확인하게 해줬다. 다음 단계가 더 많은 실험을 하는 일은 아닐 것 같다. 아마도 에이전트와 함께 더 좋은 질문을 설계하는 일이 될 것이다.

연구의 자동화는 이미 시작되었다. 다만 그 끝은 인간을 대체하는 데 있지 않고, 인간이 더 멀리 생각할 수 있게 돕는 데 있을 것이다.

AI 에이전트에게 연구의 전 과정을 맡길 수 있을까: 2,101번의 메타 실험

같이 읽으면 좋은 글