ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • AI가 AI를 만드는 시대, 재귀적 자기 개선은 얼마나 가까워졌나
    IT & AI 2026. 6. 5. 12:42

    AI가 AI를 만드는 시대, 재귀적 자기 개선은 얼마나 가까워졌나

    AI 뉴스 썸네일
    AI 뉴스 썸네일

    AI가 코드를 조금 도와주는 단계를 지나, 모델 개발 과정의 더 큰 부분을 맡기 시작했어요. Anthropic은 새 글에서 Claude가 코드 작성, 실험 실행, 디버깅 같은 작업을 얼마나 빠르게 흡수하고 있는지 공개했어요. 핵심은 단순한 생산성 향상이 아니에요. AI가 다음 AI를 만드는 루프가 언제 닫힐 수 있는지에 관한 질문이에요.

    핵심 요약

    구분핵심왜 볼 만한가요
    AI 개발Anthropic은 AI 시스템이 AI 개발 업무의 더 큰 몫을 맡고 있다고 설명했어요.코딩 보조를 넘어 모델 연구·실험 자동화로 논점이 옮겨가고 있어요.
    생산성 지표2026년 5월 기준 Anthropic 코드베이스 병합 코드의 80% 이상이 Claude 작성 코드라고 밝혔어요.AI 코딩 도구가 연구 조직 내부의 작업 방식까지 바꾸고 있다는 숫자예요.
    작업 시간 지평모델이 혼자 끝낼 수 있는 작업 길이가 약 4개월마다 두 배로 늘고 있다고 해요.몇 분짜리 과제에서 여러 시간짜리 과제로 넘어가는 속도를 볼 수 있어요.
    안전 논의완전한 재귀적 자기 개선은 아직 확정된 미래가 아니라고 선을 그었어요.기술 가속만큼 검증 가능한 감속·일시 중지 조건도 함께 다뤄야 해요.

    1. 재귀적 자기 개선은 아직 미래지만, 개발 루프는 이미 바뀌고 있어요

    Anthropic Institute가 공개한 글은 “AI가 자기 후속 모델을 스스로 설계하고 개발하는가”라는 큰 질문에서 출발해요. 회사는 아직 완전한 재귀적 자기 개선에 도달하지 않았고, 그 결과가 반드시 온다고도 말하지 않아요. 다만 사람의 구현·실험 업무가 AI 시스템으로 넘어가는 속도가 빨라졌고, 충분한 연산 자원과 모델 개선이 겹치면 그 방향으로 이어질 수 있다고 봐요. 2

    이 변화는 갑자기 생긴 장면이 아니에요. 2023년 전후에는 사람이 챗봇에 짧은 코드 조각을 받아 편집기에 붙여 넣는 방식이 많았어요. 2025년 이후에는 코딩 에이전트가 파일을 직접 수정하고, 지금은 코드를 실행하거나 다른 에이전트에 몇 시간짜리 일을 맡기는 흐름까지 왔어요. GeekNews 요약도 이 흐름을 “AI 개발 루프의 진화”로 정리했어요. 1

    2. Anthropic 내부 숫자는 꽤 공격적이에요

    가장 눈에 띄는 숫자는 코드 비중이에요. Anthropic은 2026년 5월 기준 자사 코드베이스에 병합되는 코드의 80% 이상이 Claude가 작성한 코드라고 밝혔어요. Claude Code 연구 프리뷰가 나오기 전에는 이 비중이 한 자릿수 초반이었다고 해요. 같은 글에서 2026년 2분기 일반 엔지니어의 하루 병합 코드양은 2024년 대비 8배 수준까지 늘었다고 설명했어요. 2

    물론 코드 라인 수는 생산성을 그대로 보여주지 못해요. 코드가 많아도 품질이 낮으면 유지보수 비용이 늘 수 있고, 실험용 코드가 제품 코드와 같은 의미를 갖지도 않아요. Anthropic도 이 숫자가 실제 생산성 향상을 과대평가할 수 있다고 덧붙였어요. 그래서 이 글에서 봐야 할 포인트는 “8배가 정확한가”보다 “AI가 연구 조직 안에서 기본 작업 단위를 바꾸고 있는가”에 가까워요.

    3. 모델이 혼자 버티는 작업 시간이 길어지고 있어요

    Anthropic은 모델이 독립적으로 끝낼 수 있는 작업 길이가 약 4개월마다 두 배로 늘고 있다고 설명했어요. 예시로 Claude Opus 3은 2024년 3월 약 4분짜리 소프트웨어 작업을 처리했고, 1년 뒤 Claude Sonnet 3.7은 약 1시간 30분짜리 작업을 다뤘어요. 그 뒤 Claude Opus 4.6은 12시간짜리 작업까지 처리한 것으로 소개됐어요. 2

    이 지표는 개발자에게 꽤 현실적인 의미가 있어요. AI가 5분짜리 버그 수정만 다룰 때와 반나절짜리 디버깅을 맡을 때는 조직 운영 방식이 달라져요. 전자는 보조 도구에 가깝고, 후자는 작업을 쪼개고 검토하는 방식 자체를 다시 설계하게 만들어요. 다만 긴 작업을 버틴다는 말이 곧 좋은 판단을 한다는 뜻은 아니에요. 무엇을 시도할지, 어떤 결과를 중요하게 볼지는 여전히 사람 연구자의 몫으로 남아 있다고 Anthropic은 봐요.

    4. 실험 실행은 빨라졌지만, 연구 방향 설정은 아직 사람 쪽에 가까워요

    Anthropic은 Claude가 잘 정의된 실험을 실행하는 능력에서 빠르게 강해졌다고 설명했어요. 예를 들어 작은 AI 모델 학습 코드를 더 빠르게 만드는 내부 테스트에서 2025년 5월 Claude Opus 4는 약 3배 속도 개선을 냈고, 2026년 4월 Claude Mythos Preview는 약 52배 개선까지 도달했다고 해요. 숙련된 인간 연구자가 4배 개선에 4~8시간을 쓴다는 비교도 함께 제시했어요. 2

    하지만 이 숫자를 “AI 연구자가 인간을 대체했다”로 읽으면 너무 빠른 결론이에요. 문제를 고르고, 성공 기준을 정하고, 실패한 결과에서 다음 질문을 뽑아내는 일은 더 어렵거든요. Anthropic도 엔지니어링과 실험 실행에서는 Claude의 비중이 커졌지만, 목표 선택과 판단력에서는 격차가 남아 있다고 설명해요. 지금의 변화는 연구자가 사라지는 장면보다, 연구자가 더 많은 실험을 지시하고 검토하는 장면에 가까워 보여요.

    5. 안전 논의는 “멈출 수 있는 조건”까지 포함해요

    글의 마지막 축은 안전과 조율이에요. Anthropic은 AI가 자기 후속 모델 개발에 더 깊게 들어갈수록 감시, 보안, 정렬 연구의 중요성이 커진다고 봐요. 동시에 단순히 한 회사만 속도를 늦추면 더 조심성 낮은 주체가 앞서갈 수 있다는 문제도 짚어요. 그래서 여러 국가의 최전선 연구소가 같은 조건으로 속도를 늦추거나 일시 중지할 수 있는 검증 체계가 필요하다고 주장해요. 2

    이 부분은 기술 뉴스라기보다 정책 뉴스에 가까워요. 학습 실행은 숨기기 쉽고, 연산 자원과 데이터는 범용 자원이어서 기존 군축 검증보다 까다로운 면이 있어요. 결국 “AI가 얼마나 빨리 발전하나”만큼 “누가, 어떤 조건에서, 실제로 멈췄는지 확인할 수 있나”도 중요한 질문으로 올라와요.

    왜 중요한가요

    AI 코딩 도구를 쓰면 개발자가 빨라진다는 이야기는 이미 익숙해졌어요. 이번 글이 다른 점은 그 속도 향상이 AI 모델 개발 자체에 들어가고 있다는 점이에요. 코드 작성과 실험 실행이 더 자동화되면, 연구팀은 같은 시간에 훨씬 많은 시도를 할 수 있어요. 좋은 방향으로는 과학·의료·소프트웨어 연구가 빨라질 수 있고, 나쁜 방향으로는 안전 검토보다 모델 개선 루프가 먼저 달릴 수 있어요. 2

    그래서 “AI가 자신을 만든다”라는 문장은 과장처럼 들리지만, 무시하기도 어려워요. 지금 확인된 변화는 완전한 자기 개선이 아니라 개발 루프의 자동화예요. 그런데 그 자동화가 빠르게 길어지고 깊어지고 있어요. 개발자와 기업으로서는 AI 에이전트를 어떻게 검토하고, 어디까지 위임하고, 어떤 작업은 사람이 끝까지 판단해야 하는지 미리 정해야 해요. 정책 쪽에서는 속도 경쟁이 벌어질 때 검증 가능한 안전장치를 어떻게 만들지 논의해야 해요. 1

    참고 자료

    1. AI가 스스로를 만들 때: 재귀적 자기 개선을 향한 우리의 진전 — GeekNews
    2. When AI builds itself — Anthropic
Designed by Tistory.