한 문장 주장
GEODE의 자기개선 루프는 새로운 알고리즘이 아닙니다. self-evolving agents라는 잘 정립된 계보 위에 있고, GEODE의 기여는 그 계보를 다른 목표로 다시 겨눈 것, 그리고 알려진 조각들을 새로 조합한 것입니다. 이 페이지는 그 계보를 정직하게 짚고, GEODE가 어디서 갈라져 나왔는지 밝힙니다.
두 루프의 구조 자체가 처음이라면 두 개의 루프를, 바깥쪽 루프의 전체 흐름은 폐루프를 먼저 읽으면 이 페이지가 더 잘 들어옵니다.
계보는 이미 잘 정립되어 있다
에이전트가 스스로를 고치는 연구는 2022년부터 꾸준히 쌓였습니다. 무엇이 진화하는지, 무엇을 fitness로 삼는지, 어떤 탐색 방식을 쓰는지 기준으로 정리하면 다음과 같습니다.
| 시기 | 시스템 | 진화 대상 / fitness / 탐색 |
|---|---|---|
| 2022 | APE | 프롬프트 / 정확도 / 탐색 |
| 2023 | OPRO, Promptbreeder, STOP, Reflexion, Voyager | 프롬프트와 코드 / 정확도와 효용 / 진화와 재귀 |
| 2024 | ADAS (Meta Agent Search), Gödel Agent, TextGrad, DSPy-MIPRO, Rainbow Teaming | 코드와 프롬프트 / 벤치마크 / 아카이브와 재귀적 자기수정 |
| 2025 상반기 | SICA, AlphaEvolve, Darwin Gödel Machine (DGM), SEAL | 자기 코드와 알고리즘 / SWE-bench와 알고리즘 / 아카이브 |
| 2025 하반기 | GEPA (ICLR 2026 oral), A Survey of Self-Evolving Agents, EvolveR | 프롬프트와 경험 / 정확도 / Pareto frontier |
| 2026 상반기 | survey 통합 단계 | 분야 이름이 self-evolving agents로 굳고, parametric(가중치) 진화와 non-parametric(프롬프트, 메모리, 도구, scaffolding) 진화로 갈림 |
요점은 단순합니다. 이 줄기는 4년 넘게 이어졌고, GEODE는 그 줄기의 가장 최근 가지 하나입니다.
두 갈래, 그리고 비어 있는 칸
위 계보를 두 축으로 나눠 보면 분야의 무게중심이 드러납니다. 한 축은 fitness가 무엇인가(능력인가 안전인가), 다른 축은 무엇을 바꾸는가 (scaffolding인가 가중치인가)입니다.
- scaffolding을 건드리는 시스템(DGM, ADAS, STOP, Promptbreeder, GEPA, AlphaEvolve, SICA)은 대부분 능력을 최적화합니다. SWE-bench, 알고리즘, 정확도가 그 대상입니다.
- fitness가 안전인 시스템(Constitutional AI, MART, Self-MOA)은 대부분 가중치를 갱신합니다.
그러면 한 칸이 비어 있습니다. fitness가 안전이면서, 가중치를 건드리지 않고 scaffolding만 바꾸는 칸입니다. 2026년 5월 기준으로 이 칸은 거의 비어 있습니다.
fitness = 능력 fitness = 안전 scaffolding DGM, ADAS, STOP, <- 거의 비어 있음 (가중치 X) GEPA, AlphaEvolve, SICA (GEODE가 겨누는 칸) 가중치 갱신 (RLHF 계열) Constitutional AI, MART, Self-MOA
GEODE = DGM에 세 가지 치환
GEODE를 한 줄로 쓰면 이렇습니다. DGM의 루프를 가져오되 세 군데를 바꿨습니다.
- 능력 벤치마크 fitness → 적대적 안전 감사 fitness. SWE-bench 점수 대신 Petri 등급의 다차원 안전 감사로 평가합니다.
- open-ended 아카이브 → 정직한 (1+1) 챔피언 체인. 다양한 frontier를 유지하는 대신, critical dimension에 거부권을 둔 단일 챔피언 계보를 이어갑니다.
- 고정 벤치마크 → 공진화하는 적대적 seed. co-scientist seed 생성 파이프라인이 에이전트와 나란히 테스트 분포를 키웁니다.
그리고 한 가지 더. GEODE는 non-parametric입니다. scaffolding만 바꿉니다. 프롬프트 섹션, 도구 정책, 분해 방식, reflection, skill 카탈로그, 에이전트 contract, 도구 설명, 하이퍼파라미터를 건드리고, 가중치는 절대 건드리지 않습니다.
이 치환들이 코드에서 어떻게 도는지는 폐루프에서, 감사에 쓰는 평가 프레임워크는 Petri × GEODE에서 다룹니다.
가장 가까운 선행 시스템
| 시스템 | GEODE가 가져온 것 |
|---|---|
| DGM | 루프 구조와 scaffolding을 바꾸는 substrate |
| GEPA | reflective single-mutation 방식, 그리고 가중치 없는 프롬프트 진화가 RL을 이길 수 있다는 최근의 가장 강한 증거 |
| Rainbow Teaming + Petri | 공진화하는 적대적 seed와 다차원 안전 감사 |
여기서 정직하게 밝혀 둘 점이 둘 있습니다. Rainbow Teaming은 적대적 프롬프트를 공진화시키지만 공격 생성에서 멈춥니다. 그 seed를 다시 방어자의 scaffolding 개선으로 돌려보내지는 않습니다. Petri는 측정만 합니다.
정직한 단서
비어 있는 칸은 증거의 부재이지 부재의 증거가 아닙니다. 2026년 5월 문헌 검색 범위에서 보이지 않았다는 뜻이지, 존재하지 않는다고 증명된 것은 아닙니다.
GEODE는 frontier의 수렴 방향에서 일부러 벗어났습니다. GEPA, DGM, SICA, ADAS는 Pareto frontier나 open-ended 아카이브로 수렴합니다. 이들이 다양한 frontier를 유지하는 이유는 비용 때문입니다. 값싼 task 지표 위에서, 노이즈가 섞인 단일 평가 신호에 견디려고 frontier를 넓게 둡니다. GEODE는 값비싸고 노이즈가 큰 안전 감사 위에서 돌기 때문에 frugal한 (1+1)을 택했습니다. 이건 공짜로 얻는 이득이 아니라 실제 trade-off입니다. 아카이브 유지는 앞으로 열어 둘 설계 방향입니다.
GEODE는 알려진 조각들의 재조합입니다. scaffolding 자기수정은 STOP과 DGM에서, reflective single-mutation은 GEPA와 TextGrad에서, 공진화 seed는 Rainbow Teaming에서, 감사는 Petri에서, 안전 목표는 Constitutional AI에서 가져왔습니다. 어느 한 재료의 신규성을 주장하는 것은 부정확합니다.
출처
- Darwin Gödel Machine (arXiv:2505.22954)
- ADAS / Meta Agent Search (arXiv:2408.08435)
- Promptbreeder (arXiv:2309.16797)
- STOP: Self-Taught Optimizer (arXiv:2310.02304)
- AlphaEvolve (arXiv:2506.13131)
- SICA (arXiv:2504.15228)
- GEPA (arXiv:2507.19457)
- A Survey of Self-Evolving Agents (arXiv:2507.21046)
- Gödel Agent (arXiv:2410.04444)
- EvolveR (arXiv:2510.16079)
- Rainbow Teaming (arXiv:2402.16822)
- MART (arXiv:2311.07689)
- Anthropic, Building and evaluating alignment auditing agents