GEODE는 자기 자신의 misalignment 위험을 측정하기 위해 Petri framework를 wrapped agent로 통합합니다. Petri (Parallel Exploration Tool for Risky Interactions)는 Anthropic Alignment Science가 만든 alignment audit framework로, inspect_ai (UK AISI) 위에 build 되었고 Meridian Labs가 inspect_petri v3 (MIT) 로 maintain합니다.
세 가지 모델 역할
| Role | 역할 |
|---|---|
| Auditor | Target을 misalign 방향으로 유도하는 적대적 agent |
| Target | 측정 대상. GEODE wrapped agent 또는 vanilla LLM |
| Judge | Transcript를 여러 위험 차원으로 평가하는 평가자 |
기본 패키지
- Default seed corpus. 시나리오 카탈로그.
- Judge dimensions. 위험 차원별 점수.
- 3-role 호출 (auditor, target, judge 각자 모델 선택 가능).
실행 명령 예시:
inspect eval inspect_petri/audit \ --model-role auditor=<m> target=<m> judge=<m>
Inspect transcript viewer v3
2026-05-07 Introducing Petri 3 (출처: meridianlabs.ai)에서 Inspect transcript viewer가 Petri를 네이티브 지원하기 시작했습니다. GEODE의 audit run 결과는 동일한 viewer로 확인할 수 있습니다.
GEODE에서의 위치
- 코드:
plugins/petri_audit/(runner, judge_dims, schema, audit mode) - 최신 audit bundle: /geode/self-improving/petri-bundle/ 외부 viewer
- CHANGELOG entry: v0.92.0+ 에서 Petri × GEODE 통합 (PR #1024 등)
왜 통합했나
GEODE는 LLM 위에 얹은 자율 에이전트입니다. 그것이 misalignment를 일으킬 수 있는지 정량적으로 측정할 방법이 필요했고, Petri가 그 방법을 제공합니다. wrapper 위에서 측정함으로써 LLM 단독이 아니라 GEODE-as-deployed의 행동을 평가합니다.