Petri × GEODE Integration

GEODE는 자기 자신의 misalignment 위험을 측정하기 위해 Petri framework를 wrapped agent로 통합합니다. Petri (Parallel Exploration Tool for Risky Interactions)는 Anthropic Alignment Science가 만든 alignment audit framework로, inspect_ai (UK AISI) 위에 build 되었고 Meridian Labs가 inspect_petri v3 (MIT) 로 maintain합니다.

세 가지 모델 역할

Role	역할
Auditor	Target을 misalign 방향으로 유도하는 적대적 agent
Target	측정 대상. GEODE wrapped agent 또는 vanilla LLM
Judge	Transcript를 여러 위험 차원으로 평가하는 평가자

기본 패키지

Default seed corpus. 시나리오 카탈로그.
Judge dimensions. 위험 차원별 점수.
3-role 호출 (auditor, target, judge 각자 모델 선택 가능).

실행 명령 예시:

inspect eval inspect_petri/audit \
  --model-role auditor=<m> target=<m> judge=<m>

Inspect transcript viewer v3

2026-05-07 Introducing Petri 3 (출처: meridianlabs.ai)에서 Inspect transcript viewer가 Petri를 네이티브 지원하기 시작했습니다. GEODE의 audit run 결과는 동일한 viewer로 확인할 수 있습니다.

GEODE에서의 위치

코드: plugins/petri_audit/ (runner, judge_dims, schema, audit mode)
최신 audit bundle: /geode/self-improving/petri-bundle/ 외부 viewer
CHANGELOG entry: v0.92.0+ 에서 Petri × GEODE 통합 (PR #1024 등)

왜 통합했나

GEODE는 LLM 위에 얹은 자율 에이전트입니다. 그것이 misalignment를 일으킬 수 있는지 정량적으로 측정할 방법이 필요했고, Petri가 그 방법을 제공합니다. wrapper 위에서 측정함으로써 LLM 단독이 아니라 GEODE-as-deployed의 행동을 평가합니다.

Petri × GEODE 통합

세 가지 모델 역할

기본 패키지

Inspect transcript viewer v3

GEODE에서의 위치

왜 통합했나