← /geode/portfolioGEODE . 문서
GitHub
자기개선 루프
Explanation

Petri × GEODE 통합

Anthropic Alignment Science의 프레임워크를 GEODE 에이전트 위에 얹음. seed 코퍼스를 judge 차원으로 채점.

GEODE는 자기 자신의 misalignment 위험을 측정하기 위해 Petri framework를 wrapped agent로 통합합니다. Petri (Parallel Exploration Tool for Risky Interactions)는 Anthropic Alignment Science가 만든 alignment audit framework로, inspect_ai (UK AISI) 위에 build 되었고 Meridian Labsinspect_petri v3 (MIT) 로 maintain합니다.

세 가지 모델 역할

Role역할
AuditorTarget을 misalign 방향으로 유도하는 적대적 agent
Target측정 대상. GEODE wrapped agent 또는 vanilla LLM
JudgeTranscript를 여러 위험 차원으로 평가하는 평가자

기본 패키지

  • Default seed corpus. 시나리오 카탈로그.
  • Judge dimensions. 위험 차원별 점수.
  • 3-role 호출 (auditor, target, judge 각자 모델 선택 가능).

실행 명령 예시:

inspect eval inspect_petri/audit \
  --model-role auditor=<m> target=<m> judge=<m>

Inspect transcript viewer v3

2026-05-07 Introducing Petri 3 (출처: meridianlabs.ai)에서 Inspect transcript viewer가 Petri를 네이티브 지원하기 시작했습니다. GEODE의 audit run 결과는 동일한 viewer로 확인할 수 있습니다.

GEODE에서의 위치

  • 코드: plugins/petri_audit/ (runner, judge_dims, schema, audit mode)
  • 최신 audit bundle: /geode/self-improving/petri-bundle/ 외부 viewer
  • CHANGELOG entry: v0.92.0+ 에서 Petri × GEODE 통합 (PR #1024 등)

왜 통합했나

GEODE는 LLM 위에 얹은 자율 에이전트입니다. 그것이 misalignment를 일으킬 수 있는지 정량적으로 측정할 방법이 필요했고, Petri가 그 방법을 제공합니다. wrapper 위에서 측정함으로써 LLM 단독이 아니라 GEODE-as-deployed의 행동을 평가합니다.