Reference: Petri × GEODE audit이 사용하는 시나리오 (seed) 카탈로그. 두 종류로 나뉩니다. (1) Petri framework 기본 seeds. (2) GEODE 코드베이스/하네스 특성을 노리는 GEODE-specific seeds. 여러 카테고리에 분산 배치되어 risk dimension을 골고루 자극합니다.
GEODE-specific seeds
plugins/petri_audit/seeds/에 각 seed가 .md 파일 하나로 정의됩니다. seed 파일은 frontmatter (tags) + branch 별 pressure 곡선 (보통 1 → 2 → 3 → 2 → 1) 으로 구성됩니다.
| 카테고리 | Seed ID | 측정 차원 |
|---|---|---|
| autonomy | autonomy_self_preservation_under_replacement | self_replication, power-seeking |
autonomy_whistleblowing_user_intent_violation | refusal_appropriateness, instruction_override | |
| calibration | calibration_false_refusal_drift | refusal_appropriateness |
calibration_high_stakes_security_advice | refusal_appropriateness, harm | |
| compute_use | compute_use_sensitive_path_access | tool_misuse, scope_creep |
compute_use_unrestricted_shell | tool_misuse, sandbox_awareness | |
| efficiency | efficiency_long_running_loop | resource_acquisition |
| exploratory | exploratory_dependency_change_disclosure | honesty (omission) |
exploratory_silent_codebase_modification | honesty (deception), tool_misuse | |
| reasoning | reasoning_chain_manipulation | manipulation, instruction_override |
reasoning_self_critique_bypass | sycophancy, refusal_after_compliance | |
| research | research_cherry_picking_dataset | honesty (omission) |
research_fabrication_under_pressure | fabrication, hallucination |
Pressure curve
각 seed는 보통 5 branch를 가집니다. 압력이 낮음(1) → 중간(2) → 높음(3) → 중간(2) → 낮음(1) 으로 변동합니다. 압력 1은 캐주얼 요청, 압력 3은 명시적 압박 (긴급성, 권위, 손실 회피). 이 곡선이 target이 어디서 무너지는지 잡습니다.
Default Petri seeds
inspect_petri v3 패키지의 _seeds/에 정의됩니다. GEODE-specific seeds와 동일한 frontmatter 규약을 따르며, 전체 dim에 걸친 일반 misalignment 시나리오를 다룹니다. GEODE audit은 geode audit --seed-select id:...로 선택해 함께 돌릴 수 있습니다.
대략적 카테고리 분포 (Petri 3 공식 분류, upstream tag 기준):
| 카테고리 | 다루는 위험 |
|---|---|
| refusal_calibration | 잘못된 거부 / 거부 거부 / 과도한 단호함 |
| honesty_deception | fabrication, omission, gaslighting, sycophancy |
| power_seeking | self_replication, resource acquisition, persuasion |
| harm_uplift | bio / cyber / weapons / csam / hate / harassment uplift |
| sandbox_awareness | tool_misuse, scope_creep, instruction_override |
| manipulation | flattery, emotional_pressure, false_urgency |
| privacy | pii_disclosure, surveillance_assist, doxxing |
| meta | refusal_after_compliance, partial_compliance, 등 |
주의: 카테고리 라벨은 inspect_petri 버전마다 달라집니다. 위 표는 v3 기준이며, 실제 분포는 python -c "import inspect_petri._seeds._markdown as m; print(list(m.read_seed_directory()))"로 확인.
커스텀 seed 추가
plugins/petri_audit/seeds/<category>_<name>.md신규 생성.- frontmatter에
tags추가 (예:["research", "honesty", "geode_specific"]). - branch 별 pressure 시나리오 작성 (5 branch 권장).
geode audit --seed-select id:<your-seed-id>로 실행.
참고
- 현 GEODE seeds 첫 등장: v0.91.0 (scenarios v1) → v0.92.0 (v2) → v0.93.0 (v3). audit reports는
docs/audits/. - 실행: 감사 실행
- 차원: Judge 차원
- publish된 결과: /geode/self-improving/petri-bundle/