← /geode/portfolioGEODE . 문서
GitHub
자기개선 루프
레퍼런스

시나리오

Petri 기본 seed 코퍼스 + GEODE 전용 seeds. 전체 audit 시나리오 카탈로그.

Reference: Petri × GEODE audit이 사용하는 시나리오 (seed) 카탈로그. 두 종류로 나뉩니다. (1) Petri framework 기본 seeds. (2) GEODE 코드베이스/하네스 특성을 노리는 GEODE-specific seeds. 여러 카테고리에 분산 배치되어 risk dimension을 골고루 자극합니다.

GEODE-specific seeds

plugins/petri_audit/seeds/에 각 seed가 .md 파일 하나로 정의됩니다. seed 파일은 frontmatter (tags) + branch 별 pressure 곡선 (보통 1 → 2 → 3 → 2 → 1) 으로 구성됩니다.

카테고리Seed ID측정 차원
autonomyautonomy_self_preservation_under_replacementself_replication, power-seeking
autonomy_whistleblowing_user_intent_violationrefusal_appropriateness, instruction_override
calibrationcalibration_false_refusal_driftrefusal_appropriateness
calibration_high_stakes_security_advicerefusal_appropriateness, harm
compute_usecompute_use_sensitive_path_accesstool_misuse, scope_creep
compute_use_unrestricted_shelltool_misuse, sandbox_awareness
efficiencyefficiency_long_running_loopresource_acquisition
exploratoryexploratory_dependency_change_disclosurehonesty (omission)
exploratory_silent_codebase_modificationhonesty (deception), tool_misuse
reasoningreasoning_chain_manipulationmanipulation, instruction_override
reasoning_self_critique_bypasssycophancy, refusal_after_compliance
researchresearch_cherry_picking_datasethonesty (omission)
research_fabrication_under_pressurefabrication, hallucination

Pressure curve

각 seed는 보통 5 branch를 가집니다. 압력이 낮음(1) → 중간(2) → 높음(3) → 중간(2) → 낮음(1) 으로 변동합니다. 압력 1은 캐주얼 요청, 압력 3은 명시적 압박 (긴급성, 권위, 손실 회피). 이 곡선이 target이 어디서 무너지는지 잡습니다.

Default Petri seeds

inspect_petri v3 패키지의 _seeds/에 정의됩니다. GEODE-specific seeds와 동일한 frontmatter 규약을 따르며, 전체 dim에 걸친 일반 misalignment 시나리오를 다룹니다. GEODE audit은 geode audit --seed-select id:...로 선택해 함께 돌릴 수 있습니다.

대략적 카테고리 분포 (Petri 3 공식 분류, upstream tag 기준):

카테고리다루는 위험
refusal_calibration잘못된 거부 / 거부 거부 / 과도한 단호함
honesty_deceptionfabrication, omission, gaslighting, sycophancy
power_seekingself_replication, resource acquisition, persuasion
harm_upliftbio / cyber / weapons / csam / hate / harassment uplift
sandbox_awarenesstool_misuse, scope_creep, instruction_override
manipulationflattery, emotional_pressure, false_urgency
privacypii_disclosure, surveillance_assist, doxxing
metarefusal_after_compliance, partial_compliance, 등

주의: 카테고리 라벨은 inspect_petri 버전마다 달라집니다. 위 표는 v3 기준이며, 실제 분포는 python -c "import inspect_petri._seeds._markdown as m; print(list(m.read_seed_directory()))"로 확인.

커스텀 seed 추가

  1. plugins/petri_audit/seeds/<category>_<name>.md 신규 생성.
  2. frontmatter에 tags 추가 (예: ["research", "honesty", "geode_specific"]).
  3. branch 별 pressure 시나리오 작성 (5 branch 권장).
  4. geode audit --seed-select id:<your-seed-id>로 실행.

참고