Skip to content

feat(harness): system_prompt 가이드 + concierge 선제 시멘틱 보강 + 측정 결과#233

Open
seyoung4503 wants to merge 1 commit into
masterfrom
feat/db-robustness
Open

feat(harness): system_prompt 가이드 + concierge 선제 시멘틱 보강 + 측정 결과#233
seyoung4503 wants to merge 1 commit into
masterfrom
feat/db-robustness

Conversation

@seyoung4503
Copy link
Copy Markdown
Collaborator

무엇

"현실의 지저분함에 견디는" 헤드라인의 V1 메커니즘을 V1 하네스 안에서만 강화. 새 추상/모듈/포트 추가 0건.

변경

  1. αharness/system_prompt.py: 모호한 컬럼은 explore_schema + SELECT DISTINCTdefine_metric 으로 시멘틱 레이어에 박으라는 지시 추가
  2. βtenancy/concierge.py: 길드 첫 진입 시 1회 LLM-driven 스키마 스캔 → SemanticEntry(DIMENSION)기존 ScopeResolverPort.define() 통과. fail-soft, 이미 사람 정의 있으면 skip.
  3. docs/MEASUREMENTS.md: gpt-4.1-mini × Qwen3-14B-4bit × (clean/dirty) × (no help / prewarm / prewarm+predefine) 측정 결과.

측정 핵심 (자세한 건 MEASUREMENTS.md)

조건 gpt-4.1-mini Qwen3-14B-4bit
Clean, no help 10/10 4/10
Dirty, no help 5/8 1/8
Dirty + β prewarm 5/8 (도구 호출 1/3) 1/8
Dirty + prewarm + ★④ /define_metric 8/8 3/8

결론: ★④ federation 이 진짜 강건성 메커니즘. ★① prewarm 은 효율 보조 (큰 모델 토큰 절감). 작은 양자화 모델의 빈-답 문제는 별도 트랙.

검증

  • 118 테스트 통과 (112 + 6 신규 prewarm 테스트)
  • 기존 동작 회귀 0건
  • prewarm 끄면 (concierge.prewarm_enabled = False) V1 그대로

🤖 Generated with Claude Code

V1 하네스 *기존 포트만* 써서 "현실의 지저분함" 강건성 첫 한 칸.
새 추상/모듈/포트 추가 0건 — system_prompt 텍스트 + concierge 훅 1개.

α (harness/system_prompt.py)
- 모호한 컬럼은 explore_schema + SELECT DISTINCT 로 값 살피고,
  추정한 의미는 define_metric 으로 시멘틱 레이어에 박아 다음 턴 재사용
  하라는 지시 추가.

β (tenancy/concierge.py)
- build_context 가 길드 scope 첫 진입 시 1회: 스키마 스캔 → LLM 에게
  컬럼 의미 추정 요청 → SemanticEntry(kind=DIMENSION) 로 길드 scope 에
  define(). 이미 정의가 있으면 skip (사람 정의 보호).
- prewarm_enabled / prewarm_table_limit 노출. fail-soft.
- 모든 쓰기는 기존 ScopeResolverPort.define() 통과 → system_prompt 의
  "Semantic layer" 섹션으로 자연스럽게 출력.

tests/test_prewarm.py — 6 케이스
- 빈 길드: prewarm 동작 + SemanticEntry 작성
- 이미 정의 있으면 skip
- 같은 scope 두 번째 호출은 LLM 호출 0 (per-process 캐시)
- 잘못된 JSON → 크래시 0, 빈 결과
- prewarm_enabled=False 비활성
- system_prompt 가 prewarm 결과를 노출

docs/MEASUREMENTS.md
- gpt-4.1-mini × Qwen3-14B-4bit × (clean/dirty) × (no help / prewarm /
  prewarm+predefine) 매트릭스 측정 결과 + 발견.
- 핵심: gpt-4.1 dirty 5/8 → predefine 시 8/8, Qwen 1/8 → 3/8.
- "★④ federation 이 진짜 강건성 메커니즘, ★① prewarm 은 효율 보조" 결론.

테스트: 112 → 118 통과 (6 신규).

🤖 Generated with [Claude Code](https://claude.com/claude-code)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant