feat(harness): system_prompt 가이드 + concierge 선제 시멘틱 보강 + 측정 결과 by seyoung4503 · Pull Request #233 · CausalInferenceLab/Lang2SQL

seyoung4503 · 2026-06-02T07:22:18Z

무엇

"현실의 지저분함에 견디는" 헤드라인의 V1 메커니즘을 V1 하네스 안에서만 강화. 새 추상/모듈/포트 추가 0건.

변경

α — harness/system_prompt.py: 모호한 컬럼은 explore_schema + SELECT DISTINCT 후 define_metric 으로 시멘틱 레이어에 박으라는 지시 추가
β — tenancy/concierge.py: 길드 첫 진입 시 1회 LLM-driven 스키마 스캔 → SemanticEntry(DIMENSION) 로 기존 ScopeResolverPort.define() 통과. fail-soft, 이미 사람 정의 있으면 skip.
docs/MEASUREMENTS.md: gpt-4.1-mini × Qwen3-14B-4bit × (clean/dirty) × (no help / prewarm / prewarm+predefine) 측정 결과.

측정 핵심 (자세한 건 MEASUREMENTS.md)

조건	gpt-4.1-mini	Qwen3-14B-4bit
Clean, no help	10/10	4/10
Dirty, no help	5/8	1/8
Dirty + β prewarm	5/8 (도구 호출 1/3)	1/8
Dirty + prewarm + ★④ `/define_metric`	8/8	3/8

결론: ★④ federation 이 진짜 강건성 메커니즘. ★① prewarm 은 효율 보조 (큰 모델 토큰 절감). 작은 양자화 모델의 빈-답 문제는 별도 트랙.

검증

118 테스트 통과 (112 + 6 신규 prewarm 테스트)
기존 동작 회귀 0건
prewarm 끄면 (concierge.prewarm_enabled = False) V1 그대로

🤖 Generated with Claude Code

V1 하네스 *기존 포트만* 써서 "현실의 지저분함" 강건성 첫 한 칸. 새 추상/모듈/포트 추가 0건 — system_prompt 텍스트 + concierge 훅 1개. α (harness/system_prompt.py) - 모호한 컬럼은 explore_schema + SELECT DISTINCT 로 값 살피고, 추정한 의미는 define_metric 으로 시멘틱 레이어에 박아 다음 턴 재사용 하라는 지시 추가. β (tenancy/concierge.py) - build_context 가 길드 scope 첫 진입 시 1회: 스키마 스캔 → LLM 에게 컬럼 의미 추정 요청 → SemanticEntry(kind=DIMENSION) 로 길드 scope 에 define(). 이미 정의가 있으면 skip (사람 정의 보호). - prewarm_enabled / prewarm_table_limit 노출. fail-soft. - 모든 쓰기는 기존 ScopeResolverPort.define() 통과 → system_prompt 의 "Semantic layer" 섹션으로 자연스럽게 출력. tests/test_prewarm.py — 6 케이스 - 빈 길드: prewarm 동작 + SemanticEntry 작성 - 이미 정의 있으면 skip - 같은 scope 두 번째 호출은 LLM 호출 0 (per-process 캐시) - 잘못된 JSON → 크래시 0, 빈 결과 - prewarm_enabled=False 비활성 - system_prompt 가 prewarm 결과를 노출 docs/MEASUREMENTS.md - gpt-4.1-mini × Qwen3-14B-4bit × (clean/dirty) × (no help / prewarm / prewarm+predefine) 매트릭스 측정 결과 + 발견. - 핵심: gpt-4.1 dirty 5/8 → predefine 시 8/8, Qwen 1/8 → 3/8. - "★④ federation 이 진짜 강건성 메커니즘, ★① prewarm 은 효율 보조" 결론. 테스트: 112 → 118 통과 (6 신규). 🤖 Generated with [Claude Code](https://claude.com/claude-code)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat(harness): system_prompt 가이드 + concierge 선제 시멘틱 보강 + 측정 결과#233

feat(harness): system_prompt 가이드 + concierge 선제 시멘틱 보강 + 측정 결과#233
seyoung4503 wants to merge 1 commit into
masterfrom
feat/db-robustness

seyoung4503 commented Jun 2, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

seyoung4503 commented Jun 2, 2026

무엇

변경

측정 핵심 (자세한 건 MEASUREMENTS.md)

검증

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant