모델 오케스트레이션 실전기

한 모델만 믿었으면 ETF 세금을 크게 잘못 계산할 뻔했다. 4개 모델 교차검증의 실전 — 합의와 불일치, 순환논리의 함정, 그리고 인간이 여전히 필요한 이유.

게시 2026/02/26

By Dr.softkorea

9 분읽는 시간

모델 오케스트레이션 실전기

1. 도입: 세금 폭탄을 피한 날

한 모델만 믿었으면 ETF 실효세율을 크게 잘못 계산할 뻔했다.

Grok은 자신만만하게 “해외 ETF는 배당소득세 15.4%”라고 했다. 숫자도 구체적이고 설명도 깔끔했다. 그대로 믿을 뻔했다.

그런데 Gemini가 다르게 말했다. “그건 ETF 종류에 따라 다릅니다. 일부는 종합소득세에 합산됩니다.”

이 한 문장이 — 세금 계산 전체를 바꿨다. 배당소득세 15.4%와 종합소득세 합산은 실효세율이 10%p 이상 차이날 수 있다. 투자 결정이 달라지는 차이다.

이게 교차검증의 가치다.

2. 구조: 4-모델 교차검증이란

나는 투자 관련 의사결정을 할 때 4개 모델을 동시에 쓴다. 각자 강점이 다르다.

Grok: 공격적 티커 제안, 구체적 사이징 Gemini: 세금 구조, 규제 리스크 GPT: 체계적 프레임워크, 요약 Claude: 비교 분석, 비평, 독립 시뮬레이션 인간 (나): 최종 판단, 한국 특수성 교정

혼자서는 한쪽이 약하고, 합치면 입체적이다.

Grok은 티커와 비중을 적극적으로 제안하지만 세법에 약하다. Gemini는 세법과 규제를 잘 잡지만 포트폴리오 구성에는 소극적이다. GPT는 체계적이지만 창의성이 떨어진다. Claude는 비판적 분석에 강하지만 구체적 숫자 제안은 보수적이다.

4개를 돌리면 — 각자 다른 각도에서 같은 질문에 답한다. 그 차이가 정보다.

3. 합의와 불일치의 의미

3개 모델 합의 → 방향성 신뢰

에너지 섹터 비중 확대
USD 분산 필요성
골드 헷지 포지션

4개 중 3개가 같은 방향을 가리키면 — 그 방향은 대체로 맞다. 완전히 신뢰할 순 없지만 신뢰도가 높다.

3개 모델 불일치 → 인간이 판단할 영역

크립토 비중 (0% vs 5% vs 10%)
현금 버퍼 (10% vs 20% vs 30%)
방산 섹터 (포함 vs 제외)

의견이 갈리면 — 그건 모델이 확신할 수 없는 영역이다. 데이터가 애매하거나, 전제가 다르거나, 미래 불확실성이 크거나. 이럴 때는 인간이 직접 판단해야 한다.

합의가 정답이 아니라 — 불일치가 지도다.

4. 실패 사례 3가지

오류	누가 틀렸나	누가 잡았나
ETF 세금 구조 오류	Grok	Gemini
미국 상속세 누락	Grok + Gemini	GPT
방산 섹터 전원 누락	3개 모델 전부	인간

첫 번째는 도입부에서 설명했다. Grok이 ETF를 전부 배당소득세로 처리했고, Gemini가 잡았다.

두 번째는 더 심각했다. Grok과 Gemini 둘 다 “미국 거주자가 아니면 미국 상속세 비과세”라고 했다. 틀렸다. 미국 자산 $60,000 초과 시 비거주자도 상속세 대상이다. GPT가 이걸 잡았다.

세 번째가 가장 흥미롭다. 방산 섹터를 포함할지 물었는데 — 4개 모델 전부 “지정학 리스크가 높으니 제외 권장”이라고 답했다. 그런데 내가 직접 찾아보니 방산 ETF 수익률이 S&P 500을 압도하고 있었다. 모델들이 전부 — 윤리적 편향 때문인지, 학습 데이터 시점 문제인지 — 같은 방향으로 틀렸다.

“AI 3개가 합의해도 틀릴 수 있다.”

5. 순환논리의 함정

가장 위험한 건 — 시뮬레이션이 객관성의 환상을 만드는 것이다.

Grok한테 “포트폴리오 시뮬레이션 돌려줘”라고 했더니 800줄짜리 Python 코드를 만들었다. 몬테카를로, 리밸런싱, 세금 효과까지 다 넣었다. 결과는? Grok이 추천한 포트폴리오가 최적이라고 나왔다.

당연하다. 자기 가정 → 자기 모델 → 자기 추천과 유사한 결과.

코드는 800줄인데 스니펫만 공개했다. 전체를 보여주지 않으니 검증이 안 된다. “시뮬레이션 결과”라는 권위만 남는다.

교훈: 시뮬레이션이라는 형식이 — 정확성을 보장하지 않는다. 코드를 돌렸다는 사실이 사실을 만들지 않는다. 입력이 편향되면 출력도 편향된다. 블랙박스가 크면 신뢰가 올라가는 게 아니라 — 검증이 더 어려워질 뿐이다.

6. 인간이 여전히 필요한 이유

한국 세법 뉘앙스: 4개 모델 전부 틀림.

건보료 임계점 (2,000만원 vs 3,400만원 vs 소득 기준)
대주주 양도세 (10억 vs 50억, 상장사 vs 비상장 구분)
미성년 증여 한도 (2,000만원 vs 10년 합산)

4개 모델한테 같은 질문을 던졌다. 4개 전부 — 다른 답을 줬고, 4개 전부 — 틀렸다.

“프롬프트에 아무리 써줘도” 안 되는 영역이 있다. 한국 국세청 예규, 건보공단 고시, 법 개정 시행령 — 이런 건 GPT-4o도 Claude Opus도 제대로 못 따라간다. 학습 데이터 시점 문제도 있고, 한국어 세법 용어의 애매함도 있고, 영문 번역이 정확하지 않은 것도 있다.

결국 — 국세청 홈택스 들어가서 직접 확인했다. 인간이 1차 소스를 봐야 한다.

7. 마무리: “이거 맞아?”의 실전 버전

Everybody Lies에서 썼던 것처럼 — AI는 혈압계다. 환자 말만 믿으면 안 되고, 검사 결과를 봐야 한다.

그런데 혈압계도 고장날 수 있다.

혈압계를 한 개만 쓰면 — 그 혈압계가 고장이면 모른다.

3개를 쓰면 — 하나가 이상할 때 안다.

4개를 쓰면 — 어느 것이 이상한지까지 안다.

그래도 마지막에 환자를 직접 보는 것은 — 의사의 몫이다.

AI 오케스트레이션은 — 여러 모델을 믿는 게 아니라, 여러 모델이 어디서 틀리는지 보는 것이다. 합의는 방향성을 주고, 불일치는 위험을 알려주고, 인간은 최종 판단을 내린다.

한 모델만 쓰면 — 그 모델의 편향에 갇힌다.

네 모델을 쓰면 — 편향이 보인다.

그게 전부다.

CodeLog

ai llm 교차검증 투자 세금 grok gemini gpt claude