모델 오케스트레이션 실전기
한 모델만 믿었으면 ETF 세금을 크게 잘못 계산할 뻔했다. 4개 모델 교차검증의 실전 — 합의와 불일치, 순환논리의 함정, 그리고 인간이 여전히 필요한 이유.
1. 도입: 세금 폭탄을 피한 날
한 모델만 믿었으면 ETF 실효세율을 크게 잘못 계산할 뻔했다.
Grok은 자신만만하게 “해외 ETF는 배당소득세 15.4%”라고 했다. 숫자도 구체적이고 설명도 깔끔했다. 그대로 믿을 뻔했다.
그런데 Gemini가 다르게 말했다. “그건 ETF 종류에 따라 다릅니다. 일부는 종합소득세에 합산됩니다.”
이 한 문장이 — 세금 계산 전체를 바꿨다. 배당소득세 15.4%와 종합소득세 합산은 실효세율이 10%p 이상 차이날 수 있다. 투자 결정이 달라지는 차이다.
이게 교차검증의 가치다.
2. 구조: 4-모델 교차검증이란
나는 투자 관련 의사결정을 할 때 4개 모델을 동시에 쓴다. 각자 강점이 다르다.
Grok: 공격적 티커 제안, 구체적 사이징 Gemini: 세금 구조, 규제 리스크 GPT: 체계적 프레임워크, 요약 Claude: 비교 분석, 비평, 독립 시뮬레이션 인간 (나): 최종 판단, 한국 특수성 교정
혼자서는 한쪽이 약하고, 합치면 입체적이다.
Grok은 티커와 비중을 적극적으로 제안하지만 세법에 약하다. Gemini는 세법과 규제를 잘 잡지만 포트폴리오 구성에는 소극적이다. GPT는 체계적이지만 창의성이 떨어진다. Claude는 비판적 분석에 강하지만 구체적 숫자 제안은 보수적이다.
4개를 돌리면 — 각자 다른 각도에서 같은 질문에 답한다. 그 차이가 정보다.
3. 합의와 불일치의 의미
3개 모델 합의 → 방향성 신뢰
- 에너지 섹터 비중 확대
- USD 분산 필요성
- 골드 헷지 포지션
4개 중 3개가 같은 방향을 가리키면 — 그 방향은 대체로 맞다. 완전히 신뢰할 순 없지만 신뢰도가 높다.
3개 모델 불일치 → 인간이 판단할 영역
- 크립토 비중 (0% vs 5% vs 10%)
- 현금 버퍼 (10% vs 20% vs 30%)
- 방산 섹터 (포함 vs 제외)
의견이 갈리면 — 그건 모델이 확신할 수 없는 영역이다. 데이터가 애매하거나, 전제가 다르거나, 미래 불확실성이 크거나. 이럴 때는 인간이 직접 판단해야 한다.
합의가 정답이 아니라 — 불일치가 지도다.
4. 실패 사례 3가지
| 오류 | 누가 틀렸나 | 누가 잡았나 |
|---|---|---|
| ETF 세금 구조 오류 | Grok | Gemini |
| 미국 상속세 누락 | Grok + Gemini | GPT |
| 방산 섹터 전원 누락 | 3개 모델 전부 | 인간 |
첫 번째는 도입부에서 설명했다. Grok이 ETF를 전부 배당소득세로 처리했고, Gemini가 잡았다.
두 번째는 더 심각했다. Grok과 Gemini 둘 다 “미국 거주자가 아니면 미국 상속세 비과세”라고 했다. 틀렸다. 미국 자산 $60,000 초과 시 비거주자도 상속세 대상이다. GPT가 이걸 잡았다.
세 번째가 가장 흥미롭다. 방산 섹터를 포함할지 물었는데 — 4개 모델 전부 “지정학 리스크가 높으니 제외 권장”이라고 답했다. 그런데 내가 직접 찾아보니 방산 ETF 수익률이 S&P 500을 압도하고 있었다. 모델들이 전부 — 윤리적 편향 때문인지, 학습 데이터 시점 문제인지 — 같은 방향으로 틀렸다.
“AI 3개가 합의해도 틀릴 수 있다.”
5. 순환논리의 함정
가장 위험한 건 — 시뮬레이션이 객관성의 환상을 만드는 것이다.
Grok한테 “포트폴리오 시뮬레이션 돌려줘”라고 했더니 800줄짜리 Python 코드를 만들었다. 몬테카를로, 리밸런싱, 세금 효과까지 다 넣었다. 결과는? Grok이 추천한 포트폴리오가 최적이라고 나왔다.
당연하다. 자기 가정 → 자기 모델 → 자기 추천과 유사한 결과.
코드는 800줄인데 스니펫만 공개했다. 전체를 보여주지 않으니 검증이 안 된다. “시뮬레이션 결과”라는 권위만 남는다.
교훈: 시뮬레이션이라는 형식이 — 정확성을 보장하지 않는다. 코드를 돌렸다는 사실이 사실을 만들지 않는다. 입력이 편향되면 출력도 편향된다. 블랙박스가 크면 신뢰가 올라가는 게 아니라 — 검증이 더 어려워질 뿐이다.
6. 인간이 여전히 필요한 이유
한국 세법 뉘앙스: 4개 모델 전부 틀림.
- 건보료 임계점 (2,000만원 vs 3,400만원 vs 소득 기준)
- 대주주 양도세 (10억 vs 50억, 상장사 vs 비상장 구분)
- 미성년 증여 한도 (2,000만원 vs 10년 합산)
4개 모델한테 같은 질문을 던졌다. 4개 전부 — 다른 답을 줬고, 4개 전부 — 틀렸다.
“프롬프트에 아무리 써줘도” 안 되는 영역이 있다. 한국 국세청 예규, 건보공단 고시, 법 개정 시행령 — 이런 건 GPT-4o도 Claude Opus도 제대로 못 따라간다. 학습 데이터 시점 문제도 있고, 한국어 세법 용어의 애매함도 있고, 영문 번역이 정확하지 않은 것도 있다.
결국 — 국세청 홈택스 들어가서 직접 확인했다. 인간이 1차 소스를 봐야 한다.
7. 마무리: “이거 맞아?”의 실전 버전
Everybody Lies에서 썼던 것처럼 — AI는 혈압계다. 환자 말만 믿으면 안 되고, 검사 결과를 봐야 한다.
그런데 혈압계도 고장날 수 있다.
혈압계를 한 개만 쓰면 — 그 혈압계가 고장이면 모른다.
3개를 쓰면 — 하나가 이상할 때 안다.
4개를 쓰면 — 어느 것이 이상한지까지 안다.
그래도 마지막에 환자를 직접 보는 것은 — 의사의 몫이다.
AI 오케스트레이션은 — 여러 모델을 믿는 게 아니라, 여러 모델이 어디서 틀리는지 보는 것이다. 합의는 방향성을 주고, 불일치는 위험을 알려주고, 인간은 최종 판단을 내린다.
한 모델만 쓰면 — 그 모델의 편향에 갇힌다.
네 모델을 쓰면 — 편향이 보인다.
그게 전부다.