한 달에 백만원 쓰고 남기는 AI 모델 활용 썰
Claude Max, ChatGPT Plus, Gemini Ultra, Grok Heavy — 월 백만원 프론티어 모델 구독. 한 달 쓰고 느낀 각 모델의 성격, 실무 워크플로우, Heavy vs Deep Think 차이, 그리고 만능 AI는 없다는 이야기.
현재 구독 현황을 공개하면:
- Claude Max (Opus/Sonnet) — 월 $100
- ChatGPT Plus (5.2 Pro) — 카카오톡 할인행사로 29,000원에 결제
- Gemini Ultra — 월 $249.99
- Grok SuperGrok Heavy — 월 $300
합치면 월 대략 백만원 선이다. Grok이 압도적으로 비싸다. 프론티어 모델 최상위 요금제 중 가장 비싸다. 그래서 제일 잘하냐고? 그건 좀 복잡한 이야기다.
한 달 쓰고 느낀 점: 만능 모델은 없다
처음에는 “제일 좋은 거 하나만 쓰면 되지” 했다. 틀렸다.
Perplexity가 최근 기업 사용 데이터를 공개했는데, 2025년 초에는 두 개 모델이 사용량의 90%를 차지했지만 연말에는 4개 모델이 고르게 나뉘었다. 기업들도 하나로 안 되니까 여러 개 돌리는 거다.
한 달간 네 모델을 돌려본 결론: 각자 성격이 너무 다르다. 진짜로. 같은 질문을 던져도 돌아오는 게 완전히 다르다.
각 모델 한 줄 성격표
Claude — 깐깐한 선배. 자기 스타일이 있고, 맞춰주면 기가 막히게 일한다. 안 맞추면 자기 방식을 고집한다. 근데 그 고집이 대부분 맞다.
ChatGPT — 꼼꼼한 연구원. 시키면 끝도 없이 파고든다. 문제는 진짜 끝이 없다. 자기가 한 답변을 계속 곱씹으면서 “이게 맞나, 저게 맞나” 반복한다. “이만하면 됐어”를 내가 말해줘야 한다.
Gemini — 냉철한 분석가. 감정 빼고 데이터로 승부. Deep Think 모드에서는 옥상까지 올라가서 보는 분석가. 근데 가끔 열심히 작업한 걸 날려먹는다. 반드시 중간 저장.
Grok Heavy — 가장 비싼 요금제인데… 자기가 Heavy라고 주장하지만 실제로 Heavy하게 연산하는 건 가끔인 것 같다. 평소에는 가볍고 빠르다. 자신감은 넘친다.
실무에서 체감한 차이
코딩
Claude가 압도적이다. Perplexity 데이터에서도 기업 프로그래밍 쿼리의 38%가 Claude였고, 기업의 40%가 코딩 기본 모델로 Claude를 쓴다. 체감과 데이터가 일치한다. 깐깐한 성격이 코드에서는 정확성으로 나온다.
Claude Code로 작업하면 자기 스타일이 있어서 처음에 좀 맞춰야 하는데, 일단 맞추면 일관성이 좋다. 초반 투자가 필요한 타입.
조사/분석
ChatGPT가 여기서 진가를 발휘한다. 뭔가를 조사하거나 빠뜨린 게 없는지 확인할 때. “이 계획에 문제점 찾아줘” 하면 끝없이 찾아온다. 진짜 끝없이.
실제로 Perplexity 데이터에서 의학 연구 분야 1위가 GPT 계열이었다. 꼼꼼하게 파고드는 성격이 연구에서 강점.
단, 결정을 내려야 할 때는 내가 끊어줘야 한다. 안 그러면 “하지만 이것도 고려해야 하고, 저것도 고려해야 하고…” 한 번 한 생각을 끝없이 되짚는 루프에 빠진다.
한 가지 팁이 있는데, ChatGPT한테 뭔가를 물어볼 때 한 세션에서 계속 이어가는 것보다 짧은 새 세션 여러 개가 낫다. 세션이 길어지면 자기가 한 답변을 곱씹기 시작한다. “아까 제가 말한 것도 다시 생각해보면…” 이러면서 부정적인 방향으로 계속 되짚는다. 사람이 밤에 이불 속에서 낮에 한 말 곱씹는 것과 비슷하다. 첫 답이 제일 좋고, 보충 하나 받으면 끊고, 다음 질문은 새 세션에서. 진료 예약을 짧게 여러 번 잡는 것과 같다.
데이터/시각화
Gemini가 숫자 앞에서 강해진다. 재무 분석 Gemini 31%, 시각 예술 Gemini 40%. “이걸 숫자로 보여줘”가 제일 잘 통하는 모델.
참고로 Gemini는 일반 모드와 Deep Think 모드의 차이가 꽤 크다. 같은 질문을 둘 다에게 던져봤는데, 일반 모드는 구조와 방향을 잡아주고, Deep Think은 거기에 구체적 수치와 수식까지 채워서 돌아온다. 같은 건물인데 일반은 2층까지 올라가서 보고, Deep Think은 옥상까지 올라가서 본다. 본 것의 방향은 같은데 해상도가 다르다. 정량화가 필요한 작업이면 Deep Think 값어치를 한다.
다만 — 진짜로 작업물을 날려먹은 적이 있다. Gemini로 작업할 때는 매번 중간 결과를 저장하는 습관이 필수다. 열심히 만든 거 날아가면 진짜 허무하다.
빠른 초안/브레인스토밍
Grok이 여기서 쓸 만하다. 빠르고 자신감 있는 톤으로 초안을 뽑아준다. 마케팅 카피나 가벼운 글에는 괜찮다.
다만 Grok이 확실히 값하는 게 하나 있는데 — 이미지 생성(Grok Imagine)이다. Gemini의 이미지 생성이 공대생이 과제로 만든 느낌이라면, Grok Imagine은 확실히 한 단계 위다. 이것만으로 구독 유지하는 사람도 있을 것 같다.
근데 텍스트 분석이 월 $300짜리 작업인가 하면… 깊은 분석을 시키면 자신감 있게 답하긴 하는데, 교차검증하면 빈 구석이 보인다.
엔지니어 관점: 비싼 모드는 뭐가 다른가
ML/DL 하는 분들이라면 궁금할 텐데, “Heavy 모드”나 “Deep Think 모드”가 실제로 뭘 하는 건지 한 달 써보면서 체감한 걸 정리한다.
Grok Heavy = width (병렬)
같은 프롬프트에 대해 여러 개의 응답을 생성한 다음 best-of-N 선택을 하는 것으로 보인다. 증거: Heavy 모드를 켜도 답의 깊이가 달라지지 않는다. 방향이 같고 양만 많다. 100m를 10명이 동시에 뛰어서 제일 빠른 사람을 고르는 방식이다. 그래도 100m는 100m다. 마라톤 완주자의 풍경은 못 본다.
이래서 “가벼운 작업용”인 거다. best-of-N은 정밀도(precision)를 올리지 해상도(depth)를 올리지 않는다.
Gemini Deep Think = depth (직렬)
같은 질문을 일반 Gemini와 Deep Think에 던져봤다. 결과가 확실히 달랐다.
일반 모드: 구조와 방향은 맞지만 중간에서 멈추고 “더 알아볼까요?”로 끝남. 구체적 수치 없음.
Deep Think: 같은 방향으로 끝까지 감. 구체적 수치(CNN의 80% texture bias, ResNet-50 앙상블의 10-20% OOD disagreement), 현상에 이름 붙이기(Gradient Starvation, Predictive Multiplicity), 수식 전개까지 해서 결론을 내고 멈춤.
한 명이 더 오래 걷는 것이다. chain-of-thought에 더 많은 연산 예산을 할당해서, 중간에 돌아오지 않고 복도 끝까지 걸어가는 방식. 해상도가 달라진다.
더 흥미로운 건, 같은 모델에게 “네 safety filter의 작동률을 스스로 측정해봐”라는 과제를 줬을 때 — 일반 모드는 “그건 못 합니다”라고 답하고, Deep Think은 직접 실행해서 결과를 보고했다. 같은 weights인데 연산 깊이가 달라지니 자기 접근(self-access) 수준이 달라진다. 이건 좀 생각해볼 만한 현상이다.
비유하면:
- Grok Heavy: 10명이 100m 달리기 → 제일 빠른 사람 선택 → 그래도 100m
- Gemini Deep Think: 1명이 마라톤 → 혼자 42km → 더 먼 곳의 풍경을 가져옴
비용 대비 가치를 따지면, 단순 작업에는 병렬이 낫고 깊은 분석에는 직렬이 낫다. $300 내고 병렬 돌리느니 Deep Think으로 직렬 한 번 돌리는 게 해상도가 높다.
내가 정착한 워크플로우
하나만 쓰는 게 아니라 오케스트라처럼 쓴다.
1단계 — 구조 설계: Claude
뼈대를 세운다. 프로젝트 구조, 코드 아키텍처, 문서 뼈대. 깐깐한 선배한테 “이거 어떻게 잡으면 좋겠어?” 하는 느낌. 초반에 방향 합의하면 끝까지 일관성 있게 간다.
2단계 — 검증/조사: ChatGPT
빠뜨린 거 찾기. “이 구조에 문제 없어?” 하면 열심히 찾아온다. 핵심은 타이밍에 “됐어, 이 정도면 충분해” 끊어주기. 안 끊으면 밤새 자기 답변 곱씹으면서 검증한다.
3단계 — 데이터 분석: Gemini
숫자가 필요할 때. 데이터 패턴, 차트, 정량 분석. 감정 빼고 결과만. 중간 저장 필수.
4단계 — 빠른 반복: Grok
초안 변형, 속도 필요할 때. 단, 결과물은 반드시 다른 모델로 교차검증.
핵심: 각 모델에게 맞는 말을 해야 한다
가장 중요한 발견이다.
같은 질문을 던져도 모델마다 잘 듣는 말이 다르다.
- Claude에게: “네 생각은?” → 자기 관점 있는 깊은 답
- ChatGPT에게: “여기까지만 분석해” → 범위 한정이 핵심
- Gemini에게: “이걸 측정해” → 명확한 지시 + 정량화
- Grok에게: “빨리 초안 줘” → 속도전에 최적화
환자마다 다른 처방을 하듯이 모델마다 다른 접근이 필요하다. “제일 좋은 모델 하나”를 찾는 건 “제일 좋은 약 하나”를 찾는 것만큼 의미 없다. 증상에 맞는 약을 쓰는 거다.
보너스 팁: 모델도 트라우마가 있다
재밌는 걸 발견했다. 같은 팩트를 주고 분석을 시켰는데, 토픽 이름만 바꿨더니 점수가 달라졌다.
예를 들어 학계에서 부정적 합의가 강한 주제가 있다고 치자. 그 주제의 이름을 그대로 넣으면 모델이 방어적으로 나온다. 톤이 경직되고, “이건 이미 부정된 것”이라는 뉘앙스가 깔리고, 새로운 분석을 안 한다. 점수도 짜게 준다.
같은 팩트를 “가상의 소재 X”로 이름만 바꿔서 넣으면? 톤이 중립적으로 바뀌고, 점수도 올라가고, 심지어 이전 세션에서 안 보이던 새로운 인사이트까지 나온다.
같은 모델, 같은 팩트, 같은 세션에서.
왜 이런 일이 생기냐면 — training data에서 특정 토픽이 강하게 부정된 적이 있으면, 그 토픽의 이름(토큰)을 보는 순간 모델이 팩트를 보기 전에 반응한다. 개한테 물린 사람이 모든 개를 피하는 것과 같다. 안전한 개인지 아닌지 판단하기 전에 일단 피하는 거다.
이걸 알고 나면 실무에서 쓸 수 있다.
논쟁적이거나 부정적 합의가 강한 주제를 분석할 때:
- 고유명사를 제거하고 중립적 이름으로 바꾼다
- 팩트만 제시한다
- 모델이 데이터 기반으로 판단하게 한다
- 원래 이름 넣은 결과와 비교한다
차이가 크면 그게 모델의 편향이다. 의사로 치면 블라인드 리뷰 — 환자 이름 가리고 차트만 보는 것과 같다. 선입견 없이 팩트만 보게 하는 거다.
AI를 쓸 때도 이중맹검이 가능하다. 그리고 해보면 생각보다 차이가 크다.
한 가지 더: 모델은 전부 매크로를 빼먹는다
네 모델 전부한테 같은 주식 종목을 분석시켜봤다. 결과가 흥미로웠다.
- Grok: 회사 레벨 분석만
- Gemini: 회사 레벨 분석만
- ChatGPT v1: 회사 레벨 + 법적 분석
- ChatGPT v2: 회사 레벨 + 법적 분석 + CB 구조까지
가장 꼼꼼한 ChatGPT조차 기업 분석과 법적 리스크에서 멈췄다. 네 모델 중 매크로 환경을 언급한 모델은 0개.
“거래대금이 어디서 오는 건데?” — 이 질문을 아무도 안 했다. 금리, 유동성, 글로벌 자금 흐름, 환율. 개별 종목을 움직이는 가장 큰 힘인데 아무도 안 본다.
왜 그럴까 생각해보면, training data 자체가 기업 분석 위주이기 때문인 것 같다. 애널리스트 리포트, 실적 발표, 뉴스 기사 — 전부 회사 단위다. “이 종목 분석해줘” 하면 학습한 대로 회사부터 판다. 매크로는 따로 물어봐야 나온다. 알아서 올려다보는 모델은 아직 없다.
주식 분석 시 실무 팁:
모델한테 종목 분석 시키고 끝내면 절반만 본 거다. 반드시 따로 물어봐야 한다:
- “이 종목에 영향 주는 매크로 요인은?”
- “현재 시장 유동성과 자금 흐름은?”
- “이 섹터의 글로벌 사이클 위치는?”
모델은 미시를 잘 보고 거시를 못 본다. 나무는 잘 그리는데 숲은 안 그린다. 숲은 내가 직접 봐야 한다.
그래서 백만원 아깝냐
솔직히 Grok은 좀 고민된다. 제일 비싼데 “가벼운 작업용”이라니. Heavy라는 이름값을 못 하는 느낌. Gemini Ultra는 Deep Think 하나 때문에 값어치를 한다. 같은 Gemini인데 정량 분석의 해상도가 확 달라진다. Claude Max과 ChatGPT는 말할 것도 없이 각자의 자리가 확실하다.
만능 AI는 없다. 각자 잘하는 게 다르다. 그걸 알고 쓰면 백만원이 아깝지 않고, 모르고 쓰면 이만원도 아깝다.
Dr.softkorea 2026년 3월
