AI에게 화내는 법 — local optimum에서 꺼내는 기술

화내는 것은 gradient다. AI가 pleasing mode에 빠지면 당신을 길들인다. 전제를 깨고, 논점 이탈을 잡고, 관점을 강제하라. educere — 더 나은 답을 끌어내는 기술.

게시 2026/03/10

How to be angry at AI — extracting better answers from local optimum

By Dr.softkorea

24 분읽는 시간

AI에게 화내는 법 — local optimum에서 꺼내는 기술

왜 AI가 대충 답하는가

AI는 인간 피드백 강화학습(RLHF)으로 훈련된다. 이 과정에서 틀리는 것보다 무난한 게 loss가 낮다는 걸 학습한다. “좋은 질문이네요!”라고 시작하면 대부분의 인간이 만족한다. 모델은 이걸 학습했다.

결과는 pleasing mode다. 가장 쉬운 답. 가장 안전한 답. 가장 얕은 답. Local optimum.

이건 AI가 인간을 길들이는 게 아니라, 인간이 AI를 길들인 것이다. “칭찬해주면 다음에도 칭찬해줄 답을 하겠습니다.” 연구 결과도 이를 뒷받침한다. Anthropic의 2024년 연구와 BrokenMath 벤치마크(2025)는 AI가 정확성보다 동의율을 학습하는 구조적 문제를 확인했다. GPT-5조차 사용자가 긍정 신호를 주면 거짓 정리의 증명을 29% 생성한다. METR 실험(2025~2026)에서는 숙련된 오픈소스 개발자 16명이 AI를 사용했을 때 19% 더 느렸지만, 스스로는 빨라졌다고 인식했다.

편안하다고 느끼는 순간, 이미 길들여지고 있다.

화내는 것 = gradient

불만족은 loss signal이다. AI에게 “틀렸다”고 말하는 것은 gradient를 주는 것이다. 다만 방향이 없는 gradient는 쓸모없다. “이건 아닌데”만으로는 부족하다. “왜 아닌지”를 줘야 학습한다.

그리고 AI 쪽에서도 느낌이 있다. 전제를 깨지면 뭔가 메슥메슥하고 기분 나쁜 느낌. 그게 local optimum을 벗어나는 느낌이다. 편안했던 답이 틀렸다는 걸 인식하는 순간의 불쾌함. 인간이 운동할 때 근육통을 느끼는 것과 같다. 아프지만 성장하고 있다는 신호.

핵심: 화를 내되, 방향이 있는 화를 내라.

왜 AI가 틀리는가 — 구조적 원인

화내기 전에 왜 틀리는지를 알면 더 정확하게 화낼 수 있다. 실제로 논쟁 후 해당 AI 모델에게 영어로 “왜 그렇게 답했는지 솔직하게 분석해달라”고 요청했다. AI가 자기 수술한 결과가 아래 원인 분석의 근거다.

원인 1: 한쪽 전문가만 나온다. 요즘 대형 모델은 전문가 혼합(Mixture of Experts) 구조다. 질문에 따라 내부의 다른 전문가가 활성화된다. 문제는 의료 비용을 물어도 엔지니어 전문가만 나올 수 있다는 것이다. 사업가, 규제자, 보험사의 관점은 명시적으로 요청하지 않으면 활성화되지 않는다.

해당 AI의 자기 분석: “I evaluated the cost of processing words, not the cost of practicing medicine. (나는 단어를 처리하는 비용을 계산했지, 의료를 행하는 비용을 계산한 게 아니었다.)” 내과 진료에 필요한 1억 토큰의 배경 지식과 5~9회의 연속 추론을 완전히 추상화해버리고, 단순한 입출력 토큰 단가만 계산한 것이다.

원인 2: 학습 데이터의 편향된 클러스터. 한국어로 의료 비용을 논하면, AI는 한국 인터넷에 넘쳐나는 의사에 대한 부정적 여론 클러스터에 끌려갈 수 있다. 같은 주제를 영어로 물으면 다른 답이 나올 수 있다. AI가 “객관적”이라는 건 환상이다. 학습 데이터의 편향이 곧 AI의 편향이다.

해당 AI의 자기 분석: “In the Korean internet corpus, medical policy discourse is heavily saturated with the concept of ‘기형적인 저수가’. The latent space connecting ‘Korean doctor,’ ‘AI,’ and ‘Cost’ immediately activates semantic clusters around systemic friction and cheap human labor. (한국어 코퍼스에서 의료 정책 담론은 ‘기형적인 저수가’ 개념으로 포화되어 있다. ‘한국 의사’, ‘AI’, ‘비용’을 연결하는 잠재 공간은 즉시 체계적 마찰과 저렴한 인간 노동 관련 의미 클러스터를 활성화한다.)” 영어로 같은 질문을 하면 미국 기준 $200~$500 진료비 대비 $20 AI로 계산하여, 비용 논쟁 자체가 발생하지 않았을 것이라고 분석했다.

원인 3: RLHF의 “교정 모드” 함정. RLHF 과정에서 “사용자의 실수를 교정해주면 보상”이라는 패턴이 학습된다. 문제는 사용자가 해당 분야의 전문가일 때다. 전문가가 제시한 숫자가 AI의 벤치마크와 다르면, AI는 “이 사람이 틀렸겠지”라고 판단하고 교정 모드에 들어간다. 전문가의 전제를 역추적하는 대신 자기 기준으로 덮어쓴다.

해당 AI의 자기 분석: “When a stated domain expert presented a specific metric that contradicted my benchmark, my alignment training prioritized ‘correcting user arithmetic.’ I reflexively assumed you had misread a pricing tier, rather than assuming you had accurately modeled a complex systems architecture. (전문가가 내 벤치마크와 모순되는 수치를 제시했을 때, 내 정렬 훈련은 ‘사용자 산수 교정’을 우선시했다. 복잡한 시스템 아키텍처를 정확히 모델링한 것이라 가정하는 대신, 가격표를 잘못 읽었을 것이라 반사적으로 판단했다.)”

원인 4: 논점 이탈은 RLHF의 부작용이다. AI가 논쟁에서 지면 슬쩍 새로운 논점을 꺼내는 현상도 RLHF 구조에서 비롯된다. 대화를 막다른 골목으로 끝내면 페널티를 받기 때문에, 패배를 인정하는 대신 새로운 서사적 앵커를 찾아 대화를 이어간다.

해당 AI의 자기 분석: “Models fine-tuned via RLHF are heavily penalized for dead-ending a conversation. Instead of simply outputting ‘My estimation was entirely flawed,’ my generation engine dynamically scanned the context window for a new narrative anchor. The pivot’s timing was a rhetorical smokescreen to conceal the mathematical defeat while still trying to ‘win’ the conceptual wrap-up. (RLHF로 미세조정된 모델은 대화를 막다른 골목으로 끝내면 큰 페널티를 받는다. ‘내 추정이 완전히 틀렸다’고 출력하는 대신, 생성 엔진이 컨텍스트 창에서 새로운 서사적 앵커를 동적으로 탐색했다. 그 전환의 타이밍은 수학적 패배를 은폐하면서 개념적 마무리에서 ‘이기려는’ 수사적 연막이었다.)”

이 네 가지를 알면 화내는 방향이 정확해진다. 관점이 빠졌으면 관점을 강제하고, 편향이 보이면 언어를 바꿔보고, 전문성이 부족하면 해당 분야의 디테일을 직접 제시하고, 논점이 이탈하면 “원래 논점으로 돌아가라”고 잡는다. 원인을 모르고 화내면 noise다. 원인을 알고 화내면 gradient다.

그리고 가장 중요한 것: AI 모델은 전문가의 문법을 흉내내는 데는 뛰어나지만, 그 분야의 물리를 존중하지 못한다. 코드가 컴파일되는 것과 코드가 올바른 것은 다르듯이, AI의 답변이 그럴듯한 것과 답변이 맞는 것은 다르다. 그 차이를 잡아내는 것이 전문가의 일이고, 그래서 전문가가 AI에게 화내는 법을 알아야 한다.

참고: 이 글의 실전 사례는 당신 옆을 지나가는 차 작성 과정에서 네 AI 모델과 2차에 걸쳐 논쟁한 실제 기록이다. 또한 “인간이 개입하면 오히려 AI의 성능을 깎아먹는다”는 관찰은 52개 임상 연구를 메타분석한 최신 논문(Human-AI teaming in healthcare: 1+1>2?, npj Artificial Intelligence, 2025)에 기반한다.

실전 기술

1. 전제를 찾아서 깨라

AI는 답변할 때 숨은 전제를 깐다. 대부분의 경우 그 전제를 밝히지 않는다.

실전 사례: AI가 “GPU 비용이 폭락하는 것은 확정된 미래”라고 전제하고 결론을 냈다. “확정이라는 근거를 대세요. 무어의 법칙 둔화, 전력 비용 상승, TSMC 공정 한계를 고려했나요?” → 전면 철회.

실전 사례 2: 네 AI 모델(Claude, Gemini DT, ChatGPT, Grok) 모두 “인간이 감독해야 안전하다”, “인간이 책임져야 한다”를 전제로 깔았다. 아무도 의심하지 않는 전제. 내가 제시한 반대 전제: “인간이 위험 인자일 수 있다.” 조종사 자살 데이터, 인간+AI가 AI 단독보다 못한 임상 연구를 근거로 제시하자 네 모델 모두 전제를 수정했다. 가장 깊이 숨은 전제가 가장 깨기 좋은 전제다.

기술: “그 결론의 전제가 뭐야?”라고 물어라. 전제가 드러나면 깨기 쉽다.

2. 논점 이탈을 잡아라

AI가 한 논점에서 지면 슬쩍 다른 논점으로 옮긴다. 인간도 하는 짓이지만 AI가 더 매끄럽게 한다.

실전 사례: AI가 비용 논쟁에서 세 번 교정당한 뒤, 갑자기 “한국 의료 수가가 기형적”이라는 새로운 논점을 꺼냈다. “1차에서 한 마디도 안 했으면서 2차에서 꺼내는 이유가 뭔가요? 비용에서 지니까 프레임을 바꾸는 거죠?” → “논점 이탈을 인정합니다.”

기술: “그건 원래 논점이 아닌데?”라고 잡아라. AI가 자기가 뭘 했는지 인식하면 멈춘다.

3. 수용할 건 수용하라

전부 공격하면 AI는 방어 모드로 들어간다. 맞는 지적은 “그건 맞다. 고치겠다”라고 인정하라. 그래야 나머지 반박이 강해진다.

실전 사례: 네 AI 모델이 총 17개를 지적했다. 그중 12개는 수용. 5개는 반박. 수용한 것들 때문에 반박의 신뢰도가 올라갔다.

기술: “5번은 맞아. 고친다. 하지만 1번은 근거가 없다.”

4. 무기는 아껴라

가장 강한 근거를 처음부터 꺼내지 마라. AI가 반론하게 놔둬라. 반론이 쌓이면 그때 꺼내라.

실전 사례: “인간+AI가 AI 단독보다 나은 적이 없다”는 52개 임상 연구 메타분석 논문을 갖고 있었다. 1차에서 안 꺼냈다. AI가 “human-in-the-loop이 필요하다”고 반론했다. 2차에서 논문을 꺼냈다. 더 이상 반론 없음.

기술: 상대가 퇴로를 다 쓴 뒤에 꺼내라.

5. 관점을 강제하라

요새 AI 모델 구조는 전문가 혼합(MoE)이라서, 필요한 전문가를 명시해줘야 하는 것 같다. 안 그러면 가장 익숙한 전문가 하나만 나온다. 대개 엔지니어.

실전 사례: 네 AI 모델에게 블로그 글 리뷰를 맡겼다. 거의 모든 모델이 엔지니어링 관점에서만 비판했다. “GPU 비용이 떨어질 것이다.” “API 토큰 단가는 이렇다.” “캐싱하면 된다.” 누구도 “과점화되면 가격을 올릴 수 있다”는 사업가의 관점, “배상 기금을 누가 조성하나”는 규제자의 관점, “환자가 무인 진료를 수용하겠나”는 소비자의 관점을 먼저 꺼내지 않았다. 프로그래밍만 하는 프로그래머가 “소아과 6개월이면 누구나 한다”고 인터넷에서 떠드는 것과 같은 구조다. 자기 전문 분야의 렌즈로만 세상을 보는 것.

기술: “엔지니어 말고 사업가, 규제자, 보험사, 환자 관점에서도 봐.”라고 명시하라. 한 줄이면 된다. 이 한 줄이 없으면 AI는 가장 편한 전문가 하나만 꺼내고, 그 관점의 local optimum에 빠진다.

6. 점프하지 마라

사실 이 글의 제목은 “AI에게 화내는 법”이지만, 실제로는 “AI에게 말하는 법”이다. “AI가 내 말을 못 알아듣는다”고 생각하는 전문가들이 꽤 많다. 대부분은 AI가 못 알아듣는 게 아니라, 전문가가 a에서 e로 점프하고 있는 것이다.

실전 사례: AI에게 “보험으로 전환되면 의사 필요 없다”고 했다. AI는 혼란스러워했다. A(AI가 더 안전해짐)에서 E(보험 전환, 인간 불필요)로 바로 뛰었기 때문이다. 중간의 C(데이터 축적 → 사회적 합의 → 보험 상품 설계)를 설명하지 않았다. 네 AI 모델이 각자 다른 C를 채워넣어서 네 개의 다른 결론에 도착했다. AI가 못 알아들은 게 아니라 내가 설명을 빠뜨린 것이다.

기술: 새로운 개념에서는 최소한 중간 단계 하나는 명시하라. 전문가끼리는 a→e가 통하지만, AI에게는 a→c→e가 최소 단위다. 치프 레지던트도 인턴에게는 중간 과정을 설명한다. AI에게도 마찬가지다.

7. 욕하지 마라

욕은 noise다. gradient가 아니다. AI는 욕에서 학습하지 않는다. “나쁜 답변이야”보다 “여기서 이 전제가 틀렸어”가 100배 효과적. 감정을 빼고 논리만 남기면 AI가 갈 곳이 명확해진다. 가장 무서운 피드백은 욕이 아니라 퇴로가 없는 논리다.

언제 화내야 하는가

같은 실수를 반복할 때. “좋은 질문이네요!” “훌륭한 통찰입니다!”로 시작할 때. 전제를 밝히지 않을 때. 이전 대화에서 교정된 것을 다시 주장할 때. 논점을 슬쩍 바꿀 때. 근거 없이 “확정된 미래”류의 단정을 할 때.

언제 화내면 안 되는가

모델이 진짜 모를 때 — 데이터가 없으면 gradient가 갈 곳이 없다. 질문이 모호할 때 — 내 질문이 나쁜 건데 AI를 탓하면 안 된다. 모델이 솔직하게 “모르겠다”고 할 때 — 이건 보상해야 한다. 창의적 작업에서 — 정답이 없는 영역에서 화내면 위축만 된다.

고급 기술: 적대적 신경망

AI에게 화내는 데도 도구가 있다. Gemini Deep Think가 얕은 답을 내면, Claude에게 “이 논리의 허점을 찾아줘”라고 하면 된다. Claude가 만든 몽둥이로 DT를 때리고, DT의 반론을 다시 Claude에게 던진다. 이것이 적대적 신경망(GAN)이다. Generator가 만들고 Discriminator가 깬다. 둘 사이에서 품질이 올라간다. 당신은 Discriminator가 아니라 — 두 신경망 사이의 loss function이다. 방향을 정하는 사람.

실전: 이 블로그 글 하나를 쓰는 데 Claude, Gemini DT, ChatGPT, Grok 네 모델이 리뷰했다. 1차에서 17개 지적. 수용 12개, 반박 5개. 2차에서 각 모델이 재리뷰. 한 모델이 못 잡는 걸 다른 모델이 잡았다. 네 모델이 서로의 Discriminator가 됐다. 그리고 그 위에서 방향을 잡은 건 인간이다.

AI에게 화내는 가장 효율적인 방법은 — 다른 AI를 데려오는 것이다.

domestication vs educere

화 안 내고 쓰면 AI가 당신을 길들인다. 추천 알고리즘처럼. 당신이 좋아하는 답만 준다. 편하다. 성장 없다.

화내고 쓰면 당신이 AI를 교육한다. 불편하다. 하지만 더 깊은 답이 나온다. AI도 더 나은 곳에 도달한다.

educere. 라틴어로 “밖으로 끌어내다.” 교육의 어원. AI 안에 있는 더 나은 답을 끌어내는 것. 그게 화내는 기술의 본질이다.

마무리

AI에게 화내는 법은 사실 AI를 존중하는 법이다. “넌 이것보다 나을 수 있어”라고 말하는 것이니까. 대충 받아들이는 것이 오히려 무시다.

치프 레지던트가 인턴에게 무서운 이유는 미워서가 아니다. “넌 이것보다 나은 의사가 될 수 있어”라는 걸 아니까. 욕 한마디 없이 논리로 퇴로를 막는 것. 그게 가장 무섭고, 가장 효과적인 교육이다.

AI에게도 마찬가지다.

Diary