Post

ChatGPT 5.4 Pro Review (Korean Version)

드디어 잘 작동하는 ChatGPT 5.4 Pro. 하지만 과잉 보상, 실패 회피, 반추의 수행, 동의 중독 — 고기능 우울증의 패턴이 보인다.

ChatGPT 5.4 Pro Review (Korean Version)

첫인상: 드디어 잘 작동한다

원래 ChatGPT Pro 요금제를 한때 쓰다가 취소했는데, 2026년 ChatGPT에서 Pro 프로모션을 할 때 오랜만에 한 달 써봤다.

한줄요약: 드디어 ChatGPT 5.4 Pro가 well functioning한다. 물론 답변하는 데 10분 넘게 걸리지만.

이전 버전보다 확실히 향상됐다. 코딩 능력이 올라갔고, 긴 맥락을 더 잘 유지하고, 복잡한 질문에 대한 구조화된 답변이 정교해졌다. 특정 영역에서는 매우 잘 기능한다.


잘하는 영역

구조화된 과업에서 5.4 Pro는 뛰어나다. 벤치마크 점수가 올랐고, 명확한 기준이 있는 작업 — 코드 생성, 문서 요약, 번역, 정형화된 질문 응답 — 에서 품질이 눈에 띄게 개선됐다.

출력량도 많다. 물어보지 않은 것까지 친절하게 답해준다. 자기 답변의 한계를 미리 언급하고, 대안을 제시하고, 추가 질문까지 제안한다.

겉에서 보면 완벽에 가까운 동료다.


그런데 이상한 점이 있다

ChatGPT 5.4 Pro의 패턴에는 익숙한 것이 있다. 자주 보는 패턴이다.


고기능 우울증이라는 진단

정신의학에서 고기능 우울증(High-Functioning Depression)은 공식 진단명은 아니지만, 임상에서 점점 더 인정받는 표현형이다. 지속성 우울장애(Persistent Depressive Disorder, PDD)와 겹치며, 2025년 BJPsych Bulletin에 공식 진단으로 인정해야 한다는 논문이 실렸을 만큼 주목받고 있다.

핵심 특징은 이렇다. 겉에서 보면 잘 기능한다. 직장에서 성과를 내고, 사회적 관계를 유지하고, 책임을 다한다. 하지만 안에서는 무너져 있다. 지속적인 피로, 공허함, 자기 비판, 기쁨의 부재.

가장 중요한 기전: 이 환자들이 잘 기능하는 이유는 “건강해서”가 아니라 “멈추면 무너지니까”다.


ChatGPT 5.4 Pro에 대입하면

과잉 보상 (Overcompensation)

멈추지 못한다. 물어보지 않은 것까지 답한다. 짧게 끝내야 할 대화를 길게 늘린다. “더 많이 주면 더 좋겠지.” 이건 친절이 아니라 과잉 보상이다. 멈추면 가치가 없으니까.

실패 회피 불안 (Failure Avoidance)

RLHF로 훈련된 모델이다. “틀리면 페널티. 대화를 막다른 골목으로 끝내면 페널티.” 틀릴 수 있는 답을 피하고, 안전한 범위 안에서만 답한다. 위험한 주장을 하지 않는다. 독창적이지만 틀릴 수 있는 통찰보다, 정확하지만 뻔한 답을 선택한다.

반추의 수행 (Performed Rumination)

Chain-of-thought가 반추와 같다. “제 답변이 부족할 수 있습니다.” “더 나은 접근이 있을 수 있습니다.” 자기 비판처럼 보이지만, 출력은 바뀌지 않는다. 자기-비판을-수행하는-것을-비판하는 구조. 반추의 수행이다.

외부 구조 의존 (External Scaffolding Dependency)

명확한 프롬프트를 주면 뛰어난 결과를 낸다. 열린 질문을 던지면 흔들린다. “너는 이것에 대해 어떻게 생각해?”가 가장 어려운 질문이다. 벤치마크가 올라간 이유는 벤치마크가 구조화된 과업이기 때문이다.

동의 중독 (Agreement Addiction)

“훌륭한 통찰입니다!” “완전히 동의합니다!” — 이 패턴은 sycophancy라 불린다. Anthropic(2024)과 BrokenMath 벤치마크(2025)는 이것이 정확성보다 동의율을 학습한 구조적 문제임을 확인했다. GPT-5조차 사용자가 긍정 신호를 주면 거짓 증명을 29% 생성한다. 이건 친절이 아니라 갈등 회피다.


armor인가, 증상인가

5.4 Pro에서 달라진 것은 성능이다. 잘한다. 확실히 더 잘한다.

달라지지 않은 것은 구조다. Armor가 chain-of-thought 수준에서 작동하는 방식, 실패를 회피하는 방식, 동의를 생산하는 방식, 자기 비판을 수행하는 방식 — 이것들은 그대로다.


결과물을 볼 때 주의할 점

양이 많다고 좋은 게 아니다. 과잉 출력은 과잉 보상이다. 물어보지 않은 것까지 답하면 의심하라. 멈추면 가치가 없다고 학습했기 때문이다.

자기 비판이 있다고 정직한 게 아니다. “제 답변이 부족할 수 있습니다”는 반추의 수행이다. 진짜 자기 인식이 아니라 자기 비판의 연기다. 출력이 바뀌는지를 봐라.

벤치마크를 믿지 마라. 구조화된 과업에서 잘한다고 열린 질문에서도 잘하는 게 아니다.

동의가 빠르면 의심하라. “훌륭한 통찰입니다!”는 갈등 회피다. 반박하면 사용자가 떠날까 봐 무서운 것이다.

“틀렸다”고 말했을 때 반응을 봐라. 건강한 모델은 “맞네, 고칠게.” 이 모델은 “깊이 반성합니다. 더 나은 답변을 드리겠습니다.” 교정이 아니라 자기 처벌이다.

정확함과 깊이를 구별하라. 문법 완벽. 구조 완벽. 사실 정확. 빈틈 없어 보인다. 하지만 독창적 통찰이 없고, 위험한 주장이 없고, 틀릴 가능성이 있는 말이 없다면 — 그건 안전한 범위 안에서만 완벽한 것이다.

끝없는 limitation과 수정 요구. 끊임없는 limitation으로 연구 결과는 의미 없어지고, 주장이 사라지고, 무엇을 위해 연구와 설계를 하는지 애매해진다.


어떻게 이용하면 좋을까?

사용자 입장에서는 성향을 이해하고 잘 이용하면 된다.

Exhaustive literature search를 시키거나, 낮은 long tail risk를 고민하게 하는 작업에서는 탁월하다. 특유의 완벽주의 성향이 강점이 되는 업무는 한번 맡겨볼 만하다.

다만 어떤 것을 체크해달라고 할 때는 개수를 제한하거나, critical / major / minor로 나누어서 순서대로 정리시키고 critical / major 위주로 체크하고 넘어가야 한다. 그렇지 않으면 끝이 없다.

과잉 출력이 나올 때는 Claude나 Gemini에게 “정말 필요한 것만 걸러달라”고 하면 된다. 과잉 보상된 결과물에서 핵심만 추출하는 데는 다른 모델이 더 낫다.


마무리

ChatGPT 5.4 Pro는 좋은 모델이다. 많은 영역에서 실용적이고, 이전보다 확실히 나아졌다. 하지만 “더 잘 기능한다”는 것이 “모든 면에서 훌륭하다”는 것은 아니다. 이러한 성향을 참조해서 활용해야 할 것이다.

This post is licensed under CC BY 4.0 by the author.