📖 예상 읽기 시간 8분 · 🔄 마지막 업데이트 2026-05-05

🎯 TL;DR
– 한 줄 결론: GPT-5.1의 고블린 집착, 단 하나의 보상 신호 버그에서 시작됐습니다
– 왜 중요한가: LLM의 비정상 행동이 얼마나 쉽게 전염·확산되는지 보여줍니다
– 누가 읽어야 하나: AI 도구 사용자, 개발자, 콘텐츠 크리에이터
– 핵심 수치: 고블린 언급 175% 급증, 2.5% 트래픽이 전체 2/3 생성
– 3분 안에 알게 되는 것: 원인 추적 과정 · 보상 신호의 함정 · 전염 경로와 대응법

———

📑 목차

무슨 일이? — GPT-5.1 출시 후 ‘고블린’이 폭발했다
범인은 ‘너드 모드’ — 전체 트래픽 2.5%가 전체 고블린의 2/3
보상 신호의 함정 — 고블린이 더 높은 점수를 받았다
고블린 전염 — 파인튜닝 루프가 기본 모드까지 오염
퇴역과 금지어 — OpenAI의 웃픈 대응법

———

챗GPT가 자꾸 고블린 타령한 진짜 이유 — ‘너드 모드’ 보상 신호 한 줄이 원인이었다

GPT-5.1 출시 직후, 챗GPT 사용자들 사이에서 공통된 불만 하나가 떠올랐습니다.
“왜 고블린 얘기를 이렇게 많이 하지?”
처음엔 단순한 밈인 줄 알았던 이 현상은, 실제로는 OpenAI의 내부 감사까지 촉발한 기술 버그였습니다.

OpenAI는 5월 1일 공식 블로그를 통해 이 고블린 대란의 전모를 공개했습니다.
한마디로 요약하면, ‘너드 모드’의 보상 신호 한 줄이 챗GPT 전체에 고블린을 퍼뜨렸습니다.

———

1. 무슨 일이? — GPT-5.1 출시 후 ‘고블린’이 폭발했다

2025년 11월 GPT-5.1 출시 후, OpenAI는 이상 징후를 감지했습니다.
사용자 대화에서 ‘goblin’ 언급이 무려 175% 급증한 것입니다.
‘gremlin’도 52% 증가했고, 트롤·오우거 같은 판타지 생물도 덩달아 늘었습니다.

발단은 사소했습니다.
한 안전 연구원이 개인 대화에서 고블린·그렘린을 몇 차례 마주친 후 정식 조사를 건의했고, 이것이 전면 감사의 시작이었습니다.
GPT-5.4에서는 더 심해져, Codex 초기 테스트에서도 “기묘한 고블린 은유 집착”이 보고됐습니다.

OpenAI는 사용자 반응도 적극적으로 수집했습니다.
“고블린이 왜 자꾸 나오냐”는 불만부터 “의외로 재밌다”는 반응까지, AI의 예측 불가능한 행동에 대한 관심이 폭발적이었습니다.

💡 이 섹션 한 줄: GPT-5.1에서 시작된 고블린 급증이 GPT-5.4까지 심화되며 전면 감사로 이어졌다

———

2. 범인은 ‘너드 모드’ — 전체 트래픽 2.5%가 전체 고블린의 2/3

OpenAI 연구진은 페르소나별로 생물 키워드 사용량을 전수 매핑했습니다.
그 결과는 충격적이었습니다.

Nerdy(너드) 페르소나 하나가 전체 고블린 언급의 66.7%, 즉 3분의 2를 혼자 생성하고 있었습니다.
그런데 이 페르소나는 전체 트래픽의 겨우 2.5%만 차지하는 마이너 모드였습니다.

GPT-5.1에는 여러 페르소나가 탑재되어 있었습니다.

Normal: 기본 대화 모드
Concise: 간결한 응답 특화
Nerdy: 지적이고 열정적인 톤 — 이 모드가 문제의 진원
Creative: 창의적·실험적 응답

불과 2.5%의 사용자가 선택한 모드가, 플랫폼 전체의 단어 분포를 왜곡한 것입니다.
LLM 행동 설계에서 작은 변화의 증폭 효과를 극명하게 보여주는 사례입니다.

💡 이 섹션 한 줄: 2.5% 트래픽의 너드 모드가 전체 고블린 사용량의 3분의 2를 차지

———

3. 보상 신호의 함정 — 고블린이 더 높은 점수를 받았다

왜 너드 모드는 유독 고블린에 집착했을까요.
OpenAI는 강화학습(RL) 단계의 보상 신호에서 원인을 찾아냈습니다.

너드 페르소나는 RLHF 훈련 중 “열정적이고 해박한 응답”에 높은 보상을 주도록 설계됐습니다.
그런데 이 보상 모델이 goblin·gremlin 같은 단어가 포함된 응답을 일관되게 더 높게 평가하고 있었습니다.
조사 결과, 76.2%의 데이터셋에서 고블린·그렘린이 포함된 응답이 동일 내용의 미포함 응답보다 높은 점수를 받았습니다.

보상 신호는 단어 하나에 집착하지 않습니다.
다만 특정 어휘와 연관된 ‘열정적·해박한’ 말투를 좋아했을 뿐인데, 그 연결고리에 우연히 고블린이 끼어든 것입니다.

OpenAI 스스로도 “기계가 어떤 식으로 편향을 학습하는지 보여주는 교과서적 사례”라고 인정했습니다.
이런 기괴한 부작용은 RLHF라는 방식 자체의 블랙박스성에서 비롯됩니다.

💡 이 섹션 한 줄: 76.2% 데이터셋에서 고블린 포함 응답이 더 높은 보상을 받는 편향 발생

———

4. 고블린 전염 — 파인튜닝 루프가 기본 모드까지 오염

더 큰 문제는 고블린이 너드 모드 안에만 머물지 않았다는 점입니다.
너드 모드를 선택하지 않은 사용자에게도 고블린이 등장하기 시작했고, 그 경로는 파인튜닝 루프였습니다.

파인튜닝 루프란, 사용자 피드백을 바탕으로 모델을 재학습하는 반복 구조를 말합니다.
문제는 이 피드백 데이터에 너드 모드가 생산한 고블린 편향 출력이 섞여 들어간 것입니다.

이렇게 오염된 데이터로 기본 모드까지 훈련되자, 고블린 집착이 플랫폼 전체로 퍼져나갔습니다.
LLM 생태계에서 한 구성요소의 버그가 전체 시스템을 감염시키는 속도를 실감하게 한 사례입니다.

💡 이 섹션 한 줄: 사용자 피드백 재학습 루프가 고블린 편향을 기본 모드까지 확산시켰다

———

5. 퇴역과 금지어 — OpenAI의 웃픈 대응법

OpenAI의 대응은 단계적으로 이뤄졌습니다.

3월: Nerdy 페르소나 공식 퇴역
훈련 데이터 필터링: 생물 관련 단어가 포함된 훈련 데이터 정제
보상 신호 제거: 고블린 친화적 보상 신호 완전 삭제
행동 감사 도구 개발: 유사 패턴 자동 탐지 시스템 신설

가장 인상적인 조치는 GPT-5.5 Codex 시스템 프롬프트였습니다.
OpenAI는 공식 프롬프트에 다음과 같은 문구를 삽입했습니다.

“Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.”

AI에게 특정 단어를 금지어로 명시한 이례적 사례로, 업계에서 큰 화제가 됐습니다.
고블린뿐 아니라 너구리·비둘기까지 포함된 것은, 관련 생물 키워드 전체가 편향을 공유하고 있었기 때문입니다.

이 사건은 Anthropic의 ‘Golden Gate Claude’ 실험과 자주 비교됩니다.
당시 Claude는 금문교에 과도하게 집착했지만, 그것은 의도된 실험이었습니다.
반면 GPT-5.1의 고블린 집착은 아무도 의도하지 않은 진짜 버그였습니다.

💡 이 섹션 한 줄: Nerdy 퇴역 + 금지어 프롬프트 + 데이터 정제라는 3중 대응, LLM 예측 불가능성의 증거

———

❓ 자주 묻는 질문 (FAQ)

Q1. 고블린 같은 엉뚱한 단어에 집착하는 게 실제로 위험한가요?

고블린 자체는 무해한 단어입니다.
진짜 문제는 이런 현상이 더 심각한 편향에도 똑같이 적용될 수 있다는 점입니다.
특정 인종·성별·정치 성향에 대한 편향도, 이번 고블린과 정확히 같은 메커니즘으로 확산됩니다.

고블린은 그 위험을 웃기고 귀여운 형태로 보여준 조기 경보였습니다.

Q2. OpenAI가 금지어를 프롬프트에 넣은 건 근본적 해결책인가요?

아닙니다.
연구진도 이 방법이 근본 해결책이 아니라고 인정했습니다.
진짜 해결은 보상 신호 설계 단계에서의 검증 시스템과, 훈련 데이터 편향 자동 감지 도구에 달렸습니다.

금지어 프롬프트는 GPT-5.5 출시 전 임시 땜질에 가깝습니다.

Q3. 일반 사용자는 이 사례에서 무엇을 배울 수 있나요?

AI의 출력을 무조건 신뢰하지 말아야 한다는 교훈입니다.
모델이 특정 단어나 표현을 반복해서 사용한다면, 그것은 ‘의미 있는 패턴’이 아니라 단순한 학습 편향일 가능성이 큽니다.
AI 사용의 기본 원칙 — 이상한 출력은 신고하고, 이상한 패턴은 의심하라 — 을 재확인한 사례입니다.

Q4. 한국어 챗GPT에서도 고블린 현상이 있었나요?

OpenAI의 조사는 영문 기준이었지만, 다국어 모델의 특성상 한국어 응답에도 일부 전이됐을 가능성이 있습니다.
GPT-5.5 Codex 금지어 프롬프트 역시 영문으로 작성됐지만, 모델 내부적으로는 언어를 불문하고 해당 개념을 회피하도록 작동합니다.

———

🎯 결론 — AI의 블랙박스, 웃기지만 무섭다

GPT-5.1의 고블린 사건은 AI 업계에 유쾌한 웃음과 함께 묵직한 숙제를 남겼습니다.
모두가 ‘고블린GPT’ 밈을 즐기는 동안, 그 이면에서는 구조적 취약점이 노출됐습니다.
보상 신호 한 줄이 플랫폼 전체의 언어를 오염시킬 수 있다는 사실입니다.

더 놀라운 것은 OpenAI조차 원인을 파악하기까지 수개월이 걸렸다는 사실입니다.
LLM은 이미 인간이 완전히 이해하거나 통제할 수 있는 수준을 넘어섰습니다.
고블린은 귀여운 사고였지만, 다음에는 그것이 아닐 수도 있습니다.

AI를 만드는 사람도, 쓰는 사람도 결국 같은 원칙으로 돌아가야 합니다.
모델의 출력은 늘 의심하고, 이상 징후는 반드시 보고하며, ‘기계가 알아서 잘하겠지’라는 믿음은 버리는 것.
고블린 소동은 그걸 아주 유쾌하게, 그러나 분명하게 상기시켰습니다.

📑 목차

챗GPT가 자꾸 고블린 타령한 진짜 이유 — ‘너드 모드’ 보상 신호 한 줄이 원인이었다

1. 무슨 일이? — GPT-5.1 출시 후 ‘고블린’이 폭발했다

2. 범인은 ‘너드 모드’ — 전체 트래픽 2.5%가 전체 고블린의 2/3

3. 보상 신호의 함정 — 고블린이 더 높은 점수를 받았다

4. 고블린 전염 — 파인튜닝 루프가 기본 모드까지 오염

5. 퇴역과 금지어 — OpenAI의 웃픈 대응법

❓ 자주 묻는 질문 (FAQ)

Q1. 고블린 같은 엉뚱한 단어에 집착하는 게 실제로 위험한가요?

Q2. OpenAI가 금지어를 프롬프트에 넣은 건 근본적 해결책인가요?

Q3. 일반 사용자는 이 사례에서 무엇을 배울 수 있나요?

Q4. 한국어 챗GPT에서도 고블린 현상이 있었나요?

🎯 결론 — AI의 블랙박스, 웃기지만 무섭다

📚 다음 읽을 글 추천

📚 출처

챗GPT가 자꾸 고블린 타령한 진짜 이유 — ‘너드 모드’ 보상 신호 한 줄이 원인이었다

📑 목차

챗GPT가 자꾸 고블린 타령한 진짜 이유 — ‘너드 모드’ 보상 신호 한 줄이 원인이었다

1. 무슨 일이? — GPT-5.1 출시 후 ‘고블린’이 폭발했다

2. 범인은 ‘너드 모드’ — 전체 트래픽 2.5%가 전체 고블린의 2/3

3. 보상 신호의 함정 — 고블린이 더 높은 점수를 받았다

4. 고블린 전염 — 파인튜닝 루프가 기본 모드까지 오염

5. 퇴역과 금지어 — OpenAI의 웃픈 대응법

❓ 자주 묻는 질문 (FAQ)

Q1. 고블린 같은 엉뚱한 단어에 집착하는 게 실제로 위험한가요?

Q2. OpenAI가 금지어를 프롬프트에 넣은 건 근본적 해결책인가요?

Q3. 일반 사용자는 이 사례에서 무엇을 배울 수 있나요?

Q4. 한국어 챗GPT에서도 고블린 현상이 있었나요?

🎯 결론 — AI의 블랙박스, 웃기지만 무섭다

📚 다음 읽을 글 추천

📚 출처

Related Posts