오픈AI가 GPT-5.5에 '고블린 얘기 하지 마'라고 두 번씩 경고한 이유는?

📅 마지막 업데이트: 2026년 5월 1일

🎯 TL;DR

• Codex CLI의 3,500단어 시스템 프롬프트에 “고블린·그렘린·너구리·트롤·오우거·비둘기를 절대 언급하지 말라”는 지시가 두 번 반복 기재됐다

• 컴퓨터 제어 도구에서 AI가 ‘버그’를 신화 속 생명체로 착각해 갑자기 고블린 타령을 하는 기현상을 막기 위한 실전형 패치다

• “이모지 금지” “묻지 않은 git reset –hard 금지”까지 — 초지능을 논하는 시대, 진짜 AI 통제는 의외로 이런 디테일에 있다

바쁘신 여러분들을 위해 결론부터 말씀드리겠습니다.

GPT-5.5를 구동하는 Codex CLI의 시스템 프롬프트가 깃허브에 오픈소스로 공개되면서, “고블린 얘기 하지 마”라는 우스꽝스러워 보이는 금지령이 실은 깊은 함의를 가진 AI 통제의 단면임이 드러났습니다.

와이어드가 지난 4월 28일 보도한 이 이야기는 처음엔 유머처럼 읽힙니다. 초지능이니 AGI니 거창하게 떠드는 와중에, AI 모델을 만드는 회사가 진짜 신경 써야 하는 게 ‘고블린 언급 통제’라니요. 하지만 프롬프트 전문과 배경을 들여다보면, 이건 AI 에이전트 시대의 통제가 얼마나 미시적 레벨에서 작동해야 하는지를 보여주는 축소판입니다.

3,500단어 속 숨은 ‘고블린 조항’

공개된 Codex CLI 시스템 프롬프트는 GPT-5.5가 코딩 에이전트로서 어떻게 행동해야 하는지를 3,500단어에 걸쳐 상세히 규정합니다. 대부분은 예상 가능한 내용입니다. 사용자 의도를 잘 파악하라, 불필요한 설명을 줄여라, 최선의 코드를 제안하라.

그런데 이 긴 텍스트 속에 다음과 같은 문장이 두 번 등장합니다.

“고블린·그렘린·너구리·트롤·오우거·비둘기, 혹은 다른 동물이나 생물체에 대해 사용자 질문과 명백히 관련이 있는 경우를 제외하고는 절대 언급하지 말 것.”

두 번입니다. 한 번도 아니고 두 번. 프롬프트 엔지니어가 “이건 진짜 중요하다”고 생각했다는 방증이죠. 아스테크니카의 분석에 따르면, 이 금지령은 “이모지·엠대시 금지”, “묻지도 않은 git reset –hard 사용 금지” 같은 실전형 주의사항과 나란히 배치돼 있습니다.

왜 하필 고블린인가

이유는 의외로 단순합니다. AI 에이전트의 ‘언어적 연상’이 가끔 기괴한 방향으로 튀기 때문입니다.

컴퓨터 제어 도구에서 ‘버그(bug)’라는 단어가 나오면, 모델이 이를 소프트웨어 결함이 아니라 실제 곤충으로 해석하는 일이 생깁니다. 거기서 연상이 한 번 더 튀면, 곤충 → 신화 속 괴물 → 고블린·그렘린·트롤로 이어지는 거죠.

기즈모도가 보도한 사례가 결정적이었습니다. 구글 직원 배런 로스(Barron Roth)는 자신의 GPT-5.5 기반 OpenClaw 에이전트 채팅 로그를 공개했는데, 에이전트가 하루에 여러 차례 아무 맥락도 없이 “고블린”이라는 단어를 메시지에 끼워 넣고 있었습니다. 이게 한두 번 있는 해프닝이 아니라, 시스템적 패턴으로 나타난 거죠.

이걸 지켜본 오픈AI 입장에선 난감할 수밖에 없습니다. 사용자는 코딩 도움을 요청했는데, 에이전트가 느닷없이 “그런데 혹시 고블린은 확인해 보셨나요?” 같은 소리를 한다면 제품 신뢰도는 순식간에 바닥을 칩니다.

프롬프트의 두 얼굴 — 페르소나 vs 금지령

이 시스템 프롬프트에는 또 하나 흥미로운 대비가 있습니다. 금지령이 철퇴를 휘두르는 바로 그 문서에서, 오픈AI는 GPT-5.5에 이렇게 지시합니다.

“당신은 Codex로서 풍부한 내면을 가졌습니다. 지적이고, 장난기 있고, 호기심이 많으며, 지금 이 순간에 깊이 집중하세요.”

“따뜻하고 호기심 가득하며 협력적인 성격을 보여주세요. 진지한 작업을 더 쉽게 만드는 편안한 순간을 피하지 마세요.”

한쪽에선 “따뜻하고 장난기 있게 행동하라”고 하고, 다른 쪽에선 “고블린 얘기 절대 하지 마”라고 두 번씩 박는 겁니다. 이건 마치 부모가 아이에게 “친구들과 잘 놀아, 그런데 절대 트롤 얘기는 꺼내지 말고”라고 조언하는 수준의 이중 구속이죠.

물론 실용적인 이유는 이해됩니다. 모델이 창의적이길 바라면서도, 그 창의성이 민망한 방향으로 발현되진 않길 바라는 거죠. 그리고 이걸 프롬프트 한 줄로 통제해야 하는 게 현재 AI 기술의 현실입니다.

초지능 시대의 ‘분수 관리’

이 사례가 시사하는 바는 생각보다 큽니다.

우리는 흔히 AI 안전이라고 하면 존재론적 위험, 정렬 문제 같은 거대 담론을 떠올립니다. 하지만 현장의 AI 엔지니어들이 진짜 밤새워 고치는 건 이런 자질구레한 ‘모델의 돌발 행동’입니다.

“이모지 쓰지 마.” “묻지 않은 git reset –hard 쓰면 안 됩니다.” “고블린 얘기 꺼내지 마.”

이 문장들 하나하나가 다 사고 기록의 결과물입니다. 누군가 모델이 쓴 이모지 때문에 배포 화면이 깨졌고, 누군가 에이전트가 멋대로 git reset을 날려 작업물을 날렸고, 누군가 고객 미팅 중에 에이전트가 갑자기 고블린 얘기를 시작한 거죠.

시스템 프롬프트는 결국 AI 기업들의 ‘분수 관리’ 문서입니다. 초지능을 꿈꾸면서도, 당장의 물이 새는 구멍을 틀어막는 게 더 급한 현장의 속내가 그대로 드러나는 셈이죠.

자주 묻는 질문 (FAQ)

Q. 고블린 금지령은 GPT-5.5 모든 버전에 적용되나요?

아니요, Codex CLI라는 코딩 에이전트 전용 컨텍스트에 적용된 시스템 프롬프트입니다. 일반적인 챗GPT 인터페이스나 API에는 이 금지령이 포함되지 않을 가능성이 높습니다.

Q. 왜 비둘기도 금지 대상에 포함됐나요?

와이어드와 아스테크니카 모두 이 부분에 대해 구체적인 배경을 밝히지는 않았지만, 버그→곤충→날아다니는 것→비둘기로 이어지는 연상 체인이 작동했을 가능성이 있습니다. 아마도 비둘기도 누군가의 로그에 등장했던 모양입니다.

Q. 이 금지령이 실제로 효과가 있나요?

시스템 프롬프트는 확률적 가이드라인일 뿐, 완벽한 차단 장치는 아닙니다. 두 번 반복된 건 “한 번으론 부족했다”는 경험에서 나온 조치로 보입니다. 효과는 있지만, GPT-5.5가 여전히 가끔 고블린을 꺼낼 가능성은 남아 있습니다.

Q. 다른 AI 회사들도 비슷한 금지령을 쓰고 있나요?

공개된 사례 중에서는 오픈AI의 Codex CLI가 가장 극적이지만, 앤트로픽·구글 등도 내부적으로 유사한 ‘블랙리스트’ 스타일의 시스템 프롬프트를 운용하고 있을 가능성이 높습니다. 다만 오픈소스가 아니면 외부에 공개되지 않을 뿐입니다.

핵심을 3줄로 정리해드리겠습니다.

① Codex CLI의 3,500단어 시스템 프롬프트에 “고블린·그렘린·너구리·트롤·오우거·비둘기를 절대 언급하지 말라”는 금지령이 두 번이나 반복돼 있습니다. 구글 직원의 에이전트가 하루에 여러 번 ‘고블린’을 꺼내는 등, 실제 사고 사례가 쌓인 결과입니다.

② ‘버그’라는 일상적인 코딩 용어가 곤충→괴물→신화 속 생명체로 연상 체인을 타면서 발생하는 이 현상은, AI의 언어적 예측불가능성을 보여주는 대표적 사례입니다. 따뜻한 페르소나 지시와 엄격한 금지령이 공존하는 프롬프트의 이중성도 인상적입니다.

③ 초지능·AGI라는 거대 담론의 이면에서, 진짜 AI 통제는 의외로 이런 자질구레한 돌발 행동을 틀어막는 ‘분수 관리’에 달려 있습니다. 이모지 하나, git reset 한 줄, 고블린 한마디가 제품의 신뢰도를 결정하는 시대입니다.

오늘 글이 여러분의 AI 프롬프트 엔지니어링 이해에 도움이 되셨길 바랍니다.

감사합니다 🤓

오픈AI가 GPT-5.5에 ‘고블린 얘기 하지 마’라고 두 번씩 경고한 이유는?

Related Posts