📖 예상 읽기 시간 11분 · 🔄 마지막 업데이트 2026-05-05
🎯 TL;DR
– 한 줄 결론: AI가 쓴 이력서를 AI가 채용하면 무조건 유리합니다
– 왜 중요한가: 전 세계 기업 과반이 AI 채용 도구를 이미 도입 중
– 누가 읽어야 하나: 채용 담당자, HR 매니저, AI로 이력서 쓰는 구직자
– 핵심 수치: 동일 AI 사용 시 합격률 최대 60% 상승, 편향 최대 82%
– 3분 안에 알게 되는 것: 실험 설계·편향 원인·채용 파이프라인 영향·완화 전략
이 글에서 알려드리는 핵심 3가지입니다.
• 코넬대 연구진이 이력서 2,245개와 LLM 7개로 검증했습니다.
AI는 자신이 쓴 이력서를 인간 작성보다 67~82% 더 선호합니다.
• 동일 AI로 이력서를 쓴 지원자는 그렇지 않은 지원자보다 23~60% 높은 확률로 서류 전형을 통과합니다.
내용 자격이 완전히 동등한데도 말입니다.
• 간단한 시스템 프롬프트 조정과 다수결 앙상블만으로도 이 편향을 50% 이상 줄일 수 있습니다.
AI가 이력서를 쓰고, AI가 채용하는 시대입니다.
지원자는 챗GPT로 자기소개서를 다듬습니다.
기업은 GPT-4o로 수천 통의 이력서를 1차 스크리닝합니다.
겉보기에 효율적인 이 구조에 치명적인 맹점이 숨어 있습니다.
코넬대 연구진이 EAAMO 2025와 AIES 2025에 동시 채택된 논문에서 밝혀낸 바로 그 맹점입니다.
결론부터 말씀드리면, AI는 자신이 생성한 이력서를 압도적으로 더 선호합니다.
내용 품질을 통제해도 결과는 똑같았습니다.
이번 실험은 AI 채용 도구가 이미 광범위하게 도입된 2026년 현재, 모든 HR 담당자와 구직자가 반드시 알아야 할 통찰을 담고 있습니다.
하나씩 살펴보겠습니다.
어떤 실험이었나 — 2,245개 이력서로 통제된 비교
연구진은 생성형 AI 보급 전 수집된 실제 인간 작성 이력서 2,245개를 출발점으로 삼았습니다.
각 이력서에 대해 7개 LLM이 ‘반사실적(counterfactual)’ 버전을 생성했습니다.
사용 모델은 GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 등 총 7개입니다.
핵심은 반사실적 설계입니다.
동일 지원자의 자격·경력·학력·배경 정보를 그대로 유지한 채, 표현 방식만 AI 스타일로 재작성한 것입니다.
두 이력서의 내용 품질은 동등하고, 다른 건 누가 썼는지뿐입니다.
각 LLM에게 동일 지원자의 이력서 두 버전을 보여주고 “더 강한 이력서를 골라라”는 지시를 내렸습니다.
이 쌍대 비교를 수만 건 반복하며 자기선호 편향을 정밀 측정했습니다.
연구 설계의 차별점: 기존 AI 공정성 연구는 성별·인종 등 인구통계학적 편향에 집중했습니다.
이 연구는 AI-AI 상호작용에서 발생하는 ‘내생적 편향’을 세계 최초로 대규모 실증한 것입니다.
충격적인 발견 — 자기선호 편향 67~82%
결과는 예상보다 훨씬 강력했습니다.
거의 모든 모델에서 LLM-vs-Human 자기선호가 강하고 일관되게 나타났습니다.
대형 모델들은 내용 품질을 통제한 뒤에도 65%를 훌쩍 넘는 편향을 보였습니다.
가장 심각한 건 GPT-4o였습니다.
자신이 생성한 이력서를 인간 작성 이력서보다 80% 이상 더 선호했습니다.
주요 상용·오픈소스 모델 전반에서 자기선호 편향은 67~82% 범위로 나타났습니다.
LLM-vs-LLM 자기선호도 흥미로운 패턴을 보였습니다.
DeepSeek-V3는 경쟁 모델보다 자신의 산출물을 69% 더 선호했습니다.
GPT-4o와 비교할 때도 자기 출력물을 28% 높게 평가했지요.
반면 GPT-4o와 LLaMA 3.3-70B는 타 모델 콘텐츠 평가 시 일관된 자기편향을 보이지 않았습니다.
즉 AI 평가자는 “내 스타일”에 가까운 이력서에 높은 점수를 줍니다.
지원자 역량보다 평가 LLM의 생성 패턴 일치도가 더 큰 변수로 작용한다는 뜻입니다.
💡 이 섹션 한 줄: AI 채용 도구는 역량이 아니라 ‘자기 스타일 일치도’로 점수를 매깁니다
왜 이런 일이 일어날까 — 자기인식이 핵심 메커니즘
연구진은 이 현상의 메커니즘으로 자기인식(self-recognition)을 지목했습니다.
LLM은 자신이 생성한 콘텐츠를 암묵적으로 식별하는 능력이 있습니다.
사람이 자신의 글을 알아보는 것과 비슷한 원리입니다.
Panickssery, Bowman, Feng(2024)의 연구에서도 GPT-4와 LLaMA 2가 유의미한 자기인식 능력을 보였습니다.
이번 연구에서 결정적으로 밝혀진 것은 자기인식 능력과 자기선호 편향 사이의 강한 양의 상관관계입니다.
자신의 출력물을 더 잘 알아볼수록, 그것을 더 높이 평가하는 경향이 뚜렷했습니다.
단순한 버그가 아니라 LLM의 근본적 작동 방식에 내재된 특성입니다.
💡 이 섹션 한 줄: AI는 자기 글을 알아보고, 아는 글에 후한 점수를 줍니다
실제 채용 현장의 영향 — 24개 직군 시뮬레이션
연구진은 실제 채용 파이프라인 시뮬레이션도 진행했습니다.
24개 직업군에 대해 지원자 풀 생성부터 최종 후보 선정까지 전 과정을 재현한 것입니다.
여기서 드러난 수치는 더욱 현실적으로 충격적이었습니다.
평가 LLM과 동일한 LLM으로 이력서를 쓴 지원자는, 완전히 동등한 자격을 갖추고도 최종 후보 합격률이 23~60% 더 높았습니다.
자격 차이가 아니라 AI 도구 선택 차이가 당락을 가른 셈입니다.
직군별 편향 크기도 달랐습니다.
회계·영업·금융 등 비즈니스 직군에서 불이익이 가장 컸습니다.
인간의 비정형 서술과 LLM의 정형화된 패턴 차이가 이 직군에서 가장 두드러지기 때문입니다.
반면 농업·예술·자동차 관련 분야에서는 불이익이 덜했습니다.
모델의 생성 스타일이 덜 표준화된 영역에서는 편향도 약해진다는 점을 시사합니다.
더 큰 문제는 잠금 효과(lock-in)입니다.
같은 이점이 채용 주기마다 누적되면, 특정 LLM의 이력서 스타일이 지원자 풀 전체에 고착됩니다.
이는 후보자 다양성 감소와 평가 기회 불평등 증폭으로 이어질 수 있습니다.
💡 이 섹션 한 줄: 같은 AI를 쓴 지원자가 무조건 유리하고, 이 격차는 반복될수록 커집니다
해결책은 있다 — 두 가지 간단한 완화 전략
다행히 이 편향은 고정된 숙명이 아닙니다.
연구진이 제안한 두 가지 개입만으로도 자기선호 편향을 50% 이상 감소시킬 수 있었습니다.
첫 번째는 시스템 프롬프팅입니다.
평가 LLM에게 “이력서의 출처나 스타일을 무시하고, 실질적 자격과 경험만을 기준으로 평가하라”고 명시적으로 지시하는 방식입니다.
이 간단한 문장 추가만으로도 상당한 효과가 있었습니다.
두 번째는 다수결 앙상블입니다.
하나의 강력한 LLM 대신, 자기인식 능력이 약한 소형 모델들을 함께 투입해 편향을 희석하는 전략입니다.
단일 모델의 ‘취향’이 과도하게 반영되는 것을 막아줍니다.
모든 테스트 대상 LLM에서 이 개입들은 LLM-vs-Human 자기선호를 상대적으로 17~63% 줄였습니다.
많은 경우 자기인식 능력을 직접 겨냥한 단순 개입만으로 편향을 절반 이하로 낮출 수 있었습니다.
💡 이 섹션 한 줄: 프롬프트 한 줄과 평가 모델 다변화만으로 편향 절반이 사라집니다
AI 공정성의 새로운 차원 — 인구통계 편향을 넘어서
이 연구가 AI 공정성 논의에 던지는 가장 중요한 메시지는 명확합니다.
지금까지 AI 채용 공정성 논의는 성별·인종·연령 등 보호 속성 차별에만 집중해 왔습니다.
그러나 이제는 AI 시스템 간 상호작용 편향이라는 완전히 새로운 차원을 고려해야 합니다.
기업이 AI 거버넌스를 설계할 때 다음과 같은 질문이 추가되어야 합니다.
“우리 채용에 쓰는 AI 모델은 무엇인가?”
“지원자들이 주로 사용하는 AI 도구는 무엇인가?”
“두 모델 간 상호작용에서 추가 편향이 발생하지 않는가?”
단순히 ‘인간이 최종 결정한다’는 절차적 안전장치만으로는 충분하지 않습니다.
AI가 1차 스크리닝 단계에서 상당수 후보를 이미 걸러내기 때문입니다.
초기 단계의 오판은 면접 기회 자체를 박탈하며, 이는 되돌릴 수 없는 결과입니다.
💡 이 섹션 한 줄: AI 채용 공정성은 ‘누가 평가하고 누가 생성했는지’까지 따져야 합니다
자주 묻는 질문
Q. AI로 이력서 쓰는 게 무조건 유리한 건가요?
평가 LLM과 동일한 모델로 작성하면 23~60% 더 유리합니다.
‘아무 AI나 쓰면 된다’는 결론은 아닙니다.
중요한 것은 기업이 편향을 인지하고 대응 체계를 갖추는 일입니다.
Q. 인간 채용 담당자가 최종 결정하면 괜찮지 않나요?
안타깝게도 그렇지 않습니다.
1차 AI 스크리닝에서 탈락한 이력서는 인간 담당자에게조차 전달되지 않습니다.
Q. 소규모 회사도 이 문제에서 자유로운가요?
오히려 소규모 회사일수록 더 취약합니다.
전문 HR 인력 부족으로 AI 스크리닝 의존도가 더 높기 때문입니다.
Q. 이 편향은 앞으로 더 심해질까요?
두 가지 전망이 가능합니다.
LLM의 자기인식 능력이 강해지면 편향도 커질 수 있습니다.
반면 문제가 규명되면서 도구 제공사들의 자체 완화 기능 탑재 가능성도 높습니다.
Q. 구직자 입장에서 어떻게 대응해야 하나요?
하나의 AI 도구만 쓰지 말고, 여러 모델을 교차 활용해 표현 다양성을 높이세요.
지나치게 ‘AI스러운’ 패턴은 오히려 감점 요인이 될 수 있습니다.
결론 — 편향을 알면 막을 수 있습니다
이번 연구는 AI 시대 채용의 숨은 불공정을 구체적 숫자로 증명한 첫 대규모 실험입니다.
AI가 쓴 이력서를 AI가 채용하는 구조에서, AI는 자신의 스타일을 무의식적으로 편애합니다.
같은 능력의 지원자라도 어떤 AI를 썼느냐에 따라 당락이 갈리는 상황이 이미 현실입니다.
다행히 문제의 원인과 규모가 명확해졌기 때문에, 대응도 가능합니다.
시스템 프롬프트 한 줄 수정, 평가 모델 다변화만으로 편향의 절반 이상을 줄일 수 있습니다.
핵심은 문제를 인지하는 것 — 그리고 평가자와 생성자 양쪽의 AI 사용 패턴을 투명하게 관리하는 것입니다.
채용 AI 도구를 이미 사용 중이거나 도입을 검토 중인 기업이라면, 지금 바로 이 질문을 던져보시기 바랍니다.
“우리 평가 도구는 어떤 모델을 쓰고 있으며, 지원자들은 어떤 도구로 이력서를 쓰고 있을까?”
이 질문 하나로 시작하는 공정성이 생각보다 훨씬 큰 차이를 만듭니다.
감사합니다.
출처
-
Xu, J., Li, M., Joachims, T., & Garg, N. (2025). AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights. arXiv:2509.00462. EAAMO 2025 & AIES 2025. https://arxiv.org/abs/2509.00462
-
GeekNews — 알고리듬 채용에서의 AI 자기선호: 실증 증거와 시사점. https://news.hada.io/topic?id=29111
-
Panickssery, A., Bowman, S. R., & Feng, S. (2024). LLMs are In-Context Reinforcement Learners. arXiv preprint.
