분류(Classification)란? AI가 입력을 카테고리로 나누는 기본 개념
TL;DR
분류(Classification)는 AI가 입력 데이터를 미리 정한 카테고리나 라벨 중 하나로 나누는 작업입니다.
고객 문의를 "배송", "환불", "상품 문의"로 나누거나, 댓글을 "긍정", "중립", "부정"으로 나누는 일이 대표적인 분류입니다.
다만 분류 결과는 확률과 기준에 따라 흔들릴 수 있으므로, 중요한 업무에서는 정답 라벨, 평가 지표, 사람 검토 기준을 함께 설계해야 합니다.
핵심 3줄 요약
- 핵심 1
분류는 AI가 입력을 숫자가 아니라 정해진 class 또는 label로 예측하는 작업입니다. - 핵심 2
Google Machine Learning Glossary는 분류 모델을 문장 언어, 나무 종, 질병 양성·음성처럼 클래스를 예측하는 모델로 설명합니다. - 핵심 3
분류 자동화는 편리하지만, 불균형 데이터와 애매한 기준에서는 정확도만 믿지 말고 precision, recall, 검토 흐름을 함께 봐야 합니다.
이 글에서 다룰 내용
- 분류의 한 문장 정의
- AI 제품과 자동화에서 왜 중요한가
- 고객 문의와 감성 분석으로 보는 쉬운 예시
- 회귀, 클러스터링, 태깅, 구조화 출력과의 차이
- 실전에서 어떻게 쓰이는가
- 주의할 점과 FAQ
한 문장 정의
분류(Classification)는 AI나 머신러닝 모델이 입력 데이터를 미리 정해진 카테고리, 클래스, 라벨 중 하나 또는 여러 개로 나누는 작업입니다.
한 줄 정리
분류는 "이 입력은 어느 칸에 들어가야 하는가"를 AI가 판단하는 작업입니다.
Google Machine Learning Glossary는 classification model을 class를 예측하는 모델로 설명하며, 문장의 언어를 맞히거나 나무 종을 맞히거나 의료 상태의 양성·음성을 판단하는 예시를 듭니다. 반대로 regression model은 집값이나 온도처럼 숫자를 예측합니다.
Hugging Face 문서는 text classification을 텍스트에 label 또는 class를 붙이는 일반적인 자연어 처리 작업으로 설명합니다. 감성 분석처럼 문장을 긍정, 부정, 중립 중 하나로 나누는 일이 대표적입니다.
왜 중요한가
AI를 실제 업무에 붙이면 가장 먼저 생기는 요구 중 하나가 "이걸 자동으로 나눠줘"입니다. 문의 유형을 나누고, 리뷰 감성을 나누고, 문서의 주제를 나누고, 위험 콘텐츠를 걸러내는 일이 모두 분류에 가깝습니다.
감자나라ai님이 블로그와 고객지원 업무를 함께 운영한다고 생각해보겠습니다. 고객 문의가 하루 300건 들어오면 사람이 하나씩 읽고 "배송", "환불", "제품 오류", "광고 제휴", "기타"로 나누는 데 시간이 많이 듭니다. 분류 모델이나 AI 프롬프트를 잘 설계하면 먼저 큰 범주를 나눠 담당자에게 보내고, 사람은 애매하거나 중요한 건만 검토할 수 있습니다.
핵심 인사이트
분류는 AI 자동화의 기초 체력입니다. 분류가 안정적이어야 라우팅, 요약, 답변 초안, 통계 리포트 같은 다음 단계가 안전하게 이어집니다.
쉬운 예시
가장 쉬운 예시는 고객 문의함입니다.
- "택배가 아직 안 왔어요"는 배송 문의입니다.
- "주문을 취소하고 싶어요"는 환불 또는 취소 문의입니다.
- "이 제품은 방수인가요?"는 상품 문의입니다.
- "광고 협업 가능할까요?"는 제휴 문의입니다.
분류 AI는 입력 문장을 읽고 가장 알맞은 라벨을 고릅니다. 이때 라벨은 사람이 미리 정해 둔 기준이어야 합니다. 기준이 없으면 AI도 일관되게 나눌 수 없습니다.
예시
"어제 주문했는데 송장 번호가 보이지 않아요"라는 문장은 배송 문의로 분류하는 것이 자연스럽습니다. 하지만 "배송이 늦어서 취소하고 싶어요"처럼 두 의미가 섞이면 배송인지 취소인지 기준을 미리 정해야 합니다.
텍스트 분류만 있는 것은 아닙니다. 이미지 분류는 사진이 고양이인지 강아지인지, 제품 불량인지 정상인지 나눌 수 있습니다. 콘텐츠 안전 분류는 텍스트나 이미지가 정책상 문제가 있는 범주에 들어가는지 판단합니다.
OpenAI Moderation 문서는 텍스트와 이미지를 분류해 유해 콘텐츠를 감지하고, 필터링·검토 라우팅·계정 개입 같은 정책 실행에 활용할 수 있다고 안내합니다. Google Cloud Natural Language 문서도 문서를 분석해 적용되는 콘텐츠 카테고리 목록을 반환하는 분류 기능을 설명합니다.
헷갈리는 용어와 차이
분류와 회귀는 무엇이 다른가
분류는 "카테고리"를 예측합니다. 예를 들어 고객 문의 유형, 스팸 여부, 감성 라벨, 이미지 속 사물 종류를 고릅니다.
회귀는 "숫자"를 예측합니다. 예를 들어 다음 달 매출, 예상 배송 시간, 클릭률, 온도처럼 연속적인 값을 예측합니다.
한 줄 정리
분류는 이름표를 고르는 일이고, 회귀는 숫자를 맞히는 일입니다.
분류와 클러스터링은 무엇이 다른가
분류는 미리 정한 라벨이 있습니다. "배송", "환불", "상품 문의"처럼 정답 후보가 정해져 있습니다.
클러스터링은 데이터끼리 비슷한 것끼리 묶어 숨은 그룹을 찾습니다. 처음부터 라벨을 정하지 않고 "비슷한 문의끼리 묶어보니 이런 그룹이 보인다"는 방식에 가깝습니다.
분류와 태깅은 무엇이 다른가
분류는 보통 하나의 대표 라벨을 고르는 경우가 많습니다. 태깅은 여러 태그를 동시에 붙일 수 있습니다. 예를 들어 한 고객 문의에 "환불", "배송 지연", "VIP 고객" 태그가 동시에 붙을 수 있습니다.
물론 실제 시스템에서는 multi-label classification처럼 여러 라벨을 동시에 예측하는 분류 방식도 있습니다. 초보자는 "하나로 나누는 분류"와 "여러 꼬리표를 붙이는 태깅"을 먼저 구분하면 됩니다.
분류와 구조화 출력은 무엇이 다른가
분류는 어떤 라벨을 고를지 판단하는 작업입니다. 구조화 출력은 그 결과를 JSON 같은 정해진 형식으로 받는 방식입니다.
예를 들어 "문의 유형을 배송으로 분류하라"는 분류입니다. "문의 유형, 긴급도, 담당팀을 JSON으로 반환하라"는 구조화 출력까지 함께 쓰는 자동화입니다.
실전에서 어떻게 쓰이나
첫째, 고객지원 라우팅에 씁니다. 고객 문의를 배송, 환불, 상품 문의, 오류 신고, 제휴 문의로 나누면 담당팀 배정이 빨라집니다.
둘째, 리뷰와 댓글 분석에 씁니다. 상품 리뷰를 긍정, 중립, 부정으로 나누거나 불만 유형을 가격, 품질, 배송, 사용성으로 나눌 수 있습니다.
셋째, 문서와 뉴스 분류에 씁니다. 많은 문서를 법무, 마케팅, 기술, 채용, 고객사례처럼 주제별로 나누면 검색과 요약이 쉬워집니다.
넷째, 콘텐츠 안전 점검에 씁니다. OpenAI Moderation처럼 입력이나 출력이 특정 유해 범주에 해당하는지 분류해 검토나 차단 흐름으로 보낼 수 있습니다.
다섯째, AI 평가와 품질 관리에 씁니다. 분류 작업은 정답 라벨이 비교적 명확하기 때문에 accuracy, precision, recall 같은 지표로 품질을 점검하기 좋습니다. Google Machine Learning Crash Course는 분류 평가에서 데이터 불균형과 오분류 비용에 따라 지표 선택이 달라져야 한다고 설명합니다.
실전 팁
분류 자동화를 만들 때는 먼저 라벨 목록을 5개 안팎으로 작게 시작하세요. 라벨이 너무 많거나 서로 겹치면 AI보다 사람도 헷갈립니다.
주의할 점
첫째, 라벨 기준이 모호하면 결과도 흔들립니다. "불만"과 "문의"가 겹치거나 "기타"가 너무 넓으면 같은 문장도 매번 다르게 분류될 수 있습니다.
둘째, 정확도만 보면 위험합니다. 예를 들어 정상 문의가 99%이고 위험 문의가 1%인 데이터에서 AI가 전부 정상이라고 해도 accuracy는 높게 보일 수 있습니다. 하지만 실제로는 중요한 위험 문의를 놓친 것입니다. 이런 경우 recall, precision, confusion matrix를 함께 봐야 합니다.
셋째, 분류는 판단 보조이지 최종 책임자가 아닙니다. 환불 거절, 계정 정지, 의료·법률·금융 판단처럼 영향이 큰 결정에는 사람 검토와 이의 제기 절차가 필요합니다.
넷째, 학습 데이터와 실제 데이터가 다르면 성능이 떨어집니다. 예시 데이터는 깔끔했는데 실제 고객 문의는 오타, 은어, 이미지 캡처, 여러 주제가 섞인 문장일 수 있습니다.
다섯째, 분류 기준은 시간이 지나며 바뀔 수 있습니다. 새 제품, 새 정책, 새 위험 유형이 생기면 라벨과 예시를 다시 점검해야 합니다.
FAQ
Q1. 분류는 챗GPT 같은 생성형 AI에서도 쓰이나요?
네. 챗GPT 같은 생성형 AI도 "이 문의를 배송, 환불, 상품 문의 중 하나로 분류해줘"처럼 분류 작업에 사용할 수 있습니다. 다만 반복 업무에서는 라벨 기준, 예시, 출력 형식, 검수 절차를 함께 정해야 안정적입니다.
Q2. 분류 모델은 항상 하나의 답만 고르나요?
아닙니다. 하나의 라벨만 고르는 single-label classification도 있고, 여러 라벨을 동시에 붙이는 multi-label classification도 있습니다. 예를 들어 한 문의가 "배송 지연"과 "환불 요청"을 동시에 가질 수 있습니다.
Q3. 분류와 감성 분석은 같은 말인가요?
감성 분석은 분류의 한 종류로 볼 수 있습니다. 문장이나 리뷰를 긍정, 중립, 부정 같은 감성 라벨로 나누기 때문입니다.
Q4. 분류 자동화를 만들 때 가장 먼저 할 일은 무엇인가요?
라벨 목록과 판단 기준을 먼저 정해야 합니다. 예시 문장 20~50개를 사람이 직접 분류해보고, 사람이 헷갈리는 라벨은 합치거나 이름을 바꾸는 것이 좋습니다.
Q5. 분류 결과가 틀리면 모델이 나쁜 건가요?
항상 그렇지는 않습니다. 라벨 기준이 모호하거나, 예시 데이터가 부족하거나, 실제 입력이 학습·테스트 데이터와 다를 수도 있습니다. 먼저 기준, 데이터, 평가 지표, 사람 검토 흐름을 함께 점검해야 합니다.
출처
마무리
분류는 AI가 "무엇을 어디로 보낼지" 판단하게 만드는 기본 개념입니다. 고객 문의를 담당팀으로 보내고, 리뷰를 감성별로 나누고, 위험 콘텐츠를 검토 큐로 보내는 일의 출발점이 됩니다.
초보자는 오늘 두 가지만 기억하면 됩니다. 첫째, 분류는 숫자가 아니라 라벨을 고르는 작업입니다. 둘째, 좋은 분류 자동화는 좋은 모델보다 먼저 좋은 라벨 기준과 검토 절차에서 시작됩니다. 다음에 함께 보면 좋은 용어는 회귀, 클러스터링, 구조화 출력, AI 평가입니다.
