OCR(광학 문자 인식)이란? 이미지 속 글자를 텍스트로 바꾸는 AI 기술
TL;DR
OCR은 Optical Character Recognition의 줄임말로, 사진이나 스캔 문서 안의 글자를 찾아 컴퓨터가 읽을 수 있는 텍스트로 바꾸는 기술입니다.
Google Cloud Vision 문서는 OCR을 이미지에서 텍스트를 감지하고 추출하는 기능으로 설명하고, Microsoft 문서는 인쇄 글자와 손글씨를 이미지와 문서에서 추출하는 머신러닝 기반 기술로 설명합니다.
초보자는 OCR을 "종이 문서와 이미지 속 글자를 검색, 복사, 자동화할 수 있게 바꾸는 첫 단계"로 이해하면 쉽습니다.
핵심 3줄 요약
- 핵심 1
OCR은 영수증, 계약서, 명함, 표지판, PDF 이미지처럼 눈으로 보이는 글자를 디지털 텍스트로 바꾸는 기술입니다. - 핵심 2
AI 문서 자동화에서는 OCR로 텍스트를 뽑은 뒤 요약, 분류, 번역, 검색, RAG, 데이터 추출을 이어 붙입니다. - 핵심 3
OCR 결과는 글꼴, 화질, 기울기, 손글씨, 표 구조에 따라 틀릴 수 있으므로 중요한 업무에서는 원본 대조와 사람 검수가 필요합니다.
이 글에서 다룰 내용
- OCR의 한 문장 정의
- AI 제품과 자동화에서 OCR이 중요한 이유
- 영수증, 계약서, 이미지 PDF로 보는 쉬운 예시
- 컴퓨터 비전, 문서 AI, STT, RAG와의 차이
- 실전 사용 맥락과 주의할 점
- 자주 묻는 질문과 공식 출처
한 문장 정의
OCR은 이미지나 스캔 문서에 보이는 인쇄 글자와 손글씨를 감지해 컴퓨터가 편집, 검색, 저장, 분석할 수 있는 텍스트로 변환하는 기술입니다.
쉽게 말하면 OCR은 카메라로 찍은 영수증을 "이미지"가 아니라 "상호명, 날짜, 금액이 들어 있는 텍스트"로 바꾸는 과정입니다. 사람이 눈으로 읽던 글자를 AI와 프로그램이 처리할 수 있는 데이터로 바꾸는 것입니다.
Google Cloud Vision 문서는 Cloud Vision API가 OCR 기능으로 이미지에서 텍스트를 감지하고 추출할 수 있으며, TEXT_DETECTION과 DOCUMENT_TEXT_DETECTION 같은 기능을 제공한다고 설명합니다. Microsoft 문서는 OCR을 text recognition 또는 text extraction이라고도 부르며, 인쇄 및 손글씨 텍스트를 이미지와 문서에서 추출한다고 안내합니다.
한 줄 정리
OCR은 "이미지 속 글자"를 "복사하고 검색하고 자동화할 수 있는 텍스트"로 바꾸는 AI 문서 처리의 출발점입니다.
왜 OCR이 중요한가?
AI를 업무에 붙일 때 가장 자주 만나는 장벽 중 하나는 자료가 텍스트가 아니라 이미지라는 점입니다. 스캔한 계약서, 캡처한 공지문, 사진으로 받은 영수증, 이미지 PDF, 손글씨 메모는 사람이 보기에는 문서지만 컴퓨터 입장에서는 픽셀 묶음에 가깝습니다.
OCR은 이 장벽을 낮춥니다. 먼저 이미지에서 글자를 찾아 텍스트로 바꾼 뒤, 그 텍스트를 요약하거나 표로 정리하거나 검색 색인에 넣거나 챗GPT 같은 AI에게 분석하게 만들 수 있습니다. Amazon Textract 문서도 문서에서 텍스트, 양식, 표를 추출하고 검색 색인이나 NLP 입력으로 활용할 수 있다고 설명합니다.
마케터와 기획자에게도 중요합니다. 광고 이미지에 적힌 문구를 수집하거나, 이벤트 신청서를 정리하거나, 오프라인 설문지를 디지털화하거나, 경쟁사 카탈로그 이미지를 분석할 때 OCR이 첫 단계가 될 수 있습니다.
핵심 인사이트
AI가 문서를 잘 요약하려면 먼저 문서의 글자를 읽어야 합니다. OCR은 이미지와 종이 문서를 AI가 다룰 수 있는 텍스트 데이터로 바꾸는 입구입니다.
쉬운 예시로 이해하기
첫째, 영수증 사진을 생각해 보겠습니다. 사람이 보면 식당 이름, 결제일, 금액을 바로 읽을 수 있습니다. 하지만 자동 정산 시스템은 사진 파일만으로는 금액을 알기 어렵습니다. OCR을 쓰면 이미지에서 글자를 읽어 "날짜: 2026-06-23", "금액: 18,000원"처럼 텍스트로 꺼낼 수 있습니다.
둘째, 스캔한 계약서 PDF가 있습니다. 겉보기에는 PDF지만 실제로는 페이지마다 이미지가 들어 있는 경우가 많습니다. 이때 검색창에 특정 조항을 입력해도 찾을 수 없습니다. OCR을 적용하면 페이지 속 글자를 텍스트로 바꿔 검색과 복사가 가능해집니다.
셋째, 매장 간판이나 제품 라벨 사진을 분석하는 상황입니다. OCR은 사진 속 문구를 뽑고, 다른 AI 모델은 그 문구를 번역하거나 카테고리로 분류하거나 주의 문구를 찾아낼 수 있습니다.
예시
OCR은 "사진에 글자가 있다"를 넘어 "이 사진에는 2026년 6월 23일, 총액 18,000원, 승인번호 1234가 적혀 있다"처럼 다음 자동화가 읽을 수 있는 텍스트로 바꿉니다.
헷갈리는 용어와 차이
컴퓨터 비전과 OCR은 다릅니다
컴퓨터 비전은 이미지와 영상을 이해하는 넓은 분야입니다. 사진 속 사물 분류, 객체 감지, 얼굴 분석, 이미지 검색, 품질 검사, OCR을 모두 포함할 수 있습니다.
OCR은 그중에서도 이미지 속 글자를 읽는 작업에 초점이 있습니다. 즉 OCR은 컴퓨터 비전의 대표적인 활용 중 하나이지만, 컴퓨터 비전 전체와 같은 말은 아닙니다.
문서 AI와 OCR은 다릅니다
OCR은 글자를 텍스트로 바꾸는 단계입니다. 문서 AI는 여기서 더 나아가 문서의 구조, 표, 양식, 키-값 쌍, 엔티티, 문서 유형까지 파악하는 흐름을 말할 때가 많습니다.
예를 들어 OCR은 "총액 18,000원"이라는 글자를 읽습니다. 문서 AI는 그것이 영수증의 결제 금액이라는 의미까지 구조화하려고 합니다. Microsoft 문서도 Intelligent Document Processing이 OCR을 기반 기술로 사용해 구조, 관계, 키-값, 엔티티 같은 문서 중심 정보를 추출한다고 설명합니다.
STT와 OCR은 다릅니다
STT는 Speech to Text, 즉 음성을 텍스트로 바꾸는 기술입니다. OCR은 이미지나 문서 속 글자를 텍스트로 바꿉니다.
회의 녹음 파일을 텍스트로 바꾸면 STT이고, 회의실 화이트보드 사진의 글자를 텍스트로 바꾸면 OCR입니다.
RAG와 OCR은 다릅니다
RAG는 검색한 근거를 AI 답변에 붙이는 구조입니다. OCR은 이미지 문서를 검색 가능한 텍스트로 만드는 전처리 단계가 될 수 있습니다.
예를 들어 회사의 스캔 계약서를 RAG에 넣으려면 먼저 OCR로 텍스트를 추출하고, 그 텍스트를 조각으로 나누고, 임베딩과 검색 색인에 넣는 흐름이 필요할 수 있습니다.
비교 정리
컴퓨터 비전은 시각 정보를 이해하는 넓은 분야, OCR은 이미지 속 글자 추출, 문서 AI는 문서 구조와 의미 추출, STT는 음성의 텍스트 변환, RAG는 검색 근거를 AI 답변에 연결하는 구조입니다.
실전에서 어디에 쓰이나?
첫째, 문서 디지털화에 씁니다. 종이 계약서, 신청서, 명함, 인보이스, 영수증을 스캔한 뒤 검색 가능한 텍스트로 바꿉니다.
둘째, 업무 자동화에 씁니다. 이메일로 들어온 이미지 PDF에서 주문번호, 사업자등록번호, 금액, 날짜를 뽑아 스프레드시트나 CRM에 넣을 수 있습니다.
셋째, 고객지원과 운영 업무에 씁니다. 고객이 보낸 캡처 이미지나 오류 화면에서 문구를 읽어 문제 유형을 분류하고 답변 초안을 만들 수 있습니다.
넷째, AI 검색과 RAG 준비에 씁니다. 이미지로만 존재하는 매뉴얼이나 스캔 문서를 OCR로 텍스트화해야 AI가 검색하고 인용할 수 있습니다.
다섯째, 접근성에도 도움이 됩니다. 이미지 안의 글자를 텍스트로 추출하면 스크린 리더, 번역, 요약, 검색 같은 기능과 연결하기 쉬워집니다.
실전 팁
OCR을 자동화에 붙일 때는 "텍스트 추출"과 "의미 추출"을 분리해서 보세요. 먼저 글자가 제대로 읽혔는지 확인하고, 그다음 날짜, 금액, 이름 같은 필드를 뽑는 구조가 안정적입니다.
주의할 점
첫째, OCR은 항상 정확하지 않습니다. 흐린 사진, 빛 반사, 작은 글씨, 기울어진 문서, 복잡한 표, 낯선 글꼴, 손글씨는 인식 오류를 만들 수 있습니다.
둘째, 글자를 읽었다고 의미까지 이해한 것은 아닙니다. OCR은 "18,000"이라는 텍스트를 뽑을 수 있지만, 그것이 총액인지 단가인지 수량인지는 별도 문서 분석이나 규칙이 필요할 수 있습니다.
셋째, 개인정보와 민감정보를 조심해야 합니다. 신분증, 계약서, 의료 기록, 급여 명세서, 고객 신청서에는 개인정보가 많습니다. OCR 서비스에 업로드하기 전 보관 정책, 접근 권한, 마스킹, 삭제 기준을 확인해야 합니다.
넷째, 표와 레이아웃은 별도 검증이 필요합니다. OCR 결과가 줄 단위로는 맞아도 표의 행과 열이 어긋나면 금액이나 항목이 잘못 연결될 수 있습니다.
다섯째, 중요한 법률, 회계, 의료, 계약 업무에서는 사람이 원본과 대조해야 합니다. OCR 오류 하나가 금액, 날짜, 이름, 조항 해석을 바꿀 수 있습니다.
주의
OCR 결과는 "원본을 읽은 초안 텍스트"로 봐야 합니다. 자동화에 바로 넣기 전에는 신뢰도, 누락, 숫자, 날짜, 개인정보를 반드시 확인해야 합니다.
초보자를 위한 OCR 체크리스트
- 원본 이미지가 충분히 선명한가?
- 글자가 너무 작거나 기울어져 있지 않은가?
- 인쇄 글자인지 손글씨인지 구분했는가?
- 표, 도장, 서명, 체크박스처럼 글자가 아닌 정보가 중요한가?
- OCR 결과에서 숫자, 날짜, 이름, 금액을 원본과 대조했는가?
- 개인정보가 포함된 문서를 외부 서비스에 올려도 되는지 확인했는가?
- OCR 뒤에 요약, 분류, RAG, 데이터 추출 중 어떤 작업을 붙일지 정했는가?
자주 묻는 질문
Q1. OCR은 AI인가요?
OCR은 오래전부터 있던 문자 인식 기술이지만, 오늘날의 OCR 서비스는 머신러닝과 컴퓨터 비전 모델을 활용하는 경우가 많습니다. 그래서 AI 문서 처리와 자동화의 핵심 구성 요소로 자주 쓰입니다.
Q2. OCR과 스캔은 같은 말인가요?
아닙니다. 스캔은 종이 문서를 이미지 파일로 만드는 과정이고, OCR은 그 이미지 안의 글자를 텍스트로 바꾸는 과정입니다. 스캔만 하면 보기에는 문서지만 검색과 복사가 안 될 수 있습니다.
Q3. OCR을 쓰면 PDF 내용을 바로 챗GPT에 넣을 수 있나요?
이미지 PDF라면 OCR로 텍스트를 추출한 뒤 챗GPT나 다른 AI 도구에 넣는 흐름이 필요할 수 있습니다. 다만 긴 문서, 표, 개인정보, 저작권 자료는 범위와 사용 권한을 함께 확인해야 합니다.
Q4. OCR은 손글씨도 읽을 수 있나요?
일부 서비스는 손글씨 인식을 지원합니다. 다만 손글씨는 사람마다 모양이 달라 인쇄 글자보다 오류가 늘 수 있습니다. 중요한 문서는 원본 대조가 필요합니다.
Q5. OCR 결과가 틀리면 어떻게 해야 하나요?
이미지 해상도와 밝기를 높이고, 기울기를 보정하고, 표나 문서를 가능한 깨끗하게 촬영하세요. 그래도 중요한 숫자와 이름은 사람이 검수해야 합니다. 반복 업무라면 신뢰도 점수나 샘플 검수 절차를 두는 것이 좋습니다.
Q6. OCR과 문서 AI 중 무엇을 써야 하나요?
단순히 글자를 텍스트로 바꾸면 OCR로 충분할 수 있습니다. 청구서에서 공급자명, 날짜, 합계, 세금, 표 항목처럼 구조화된 값을 뽑아야 한다면 문서 AI나 문서 분석 기능이 더 적합할 수 있습니다.
출처
마무리
OCR은 AI 문서 자동화에서 자주 만나는 가장 기본적인 입구입니다. 한 문장으로 다시 정리하면, OCR은 이미지나 스캔 문서 속 글자를 컴퓨터가 읽을 수 있는 텍스트로 바꾸는 기술입니다.
초보자는 오늘 두 가지만 기억하면 됩니다. 첫째, OCR은 스캔과 다릅니다. 스캔은 이미지를 만들고, OCR은 그 이미지 속 글자를 읽습니다. 둘째, OCR 결과는 완성된 정답이 아니라 검토가 필요한 텍스트 초안입니다.
AI 제품이 PDF, 영수증, 계약서, 캡처 이미지, 사진 속 문구까지 다루게 될수록 OCR은 더 자주 만나게 될 기본 용어입니다. OCR을 이해하면 문서 AI, RAG, 자동 데이터 추출, 멀티모달 AI의 흐름도 훨씬 쉽게 이해할 수 있습니다.
