Corepin / 한국형 OCR 모델

가장 정확하고 저렴한
한국어 OCR

한국 계약서·사업 문서·영수증 정확도에서 Claude Opus 4.7 · GPT-5.5 · Gemini 3.1 Pro · 국내 OCR 서비스를 모두 추월했습니다. 영문·중문 페이지까지 한 번의 호출로 자동 처리, 국내 시장 평균가 대비 약 50% 저렴, 100% 국내 처리로 규제 준수.

1
한국 문서·영수증 정확도
외산 LLM · 국내 OCR · 오픈소스 비교
−50%
국내 시장 평균가 대비
한국에서 처리하면서도 가장 저렴
100%
한국에서만 처리
본문 미저장 · 개인정보보호법 준수
기업 사용 사례

이런 업무에서 씁니다.

사내 문서 디지털화
계약서·결재 양식·보고서
스캔된 사내 문서를 검색 가능한 텍스트로. 보관·검색·자동 분류 파이프라인의 입력.
공공·금융 양식 처리
신청서·증명서·세금계산서
한국 공공기관·금융 양식의 텍스트·금액·번호 자동 추출. 입력·검증 파이프라인 연결.
영수증·전표 일괄 인식
매출 영수증·증빙
한국 영수증·전표의 텍스트·금액·번호를 일관된 정확도로 추출. 회계·정산 자동화.
벤치마크

한국어 OCR 세계 1위 평가.
거대 모델·국내 OCR, 모두 넘었어요.

외부 공개 데이터셋으로 같은 페이지를 다른 OCR 서비스와 똑같이 넣고, 한 글자씩 비교해 정답과 얼마나 일치하는지 측정했어요. 거대 모델(Claude · GPT · Gemini), 국내 OCR(Naver Clova · Upstage), 오픈소스(Tesseract)까지 — 한국 업무 문서·영수증 2개 부문 1위, 한국어 종합 OCR도 거대 모델과 동급.

한국어 부문 — 한국어 전용 학습으로 가장 정확
7개 모델 × 3개 벤치 · 글자 단위 정확도(높을수록 좋음) · n=100 · 2026-05-15
벤치마크 Corepin Claude Opus 4.7 GPT-5.5 Gemini 3.1 Pro Naver Clova Upstage Tesseract
① 한국 사업 문서 (NVIDIA OCR-Synthetic 한국어) 74.0% 65.9% 36.7% 37.5% 67.0% 52.0% 28.3%
② 한국 영수증 (CORD v2) 58.8% 37.8% 26.3% 32.1% 28.6% 33.7% 15.9%
③ 한국어 종합 OCR (CC-OCR, ICCV 2025) 61.1% 65.6% 53.8% 54.6% 56.9% 46.8% 10.8%

★ = 같은 데이터·같은 방법으로 측정했을 때 가장 높은 정확도. 학습에 쓰지 않은 외부 공개 벤치마크(NVIDIA OCR-Synthetic · CORD v2 · CC-OCR) 평가셋으로, 7개 모델을 동일 조건에서 측정했어요.

다국어 자동 분기

한국어 너머, 영어·중국어도 자동으로 최적 엔진 호출.

한 번의 API 호출이 언어를 자동으로 인식해, 그 언어에 가장 강한 인식 엔진으로 알아서 분기합니다. 한 문서 안에 한국어·영어·중국어가 섞여 있어도 코드 한 줄이면 끝 — 언어를 지정하거나 미리 나눠둘 필요가 없어요.

KO · 한국어
한국 전용 학습
한국 사업 문서·계약서·영수증을 위해 새로 학습
한국 업무 문서 74.0% · 영수증 58.8% — 거대 모델·국내 OCR 모두 추월
EN · 영어
글로벌 최상위
영문 문서 인식 세계 최상위 수준
영어 OCR 세계 최상위 — 외산 클라우드 OCR 압도 (Clova / Upstage / Mistral)
ZH · 중국어
간체·번체 모두
간체·번체 페이지를 한 호출에서
중문 OCR 세계 최상위 — 외부 클라우드를 거치지 않고 100% 국내 처리
왜 언어마다 다른 엔진을 쓸까요? 한국어 문서는 한국 전용 학습 엔진이 가장 정확합니다 — 한자·영문 혼용 패턴, 한국 영수증의 특이 표기, 계약서 표 구조까지 학습돼 있어요. 영어·중국어 문서는 글로벌 최상위 엔진이 가장 강하고요. 언어마다 가장 잘하는 엔진으로 자동 분기하니, 호출하는 쪽은 분기를 신경 쓸 필요가 전혀 없습니다 — 결과만 받으면 됩니다.
벤치마크 · 글로벌

영문·중문도 세계 최상위.

한국어만 잘하는 게 아니에요. 영문·중문 페이지 인식 정확도에서도 국내 OCR 서비스를 크게 앞서고, 글로벌 공개 leaderboard 종합 점수에서는 초거대 플래그십 LLM까지 추월했습니다.

글로벌 부문 — 영문·중문 페이지도 한 호출에서 처리
샘플 50·50·100건 · 글자 단위 정확도(높을수록 좋음) · OCRBench v2 만 답 포함률
벤치마크 Corepin Naver Clova Upstage
④ 영문 페이지 (OmniDocBench EN) 71.5% 52.4% 42.4%
⑤ 중문 페이지 (OmniDocBench ZH) 64.0% 3.1% 33.2%
⑥ 중문 OCR-VQA (OCRBench v2, 답 포함률) 12.0% 3.0% 4.0%
글로벌 공개 leaderboard — 초거대 플래그십 추월
OmniDocBench v1.5 공개 leaderboard 종합 점수 (높을수록 좋음)
모델 OmniDocBench v1.5 종합
Corepin OCR 94.62
PaddleOCR-VL 1.5 (Baidu) 94.50
MinerU 2.5 (전용 OCR) 90.67
Gemini 3 Pro (Google 초거대 플래그십) 90.33
Qwen3-VL (Alibaba 초거대 플래그십) 89.15
GPT-5.2 (OpenAI 초거대 플래그십) 85.4

OmniDocBench v1.5 공개 leaderboard 종합 점수. Claude Opus / GPT-5.5 / Gemini 3.1 Pro 는 leaderboard 미등재 (Claude 는 점수 자체 비공개).

★ = 같은 데이터·같은 방법으로 측정했을 때 가장 높은 정확도. 학습에 쓰지 않은 외부 공개 벤치마크(OmniDocBench · OCRBench v2) 평가셋으로 동일 조건에서 측정했어요. sampling seed·측정 코드·raw 데이터는 NDA 후 공유 가능합니다.

전통 OCR vs LLM 기반 OCR

한 글자씩이 아니라, 한 문서씩 읽습니다.

Tesseract·기존 한국 OCR 서비스는 글자 영역을 먼저 찾고 한 글자씩 인식하는 두 단계 방식입니다. Corepin은 이미지를 통째로 이해하는 LLM 기반 OCR이라 문맥·표·서식을 함께 읽어냅니다.

관점 전통 OCR (Tesseract / 기존 한국 OCR) Corepin(LLM 기반)
인식 단위 글자 단위(detection → recognition 2단계) 이미지 전체(문맥 동시 이해)
표·서식·결재 라인 구조 깨짐, 순서 뒤섞임 레이아웃 보존
한자 혼용·약자·도장 오인식 빈번 문맥으로 보정
출력 포맷 raw text 만 text / markdown / JSON(구조화)
한국 영수증(CORD) Tesseract 15.9% / Clova 28.6% / Upstage 33.7% Corepin 58.8%

초거대 플래그십 LLM(Claude · Gemini · GPT)도 같은 방식을 써요. 다만 Corepin은 한국 문서·계약서·영수증을 한국어 전용으로 새로 학습한 모델이라, 같은 방식 안에서도 한국어 정확도가 가장 높습니다.

가격

한국에서 처리하는데도
시장에서 가장 저렴.

국내 개인정보보호법을 지키면서도 국내 시장 평균가 대비 약 50% 저렴. 급한 정도에 따라 골라 쓰면, 같은 코드로 최대 75% 더 아낄 수 있어요.

바로 받기
POST /v1/ocr
2원/ 페이지
평균 1–3 초
화면에서 사용자가 기다리는 경우:
영수증 업로드 → 즉시 확인, 챗봇 첨부파일 분석, 본인인증 신분증 등.
모아서 처리
POST /v1/ocr/batch
1원/ 페이지 −50%
평균 1–10 분
몇 분 안에 한꺼번에 받아도 되는 작업:
백오피스 일일 정산, 신청서 묶음 등록, 회계 영수증 일괄 처리.
대량 비동기
POST /v1/ocr/bulk
0.5원/ 페이지 −75%
최대 24 시간 · 폴링 / 취소 가능
오늘 밤에 받으면 되는 대규모 작업:
과거 문서 디지털화, 보관 문서 마이그레이션, 분기별 보고서 백로그. 즉시 job_id 받고 폴링으로 결과 회수, 대기 중인 잡은 DELETE 로 취소.

코드 한 줄이면 단가가 절반. POST /v1/ocr 를 그대로 /v1/ocr/batch 로 바꾸기만 하면 2원 → 1원. 화면에 즉시 띄울 필요 없는 작업은 거의 다 여기 해당돼요.
매일 밤 자동 실행되는 백오피스 작업이라면 /v1/ocr/bulk0.5원까지. 개발자 문서 · 요금 페이지

LLM Ready

OCR 결과를,
LLM이 바로 읽을 수 있는 형태로.

평문 OCR 결과를 LLM에 그대로 입력하면 문서의 구조가 사라져 검색·요약 정확도가 떨어집니다. Corepin OCR은 한국 문서의 의미를 인식해 마크다운으로 정리해서 내보냅니다 — 별도 후처리 없이 그대로 인덱싱하거나 프롬프트에 넣으면 됩니다.

그냥 OCR format=text
용역 계약서 제1조 (계약의 목적) 본 계약은 코어핀 주식회사(이하 '갑')와 (주)나티브미디어(이하 '을') 간의 OCR API 도입에 관한 권리·의무를 정함을 목적으로 한다. 제2조 (용역 범위) 을은 갑에게 한국어 OCR API 서비스를 제공한다. 월간 호출 한도: 100,000건 / 응답 시간: 평균 2초 이내. 제3조 (계약 금액) 월 정액 금 일백오십만원정 ($1,500,000), 부가세 별도. 결제 방법: 매월 말일 세금계산서 발행 후 익월 10일 이내 송금. 사업자등록번호 220-81-23456 승인번호 30012726
Corepin OCR format=markdown
# 용역 계약서
## 제1조 (계약의 목적)
본 계약은 코어핀 주식회사(이하 '갑')와 (주)나티브미디어(이하 '을') 간의 OCR API 도입에 관한 권리·의무를 정함을 목적으로 한다.

## 제2조 (용역 범위)
을은 갑에게 한국어 OCR API 서비스를 제공한다.
**월간 호출 한도**: 100,000건
**응답 시간**: 평균 2초 이내.

## 제3조 (계약 금액)
월 정액 금 일백오십만원정 ($1,500,000), 부가세 별도.
**결제 방법**: 매월 말일 세금계산서 발행 후 익월 10일 이내 송금.

사업자등록번호 `220-81-23456`
승인번호 `30012726`
##
계약서 조항 헤딩
제N조(제목) 패턴을 자동 인식해 ## 헤딩으로. 조문 단위 분할이 그대로 됩니다.
|
영수증 품목 표
상품·수량·금액 컬럼을 인식해 마크다운 표로 정리. LLM이 행 단위로 정확히 읽습니다.
**
한글 라벨 강조
라벨: 값 형태를 **라벨**: 값 으로 강조. 키-값 추출 프롬프트를 짧게 쓸 수 있습니다.
`
식별번호 코드
사업자번호·승인번호·카드번호를 코드 표기로 분리. 정규식 추출이 안정적입니다.

평문이 필요하면 format=text, JSON 이 필요하면 format=json. 같은 호출에서 형식만 바꾸면 됩니다. 복잡한 표(임의 셀·다중 헤더)는 평문으로 보존됩니다 — /docs/ocr 참고.

라이브 데모

샘플을 골라보세요. 바로 추출됩니다.

아래 샘플 중 하나를 고르거나 직접 이미지를 올려보세요. 실제 운영 모델이 그 자리에서 텍스트를 뽑아냅니다. 출력 형식은 텍스트·마크다운·JSON 중 선택.

이미지
한국어 계약서 샘플
한국 계약서
한국어 사업 문서 샘플
사업 문서
한국어 영수증 샘플
영수증
선택된 이미지 미리보기
출력 형식
추출 결과
지금 바로 시작

한국 문서 OCR,
코드 한 줄로 시작합니다.

회원가입 즉시 무료 키가 발급됩니다. 카드 등록 없이, 무료 한도 안에서 바로 써볼 수 있습니다.