가장 정확하고 저렴한
한국어 OCR
한국 계약서·사업 문서·영수증 정확도에서 Claude Opus 4.7 · GPT-5.5 · Gemini 3.1 Pro · 국내 OCR 서비스를 모두 추월했습니다. 영문·중문 페이지까지 한 번의 호출로 자동 처리, 국내 시장 평균가 대비 약 50% 저렴, 100% 국내 처리로 규제 준수.
외산 LLM · 국내 OCR · 오픈소스 비교
한국에서 처리하면서도 가장 저렴
본문 미저장 · 개인정보보호법 준수
이런 업무에서 씁니다.
한국어 OCR 세계 1위 평가.
거대 모델·국내 OCR, 모두 넘었어요.
외부 공개 데이터셋으로 같은 페이지를 다른 OCR 서비스와 똑같이 넣고, 한 글자씩 비교해 정답과 얼마나 일치하는지 측정했어요. 거대 모델(Claude · GPT · Gemini), 국내 OCR(Naver Clova · Upstage), 오픈소스(Tesseract)까지 — 한국 업무 문서·영수증 2개 부문 1위, 한국어 종합 OCR도 거대 모델과 동급.
| 벤치마크 | Corepin | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro | Naver Clova | Upstage | Tesseract |
|---|---|---|---|---|---|---|---|
| ① 한국 사업 문서 (NVIDIA OCR-Synthetic 한국어) | 74.0% ★ | 65.9% | 36.7% | 37.5% | 67.0% | 52.0% | 28.3% |
| ② 한국 영수증 (CORD v2) | 58.8% ★ | 37.8% | 26.3% | 32.1% | 28.6% | 33.7% | 15.9% |
| ③ 한국어 종합 OCR (CC-OCR, ICCV 2025) | 61.1% | 65.6% ★ | 53.8% | 54.6% | 56.9% | 46.8% | 10.8% |
★ = 같은 데이터·같은 방법으로 측정했을 때 가장 높은 정확도. 학습에 쓰지 않은 외부 공개 벤치마크(NVIDIA OCR-Synthetic · CORD v2 · CC-OCR) 평가셋으로, 7개 모델을 동일 조건에서 측정했어요.
한국어 너머, 영어·중국어도 자동으로 최적 엔진 호출.
한 번의 API 호출이 언어를 자동으로 인식해, 그 언어에 가장 강한 인식 엔진으로 알아서 분기합니다. 한 문서 안에 한국어·영어·중국어가 섞여 있어도 코드 한 줄이면 끝 — 언어를 지정하거나 미리 나눠둘 필요가 없어요.
영문·중문도 세계 최상위.
한국어만 잘하는 게 아니에요. 영문·중문 페이지 인식 정확도에서도 국내 OCR 서비스를 크게 앞서고, 글로벌 공개 leaderboard 종합 점수에서는 초거대 플래그십 LLM까지 추월했습니다.
| 벤치마크 | Corepin | Naver Clova | Upstage |
|---|---|---|---|
| ④ 영문 페이지 (OmniDocBench EN) | 71.5% ★ | 52.4% | 42.4% |
| ⑤ 중문 페이지 (OmniDocBench ZH) | 64.0% ★ | 3.1% | 33.2% |
| ⑥ 중문 OCR-VQA (OCRBench v2, 답 포함률) | 12.0% ★ | 3.0% | 4.0% |
| 모델 | OmniDocBench v1.5 종합 |
|---|---|
| Corepin OCR | 94.62 ★ |
| PaddleOCR-VL 1.5 (Baidu) | 94.50 |
| MinerU 2.5 (전용 OCR) | 90.67 |
| Gemini 3 Pro (Google 초거대 플래그십) | 90.33 |
| Qwen3-VL (Alibaba 초거대 플래그십) | 89.15 |
| GPT-5.2 (OpenAI 초거대 플래그십) | 85.4 |
OmniDocBench v1.5 공개 leaderboard 종합 점수. Claude Opus / GPT-5.5 / Gemini 3.1 Pro 는 leaderboard 미등재 (Claude 는 점수 자체 비공개).
★ = 같은 데이터·같은 방법으로 측정했을 때 가장 높은 정확도. 학습에 쓰지 않은 외부 공개 벤치마크(OmniDocBench · OCRBench v2) 평가셋으로 동일 조건에서 측정했어요. sampling seed·측정 코드·raw 데이터는 NDA 후 공유 가능합니다.
한 글자씩이 아니라, 한 문서씩 읽습니다.
Tesseract·기존 한국 OCR 서비스는 글자 영역을 먼저 찾고 한 글자씩 인식하는 두 단계 방식입니다. Corepin은 이미지를 통째로 이해하는 LLM 기반 OCR이라 문맥·표·서식을 함께 읽어냅니다.
| 관점 | 전통 OCR (Tesseract / 기존 한국 OCR) | Corepin(LLM 기반) |
|---|---|---|
| 인식 단위 | 글자 단위(detection → recognition 2단계) | 이미지 전체(문맥 동시 이해) |
| 표·서식·결재 라인 | 구조 깨짐, 순서 뒤섞임 | 레이아웃 보존 |
| 한자 혼용·약자·도장 | 오인식 빈번 | 문맥으로 보정 |
| 출력 포맷 | raw text 만 | text / markdown / JSON(구조화) |
| 한국 영수증(CORD) | Tesseract 15.9% / Clova 28.6% / Upstage 33.7% | Corepin 58.8% |
초거대 플래그십 LLM(Claude · Gemini · GPT)도 같은 방식을 써요. 다만 Corepin은 한국 문서·계약서·영수증을 한국어 전용으로 새로 학습한 모델이라, 같은 방식 안에서도 한국어 정확도가 가장 높습니다.
한국에서 처리하는데도
시장에서 가장 저렴.
국내 개인정보보호법을 지키면서도 국내 시장 평균가 대비 약 50% 저렴. 급한 정도에 따라 골라 쓰면, 같은 코드로 최대 75% 더 아낄 수 있어요.
POST /v1/ocr영수증 업로드 → 즉시 확인, 챗봇 첨부파일 분석, 본인인증 신분증 등.
POST /v1/ocr/batch백오피스 일일 정산, 신청서 묶음 등록, 회계 영수증 일괄 처리.
POST /v1/ocr/bulk과거 문서 디지털화, 보관 문서 마이그레이션, 분기별 보고서 백로그. 즉시
job_id 받고 폴링으로 결과 회수, 대기 중인 잡은 DELETE 로 취소.
OCR 결과를,
LLM이 바로 읽을 수 있는 형태로.
평문 OCR 결과를 LLM에 그대로 입력하면 문서의 구조가 사라져 검색·요약 정확도가 떨어집니다. Corepin OCR은 한국 문서의 의미를 인식해 마크다운으로 정리해서 내보냅니다 — 별도 후처리 없이 그대로 인덱싱하거나 프롬프트에 넣으면 됩니다.
용역 계약서 제1조 (계약의 목적) 본 계약은 코어핀 주식회사(이하 '갑')와 (주)나티브미디어(이하 '을') 간의 OCR API 도입에 관한 권리·의무를 정함을 목적으로 한다. 제2조 (용역 범위) 을은 갑에게 한국어 OCR API 서비스를 제공한다. 월간 호출 한도: 100,000건 / 응답 시간: 평균 2초 이내. 제3조 (계약 금액) 월 정액 금 일백오십만원정 ($1,500,000), 부가세 별도. 결제 방법: 매월 말일 세금계산서 발행 후 익월 10일 이내 송금. 사업자등록번호 220-81-23456 승인번호 30012726
# 용역 계약서 ## 제1조 (계약의 목적) 본 계약은 코어핀 주식회사(이하 '갑')와 (주)나티브미디어(이하 '을') 간의 OCR API 도입에 관한 권리·의무를 정함을 목적으로 한다. ## 제2조 (용역 범위) 을은 갑에게 한국어 OCR API 서비스를 제공한다. **월간 호출 한도**: 100,000건 **응답 시간**: 평균 2초 이내. ## 제3조 (계약 금액) 월 정액 금 일백오십만원정 ($1,500,000), 부가세 별도. **결제 방법**: 매월 말일 세금계산서 발행 후 익월 10일 이내 송금. 사업자등록번호 `220-81-23456` 승인번호 `30012726`
제N조(제목) 패턴을 자동 인식해 ## 헤딩으로. 조문 단위 분할이 그대로 됩니다.라벨: 값 형태를 **라벨**: 값 으로 강조. 키-값 추출 프롬프트를 짧게 쓸 수 있습니다.
평문이 필요하면 format=text, JSON 이 필요하면 format=json. 같은 호출에서 형식만 바꾸면 됩니다.
복잡한 표(임의 셀·다중 헤더)는 평문으로 보존됩니다 —
/docs/ocr 참고.
샘플을 골라보세요. 바로 추출됩니다.
아래 샘플 중 하나를 고르거나 직접 이미지를 올려보세요. 실제 운영 모델이 그 자리에서 텍스트를 뽑아냅니다. 출력 형식은 텍스트·마크다운·JSON 중 선택.
한국 문서 OCR,
코드 한 줄로 시작합니다.
회원가입 즉시 무료 키가 발급됩니다. 카드 등록 없이, 무료 한도 안에서 바로 써볼 수 있습니다.