어떤 문서든 한 호출에
AI 대응 준비 끝
HWP부터 PDF·DOCX·PPTX·XLSX·이미지까지 19종 문서를 한 API로 받습니다. 라우터가 자동으로 최적 파서에 분기하고, 한국어 OCR · 개인정보 마스킹 · 기밀 등급 까지 한 호출에 묶어 처리해요. 100% 국내 처리로 규제 준수, LLM-ready 구조화 출력, 페이지당 2원 — 시장 평균가의 1/10 내외.
HWP · 워드 · 파워포인트 · 엑셀 · PDF · 이미지 · HTML · EPUB
문서 파싱 · 개인정보 마스킹 · 보안 등급 분류 · 한국어 OCR · 자동 라우팅
100% 국내 처리 · 무료 100페이지/월 (배치는 1원)
이 정도 묶음을 한 호출로 주는 곳,
전 세계 어디에도 없어요.
기존 외산 파서는 아래한글을 모르고, 한국 파서는 아래한글만 알아요. 우리는 한국 표준 + 외산 표준 + 한국어 OCR + 한국어 보안 SLM 을 한 API 안에 통합했어요.
한국 공무 표준을 진짜로 읽어요
최신 HWP·HWPX 는 물론, 외산이 절대 못 읽는 구버전 HWP(1996~2002) 까지. 90년대 판결문·고시·공문도 한 호출에 마크다운으로 풀려요.
외산 문서도 LLM-ready 마크다운으로
DOCX·PPTX·XLSX·HTML·EPUB은 물론, 외산도 잘 못 받는 구버전 워드 .doc·엑셀 .xls(97-2003) 까지 — 형식별로 최적 처리 해서 결과를 모아드려요. 그대로 GPT·Claude·Gemini에 넣을 수 있어요.
스캔본도 자동으로 OCR
PDF 안에 텍스트가 없으면 같은 호출 안에서 자동으로 한국어 OCR 1위 모델로 넘겨요. 두 번 호출할 필요 없이 한 번에 (OCR한 페이지만 +2원/페이지 — 그 페이지는 4원, 글자 페이지는 2원 그대로). 스캔된 옛 판결문·영수증·내부 보고서를 그대로 마크다운으로.
한국어 단어가 안 깨져요
영문 학습 외산 파서는 한국 공무 문서에서 "2026 년도" 식으로 공백을 끼워 넣거나 "신청·접수시기가아래와같이" 식으로 공백을 잃어요. 우리는 원본 띄어쓰기 그대로 살려서 RAG·LLM 어디에 넣어도 단어가 안 깨져요.
어떤 문서가 와도 완벽히 처리해요.
사내 폴더에 섞여 있는 한국 표준 · 외산 표준 · 스캔본 · 이미지까지, 형식 가리지 않고 같은 호출 한 번에. 아래 자리 어디든 그대로 들어가요.
업로드만 하세요.
최적 파서는 우리가 고릅니다.
사용자는 POST /v1/doc/parse 한 곳에 업로드만 하면 돼요. 내부적으로 형식을 자동 인식해서, 한국 표준에는 한국형 파서·외산 표준에는 글로벌 1티어 파서·스캔본에는 한국어 OCR 1위 모델 — 형식마다 가장 잘하는 엔진으로 자동 분기해요.
한국 표준·외산 표준·이미지·웹 텍스트까지
단 한 번의 API 호출로 AI 인식 준비 끝.
Microsoft
웹·텍스트
이미지
한국 표준 한국 unique
표를 글자가 아니라 그림처럼 봐요.
시장 PDF 파서들은 글자만 흘려보내서 병합 셀이 펼쳐지고 다단 머리글이 사라져요. 우리는 페이지를 시각적으로 읽어요 — 레이아웃·읽기 순서·표 구조까지 한 모델이 동시에 봐서 셀 좌표 그대로 마크다운으로 떨어져요.
페이지 레이아웃을 통째로 봐요
본문·표·머리글·각주·차트·수식 위치를 한 번에 인식해요. 다단 박스를 표로 오인하거나 각주가 본문에 섞이는 사고가 없어요.
복잡한 표 구조를 풀어요
병합 셀·다단 머리글·표 안의 표 — 한국 공무 양식·견적서의 까다로운 표를 셀 단위로 복원해 마크다운 표로 옮겨요.
읽기 순서가 안 흔들려요
2단·3단 본문·사이드바·박스를 사람이 읽는 순서 그대로 배열해요. RAG·요약에 적재해도 문맥이 안 뒤섞여요.
큰 PDF도 일관된 품질로
표 1쪽이든 49쪽 다단 양식이든 같은 엔진이 동일하게 처리해요. 49쪽 한국 공무 PDF 실측 — 6초·표 574행.
한국 공무 문서에 특화
중기부 공고문·시방서·사업계획서·견적서 — 한국 공무·기업 문서로 실측 튜닝. HWP 출력이든 워드 변환본이든 같은 결과.
| 실측: 49쪽 한국 공무 PDF (표 다수) | 우리 파서 | 시장의 기본 PDF 파서 |
|---|---|---|
| 처리 시간 | 6.1초 | 24.3초 (4배 느림) |
| 표 행 인식 (실측 합계) | 574 행 | 0 행 (표 자체를 못 잡음) |
| 본문 양 | 195 KB · 구조화 마크다운 | 222 KB · 단어 늘어놓기 |
| 실측: 22쪽 금융결제원 CMS 계좌 체계 PDF (표 다수) | 우리 파서 | 시장의 기본 PDF 파서 |
|---|---|---|
| 처리 시간 | 1.3초 | 표 인식 자체 실패 |
| 마크다운 표 행 | 292 행 · 셀 병합 보존 | 평문 단어 묶음 |
| 한국어 단어 띄어쓰기 | ✓ 원본 그대로 | "신청·접수시기가아래와같이" 식 공백 손실 사례 |
쓰는 곳마다 형식이 딱 맞아요.
출력 형식 4가지.
AI 프롬프트엔 text, RAG·문서 미리보기엔 markdown, 자동화 파이프라인엔 JSON, 웹·메일 임베드엔 HTML. output_format 한 줄로 골라요. 어느 형식이든 한 번의 호출, 같은 단가.
LLM 프롬프트에 그대로
마크다운 마커가 제거된 순수 본문이에요. 토큰을 가장 적게 먹어서 검색 색인이나 요약·벡터화 입력에 잘 맞아요.
GPT·Gemini·Claude 입력 표준
제목·표·리스트·코드 블록까지 구조 그대로. RAG 검색 결과나 챗봇 입력, 문서 미리보기까지 한 응답으로 흘려보내는 기본 출력이에요.
구조 그대로 파이프라인에
제목·문단·리스트·표 행·코드(언어 포함)가 구조화된 블록 배열로 떨어져요. 표만 뽑거나 제목 단위로 잘라 적재하는 자동화 파이프라인에 잘 맞아요.
웹·메일에 그대로 임베드
본문 안에 <script> 같은 위험 태그가 박혀 있어도 자동으로 안전 처리해서 바로 띄울 수 있어요. 대시보드·내부 위키·메일 미리보기에 그대로 붙여요.
문서 → 마크다운, 마크다운 → 문서.
두 방향 모두 한 호출에 끝나요.
시장의 파서는 한쪽만 봐요. 우리는 들어오는 길과 나가는 길을 한 API로 묶었어요 — 어떤 한국·외산 문서든 마크다운으로 받고, 다시 마크다운을 한컴 HWPX · 워드 DOCX · A4 PDF로 미려하게 만들어요. 문서·AI 인텔리전스, 코어핀 하나로 끝내요.
어떤 문서든 들어오면, 마크다운으로 떨어져요.
LLM이 쓴 마크다운, 정식 사무 문서로 미려하게.
"대화는 차단해도, 파일은 그대로 나가요."
그 구멍, 통합 문서 파서가 막아요.
한국 기업·공공이 AI 도입 직전에 멈춰 서는 이유 — 거의 다 첨부파일이에요. 업무 문서 하나 올리는 순간 주민번호·계좌·연락처·계약 정보가 그대로 해외 LLM으로 흘러나가니까요. 코어핀 통합 문서 파서는 업로드되는 순간 국내 데이터센터에서 먼저 받아 가려내고, 안전한 텍스트만 해외 LLM으로 보내요.
개인정보 필터링
개인 대화창에 개인정보를 넣었을 때는 개인정보로 추정되는 정보가 있어 입력이 불가합니다. 이렇게 떠서 막혀져 있는데,
첨부파일의 개인정보를 넣어서 표로 만들어 달라고 했더니, 대화창에서 표로 만들어서 올려 주네요.
첨부파일에 있는 개인정보는 필터링이 안 되나요?
사용자가 첨부파일 업로드
HWP·HWPX·DOCX·PDF·이미지 등 19종 어떤 포맷이든 그대로 보내세요. 변환·전처리 코드는 필요 없어요.
국내 데이터센터에서 먼저 가려내요
파일이 해외 LLM으로 나가기 전에, 코어핀이 국내에서 받아 마크다운으로 정리하면서 동시에 주민번호·계좌·연락처·이름 같은 개인정보를 자동 마스킹해요. 옵션 한 줄 (redact_pii: true), 평균 1.4초.
안전한 텍스트만 LLM으로
GPT·Gemini·Claude 어디로 보내든, 도착하는 건 마스킹 완료된 마크다운뿐. 첨부파일 속 개인정보는 한 글자도 안 새요.
코어핀 통합 문서 파서 한 줄이면,
PII 필터·DLP 따로 살 필요가 없어요.
지금까지는 AI 서비스 하나 만들려면 — 문서 파서 + 개인정보 필터 + DLP 제품 + OCR을 각각 사서 2중·3중으로 연동해야 했어요. 코어핀은 옵션 한 줄로 전부 묶었어요. 한 호출, 한 단가, 한국 데이터센터, 가장 빠르게, 가장 정확하게. 첨부파일 보안 때문에 AI 도입을 미루던 고객도 한 호흡에 통과해요.
문서에서 글자만 추출하지 않아요.
개인정보·보안 필터링·OCR까지 한 방에.
사내 문서를 RAG·검색·요약에 적재하기 전 안전망 — 개인정보 자동 마스킹·기밀 등급 자동 분류·스캔본 자동 OCR을 옵션 한 줄로 더해요. 추가 API 호출 없이.
개인정보 자동 마스킹
추출된 본문에서 주민등록번호·이름·계좌번호 등 19 종 개인정보를 자동으로 ●●● 처리. 기본가에 +5원/호출.
기밀 등급 자동 분류
본문을 읽어 공개·내부·기밀·특급 6 단계 + 11 유형으로 자동 분류. 사내 RAG 적재 전 안전망. 기본가에 +20원/호출.
스캔본 자동 OCR
이미지 PDF·스캔본 자동 감지 후 한국어 OCR 1위 모델로 텍스트 복원. 같은 호출에서 자동 처리. OCR한 페이지만 +2원/페이지 (그 페이지는 4원, 글자 페이지는 2원 그대로).
유해발화 자동 감지
본문에 욕설·차별·인젝션 패턴이 있는지 자동 검사. RAG 적재 전 안전망. 기본가에 +5원/호출.
정신건강 위험 신호 감지
본문에 자살·자해·중독 등 위기 신호가 있는지 10축 5단계로 자동 검사. 콘텐츠 모더레이션. 기본가에 +10원/호출.
PPTX 슬라이드 이미지 OCR
PPTX 슬라이드 안에 박힌 이미지(다이어그램·스크린샷·캡처)에서 텍스트 자동 추출. 한국어 OCR 1위 모델 호출. OCR한 이미지만 +2원/이미지.
AI 시대 문서 파서,
다음 세대로 넘어왔어요.
국내·외산을 대표하는 4사와 같은 표 위에 올려봤어요. 같은 API 한 호출에 파싱+마스킹+등급+OCR 통합 · 가입 즉시 시작 · 페이지당 2원 — 시장 최저 단가에 가장 넓은 묶음입니다.
| 항목 | Corepin Doc | 사이냅 도큐애널라이저 | Upstage Document Parse | LlamaParse |
|---|---|---|---|---|
| 배포 형태 | API SaaS · 가입 즉시 | 온프레미스(도커) | API SaaS | API SaaS |
| HWP / HWPX | ✓ HWP 3.0 구버전 포함 | ✓ 지원 | ✓ 지원 | 미지원 |
| 지원 포맷 수 | 19종 | 한글·MS·PDF·이미지 | HWP·HWPX·워드·PPT·엑셀·PDF·이미지 | PDF · DOCX 위주 |
| 출력(LLM-ready) | Markdown · JSON · HTML · Text | Markdown · JSON · XML | HTML · Markdown | Markdown |
| 한국어 OCR(스캔 PDF·이미지) | ✓ 같은 호출에 자동 인식(한국어 1위 모델) | 별도 제품 | Enhanced 모드(~₩42/p) 또는 Document OCR 별도(~₩2.1/p) | VLM(영문 중심) |
| 1 호출 최대 파일/페이지 | 단건 50MB · batch 100 파일 · async ≤2,000p | - | sync 100p · async 1,000p | 호출당 1 파일 |
| 개인정보 자동 마스킹 | ✓ 옵션 한 줄 | 별도 시스템 | 별도 호출 | 별도 호출 |
| 기밀 등급 자동 분류 | ✓ 옵션 한 줄 | 없음 | 없음 | 없음 |
| 국내 처리(규제 준수) | ✓ 100% 국내 처리 | ✓ 자사 인프라(온프레미스) | 처리 위치 공식 미명시 | ⚠ 미국(국외 이전) |
| 가격 공개(페이지당) | 2원(배치 1원) | B2B 견적 | Standard ~₩14 / Enhanced ~₩42 / Document OCR 별도 ~₩2.1 | 권장 ~₩19 · Premium ~₩113 |
| 도입 절차 | 가입 즉시 · 무료 100페이지/월 | 영업 → 계약 → 설치 | 가입 즉시 | 가입 즉시 |
| LLM RAG 통합 | 파싱 + 마스킹 + 등급 + OCR 한 호출 | RAG 적재 출력 | RAG 적재 출력 | LlamaIndex 네이티브 |
- 파싱 + 개인정보 마스킹 + 기밀 등급 + 한국어 OCR — 같은 호출 한 번에. 다른 곳은 모두 별도 API 호출. 우리는 옵션 한 줄.
- HWP·PDF·DOCX·PPTX·XLSX·이미지 19종 단일 API — 한국 공무 표준부터 외산 오피스, 스캔본, 사진까지. 형식 가리지 않고 한 호출에 마크다운으로.
- 페이지당 2원 — Upstage Enhanced(~₩42)의 1/21, LlamaParse Premium(~₩113)의 1/57, Upstage Standard(~₩14)의 1/7. 배치는 1원.
- 가입 즉시 시작 · 무료 100페이지/월 — 영업·견적·계약 없이 1분 안에 첫 호출.
- 100% 국내 처리 — 데이터 국외 이전 동의 불필요. 개인정보보호법·금융 컴플라이언스 그대로 통과.
출처 (2026-05-17 기준) — 사이냅 도큐애널라이저 · Upstage Document Parse · LlamaParse Pricing. Upstage = Standard $0.01/p (~₩14) · Enhanced $0.03/p (~₩42) · Document OCR $0.0015/p (~₩2.1, 별도) · Auto mode. Sync 100p/호출 · Async 1,000p/호출. LlamaParse = Agentic 권장 $0.013/p (~₩19) · Premium $0.075/p (~₩113). 환율 ₩1,400/USD 기준. 견적·옵션·할인·환율에 따라 실제 단가 변동. 정확도 비교는 본인 데이터로 직접 권장.
3줄이면 사내 문서 폴더가
마크다운으로 바뀝니다.
# 한국 공공기관 HWP 한 장을 마크다운으로(Office 문서·PDF·이미지도 같은 호출) curl -X POST https://api.corepin.ai/v1/doc/parse \ -H "Authorization: Bearer $COREPIN_API_KEY" \ -F "file=@공문.hwp" \ -F "output_format=markdown"
# RAG 적재 안전망 — 개인정보 자동 마스킹 + 기밀 등급 자동 분류 curl -X POST https://api.corepin.ai/v1/doc/parse \ -H "Authorization: Bearer $COREPIN_API_KEY" \ -F "file=@계약서.pdf" \ -F "pii_mask=true" \ -F "dlp_grade=true"
# Python — 스캔 PDF 같은 호출에 자동 OCR (OCR한 페이지만 +2원/p) import requests with open("옛판결문.pdf", "rb") as f: r = requests.post( "https://api.corepin.ai/v1/doc/parse", headers={"Authorization": f"Bearer {key}"}, files={"file": f}, data={"output_format": "markdown", "ocr_fallback": "true"}, timeout=120, ) print(r.json()["markdown"])
장당 2원. 국내 최저가 (업계 대비 1/7).
기본 파싱은 문서 페이지 수 × 2원, 배치 호출은 1원(50% 할인). 옵션은 기본가에 더해져요 — 스캔된 페이지만 OCR +2원/페이지(그 페이지는 4원), 개인정보 마스킹 +5원/호출, 기밀 등급 +20원/호출, 표 정밀 모드 +0원. 자세한 단가는 API 문서에서 확인.
| 엔드포인트 | 단위 | 가격 | 설명 |
|---|---|---|---|
POST /v1/doc/parse | 페이지 | 2원 | 단건 파싱 — 19종 형식 모두 동일 |
POST /v1/doc/parse/batch | 페이지 | 1원 | 일괄 처리(≤100개 파일) — 50% 할인 |
POST /v1/doc/diff | 페이지 | 2원 | 두 문서 신구대조표 — A·B 페이지 합산 |
옵션 pii_mask | 호출 | + 5원 | 본문 자동 개인정보 마스킹 (M/01) |
옵션 dlp_grade | 호출 | + 20원 | 자동 보안 등급·유형 분류 (M/02) |
옵션 moderation_check | 호출 | + 5원 | 본문 유해발화 자동 감지 (M/03) |
옵션 mental_health_check | 호출 | + 10원 | 본문 정신건강 위험 신호 감지 (M/04) |
옵션 ocr_fallback | 페이지 | + 2원 | 스캔본 자동 감지 시 OCR 페이지당 |
옵션 pptx_ocr | 이미지 | + 2원 | PPTX 슬라이드 이미지에 박힌 텍스트 자동 OCR |
POST /v1/doc/fill | 페이지 | 2원 | 양식 자동 채우기 — HWPX 양식 + JSON 한 줄. dry_run 무료 |
POST /v1/doc/markdown-to?format=hwpx | docx | pdf | 페이지 | 2원 | 마크다운 → 한컴 HWPX · 워드 DOCX · A4 PDF 미려 역변환 |
자신있게 다른 제품들과 비교를 권합니다.
왼쪽엔 실제 한국 공무 문서를 그대로 띄워드려요 (줌·스크롤로 페이지를 살펴볼 수 있어요). 오른쪽엔 운영 중인 파서가 그 자리에서 돌려준 LLM-ready 마크다운. 옵션(개인정보 마스킹·기밀 등급·스캔 자동 OCR)도 켜고 끄며 확인 가능. 개인정보 마스킹을 켜면 변환 결과에 이름 식으로 해당 부분이 노랗게 강조돼요.
망분리 환경엔 온프렘 패키지도 있어요.
같은 API·같은 출력을 고객사 데이터센터 안에 그대로 심어드려요. 필요하시면 편하게 연락 주세요.
한국 기업·공공 문서를
가장 싸게 빠르게 완벽하게
AI Native로 바꿔드릴게요.
회원가입 즉시 무료 100페이지. 카드 등록 없이도 바로 시작할 수 있어요.