한국형 통합 문서 파서 — 어떤 문서든 한 호출에 AI 대응 준비 끝

왜 이 제품이 필요한가

이 정도 묶음을 한 호출로 주는 곳,
전 세계 어디에도 없어요.

기존 외산 파서는 아래한글을 모르고, 한국 파서는 아래한글만 알아요. 우리는 한국 표준 + 외산 표준 + 한국어 OCR + 한국어 보안 SLM 을 한 API 안에 통합했어요.

01

한국 공무 표준을 진짜로 읽어요

최신 HWP·HWPX 는 물론, 외산이 절대 못 읽는 구버전 HWP(1996~2002) 까지. 90년대 판결문·고시·공문도 한 호출에 마크다운으로 풀려요.

02

외산 문서도 LLM-ready 마크다운으로

DOCX·PPTX·XLSX·HTML·EPUB은 물론, 외산도 잘 못 받는 구버전 워드 .doc·엑셀 .xls(97-2003) 까지 — 형식별로 최적 처리 해서 결과를 모아드려요. 그대로 GPT·Claude·Gemini에 넣을 수 있어요.

03

스캔본도 자동으로 OCR

PDF 안에 텍스트가 없으면 같은 호출 안에서 자동으로 한국어 OCR 1위 모델로 넘겨요. 두 번 호출할 필요 없이 한 번에 (OCR한 페이지만 +2원/페이지 — 그 페이지는 4원, 글자 페이지는 2원 그대로). 스캔된 옛 판결문·영수증·내부 보고서를 그대로 마크다운으로.

04

한국어 단어가 안 깨져요

영문 학습 외산 파서는 한국 공무 문서에서 "2026 년도" 식으로 공백을 끼워 넣거나 "신청·접수시기가아래와같이" 식으로 공백을 잃어요. 우리는 원본 띄어쓰기 그대로 살려서 RAG·LLM 어디에 넣어도 단어가 안 깨져요.

기업 사용 사례

어떤 문서가 와도 완벽히 처리해요.

사내 폴더에 섞여 있는 한국 표준 · 외산 표준 · 스캔본 · 이미지까지, 형식 가리지 않고 같은 호출 한 번에. 아래 자리 어디든 그대로 들어가요.

공공기관 RAG

옛 판결문·고시·공문

HWP 3.0 까지 한꺼번에. 옛 자료 인덱싱·검색이 한 번에 풀려요.

사내 문서 자동화

계약서·결재 양식·보고서

아래한글·워드·엑셀·PPT가 한 폴더에 섞여 있어도, 같은 API 한 호출이면 끝.

RAG 적재 안전망

개인정보·기밀 자동 차단

추출 텍스트에 주민번호·계좌번호가 그대로 들어가는 사고를 한 줄 옵션으로.

스캔 문서 디지털화

옛 스캔 PDF·사진

텍스트 레이어 없는 스캔본·아이폰 HEIC 사진까지 한국어 OCR로 채워줘요.

에이전트 도구

Claude · Cursor · 챗봇

AI 에이전트가 사내 폴더를 그대로 읽도록. JSON 출력은 블록·표·페이지 단위.

대량 일괄 처리

월말·연말 · RAG 인덱싱

배치 100파일 즉시 응답 · 비동기 큐로 단일 호출 2,000페이지(직접 업로드는 10,000페이지)까지. 수천 페이지 PDF도 자동 분할로 완주. 페이지당 1원 (50% 할인).

한 곳에 올리면 끝

업로드만 하세요.
최적 파서는 우리가 고릅니다.

사용자는 POST /v1/doc/parse 한 곳에 업로드만 하면 돼요. 내부적으로 형식을 자동 인식해서, 한국 표준에는 한국형 파서·외산 표준에는 글로벌 1티어 파서·스캔본에는 한국어 OCR 1위 모델 — 형식마다 가장 잘하는 엔진으로 자동 분기해요.

사용자 업로드

POST /v1/doc/parse

file=@무엇이든.{어떤형식}

→

한국 표준 문서

HWP / HWPX / HWP3 / HWPML

외산 파서가 못 받는 옛 HWP 3.0 구버전까지 완벽 처리. 본문·표·각주·하이퍼링크 보존.

외산 표준 문서

DOC / DOCX / PPTX / XLS / XLSX / PDF / HTML / EPUB / RTF / CSV

워드·파워포인트·엑셀(구버전 .doc·.xls 포함)·웹 문서까지 LLM-ready 마크다운으로. 표·차트·각주·번호매기기 보존.

한국어 OCR

이미지 / 스캔 PDF

한국 계약서·영수증·인쇄물 OCR 정확도가 GPT·Gemini·Claude 같은 외산 거대 모델을 추월해요. 스캔본은 자동 감지해서 OCR로 풀어드려요.

지원 문서 형식 19종

한국 표준·외산 표준·이미지·웹 텍스트까지
단 한 번의 API 호출로 AI 인식 준비 끝.

Microsoft

.docx

Microsoft Word

워드 본문·스타일·번호매기기·각주.

.pptx

PowerPoint

슬라이드·노트·차트 텍스트.

.xlsx

Excel

시트별 마크다운 표·공유 문자열·병합 셀.

.doc

Word 97-2003

구버전 워드 OLE2 바이너리. 본문 텍스트 추출(한국어 코드페이지 자동감지).

.xls

Excel 97-2003

구버전 엑셀 BIFF 바이너리. 시트별 표를 마크다운으로 추출.

PDF

.pdf

텍스트 PDF

표 병합 셀·읽기 순서까지 그대로 살려요. 49쪽 양식도 한 호출에 처리.

.pdf

스캔된 PDF·사진

텍스트 없는 옛 스캔본·사진 PDF도 자동 감지해서 한국어 OCR로 풀어드려요.

웹·텍스트

.html

HTML

웹 페이지·아카이브를 본문 위주 마크다운으로.

url

웹 페이지 주소(URL)

주소만 넣으면 우리 서버가 대신 열어 광고·메뉴를 걷어내고 본문·표만 마크다운으로. 여러 URL 한 번에. URL당 ₩1.

.epub

EPUB

전자책을 챕터별 마크다운.

.rtf

Rich Text

옛 워드프로세서 호환 포맷.

.csv

CSV / TSV

데이터를 마크다운 표로.

이미지

.jpg

JPEG 이미지

사진·스캔본 한국어 OCR.

.png

PNG 이미지

캡처·스크린샷 한국어 OCR.

.heic

HEIC (아이폰 사진)

iPhone 기본 포맷 한국어 OCR.

.tif

TIFF 이미지

고해상 스캔 한국어 OCR.

.webp

WebP 이미지

웹 표준 이미지 OCR.

한국 표준 한국 unique

.hwp

HWP 3.0 (1996~2002)

구버전 아래한글 워드프로세서 단일 바이너리. 옛 판결문·공문서 텍스트 추출.

.hwp

HWP 5.x

아래한글 기본 바이너리. 본문·표·각주·하이퍼링크 추출.

.hwpx

HWPX

아래한글 표준 ZIP+XML. 본문·표·이미지·서식 보존.

.hwp

HWPML 2.x

XML 기반 아래한글 문서.

업로드만 하면 됩니다. 어떤 형식이든 본문·표·헤더·각주를 보존한 채 마크다운으로 정돈해드려요. 텍스트 레이어가 없는 스캔본·이미지 PDF도 같은 호출 안에서 한국어 OCR로 자동 채워집니다.

시각 기반 파싱 · 한국 공무 문서 특화

표를 글자가 아니라 그림처럼 봐요.

시장 PDF 파서들은 글자만 흘려보내서 병합 셀이 펼쳐지고 다단 머리글이 사라져요. 우리는 페이지를 시각적으로 읽어요 — 레이아웃·읽기 순서·표 구조까지 한 모델이 동시에 봐서 셀 좌표 그대로 마크다운으로 떨어져요.

01

페이지 레이아웃을 통째로 봐요

본문·표·머리글·각주·차트·수식 위치를 한 번에 인식해요. 다단 박스를 표로 오인하거나 각주가 본문에 섞이는 사고가 없어요.

02

복잡한 표 구조를 풀어요

병합 셀·다단 머리글·표 안의 표 — 한국 공무 양식·견적서의 까다로운 표를 셀 단위로 복원해 마크다운 표로 옮겨요.

03

읽기 순서가 안 흔들려요

2단·3단 본문·사이드바·박스를 사람이 읽는 순서 그대로 배열해요. RAG·요약에 적재해도 문맥이 안 뒤섞여요.

04

큰 PDF도 일관된 품질로

표 1쪽이든 49쪽 다단 양식이든 같은 엔진이 동일하게 처리해요. 49쪽 한국 공무 PDF 실측 — 6초·표 574행.

05

한국 공무 문서에 특화

중기부 공고문·시방서·사업계획서·견적서 — 한국 공무·기업 문서로 실측 튜닝. HWP 출력이든 워드 변환본이든 같은 결과.

실측: 49쪽 한국 공무 PDF (표 다수)	우리 파서	시장의 기본 PDF 파서
처리 시간	6.1초	24.3초 (4배 느림)
표 행 인식 (실측 합계)	574 행	0 행 (표 자체를 못 잡음)
본문 양	195 KB · 구조화 마크다운	222 KB · 단어 늘어놓기

실측: 22쪽 금융결제원 CMS 계좌 체계 PDF (표 다수)	우리 파서	시장의 기본 PDF 파서
처리 시간	1.3초	표 인식 자체 실패
마크다운 표 행	292 행 · 셀 병합 보존	평문 단어 묶음
한국어 단어 띄어쓰기	✓ 원본 그대로	"신청·접수시기가아래와같이" 식 공백 손실 사례

측정 기준 — 우리가 보유한 같은 PDF를 다른 파서로 돌려본 직접 실측이에요. 표 인식·셀 병합·한국어 단어 띄어쓰기까지 사용자 노출 영역만 본 결과. 자세한 사용법은 API 문서 참조.

출력 형식 4종 · 한 호출에 골라서

쓰는 곳마다 형식이 딱 맞아요.
출력 형식 4가지.

AI 프롬프트엔 text, RAG·문서 미리보기엔 markdown, 자동화 파이프라인엔 JSON, 웹·메일 임베드엔 HTML. output_format 한 줄로 골라요. 어느 형식이든 한 번의 호출, 같은 단가.

text

LLM 프롬프트에 그대로

마크다운 마커가 제거된 순수 본문이에요. 토큰을 가장 적게 먹어서 검색 색인이나 요약·벡터화 입력에 잘 맞아요.

markdown

GPT·Gemini·Claude 입력 표준

제목·표·리스트·코드 블록까지 구조 그대로. RAG 검색 결과나 챗봇 입력, 문서 미리보기까지 한 응답으로 흘려보내는 기본 출력이에요.

json

구조 그대로 파이프라인에

제목·문단·리스트·표 행·코드(언어 포함)가 구조화된 블록 배열로 떨어져요. 표만 뽑거나 제목 단위로 잘라 적재하는 자동화 파이프라인에 잘 맞아요.

html

웹·메일에 그대로 임베드

본문 안에 <script> 같은 위험 태그가 박혀 있어도 자동으로 안전 처리해서 바로 띄울 수 있어요. 대시보드·내부 위키·메일 미리보기에 그대로 붙여요.

같은 호출, 같은 단가 — 어떤 형식을 골라도 페이지당 2원. 한 문서에서 동시에 여러 형식이 필요하면 한 번에 모아주는 옵션도 있어요. 자세한 건 API 문서.

들어오는 길도, 나가는 길도 — 한 호출로 끝나요

문서 → 마크다운, 마크다운 → 문서.
두 방향 모두 한 호출에 끝나요.

시장의 파서는 한쪽만 봐요. 우리는 들어오는 길과 나가는 길을 한 API로 묶었어요 — 어떤 한국·외산 문서든 마크다운으로 받고, 다시 마크다운을 한컴 HWPX · 워드 DOCX · A4 PDF로 미려하게 만들어요. 문서·AI 인텔리전스, 코어핀 하나로 끝내요.

→ 들어오는 길

어떤 문서든 들어오면, 마크다운으로 떨어져요.

HWP HWPX PDF DOCX PPTX XLSX 이미지 +12종

한국 표준·외산 표준·이미지·웹 19종을 한 호출에 받아요. 표 자동 감지로 셀 구조까지 살려서 LLM이 바로 읽을 수 있는 마크다운·텍스트·JSON·HTML 4종으로 떨어져요.

POST /v1/doc/parse

→ 나가는 길

LLM이 쓴 마크다운, 정식 사무 문서로 미려하게.

HWPX DOCX PDF

LLM이 만든 보고서·계약서·공문 초안을 한컴 한글·마이크로소프트 워드·A4 PDF로 곧장. 헤딩 위계·표·코드 블록·인용·리스트 모두 노션 인쇄 수준으로 미려하게 들어가요. 한국어 폰트·줄간격까지 보정돼서 사내 회람·고객 전달용으로 그대로 나가요.

POST /v1/doc/markdown-to?format=hwpx|docx|pdf

파일이 없어도 돼요 — 주소만 주세요

웹 페이지는 주소(URL)만 넣으면
본문만 깔끔하게 떨어져요.

뉴스·공고·블로그·경쟁사 페이지를 RAG에 넣으려고 외부 크롤러 SaaS를 따로 쓰고 계셨나요? 이제 주소만 던지면 우리 서버가 대신 열어 광고·메뉴·사이드바·댓글을 걷어내고 본문·표·제목만 마크다운으로 돌려줘요. 파일 업로드와 똑같은 한 API, 똑같은 +α 안전망(개인정보 마스킹·기밀 등급·유해발화) — 그리고 외부 크롤러 비용 0.

예전 방식

크롤러 SaaS + 직접 본문 추출 파이프라인

페이지 수·호출 수로 비싸게 과금되는 외부 크롤러 구독
긁어온 HTML에 광고·내비·댓글이 섞여 RAG 품질 저하
본문 추출기·인코딩·표 처리를 직접 붙이고 유지보수
개인정보·기밀 필터는 또 다른 도구로 따로

코어핀 통합 문서 파서

POST `/v1/doc/parse/url` 한 줄

주소만 — 본문·표·제목만 마크다운/텍스트/JSON으로
여러 URL을 한 번에 (최대 50개), 실패 건은 미과금
파일 파싱과 동일한 +α: 개인정보 마스킹·기밀 등급·유해발화
내부망·로컬 주소(SSRF)는 자동 차단 — 안전하게 대리 fetch
URL당 1원 문서 파서(2원/페이지)보다 저렴

① 주소

URL 하나 또는 여러 개를 JSON으로

② 본문만 추출

광고·메뉴·댓글 제거, 표·제목 보존

③ LLM-ready

마크다운으로 바로 RAG·요약·분석

# 주소만 던지면 본문만 마크다운으로 — 여러 개도 한 번에
curl -X POST https://api.corepin.ai/v1/doc/parse/url \
  -H "Authorization: Bearer $COREPIN_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"urls": ["https://news.example/article", "https://gov.example/notice"], "pii_mask": true}'

현장에서 자주 듣는 이야기

"대화는 차단해도, 파일은 그대로 나가요."
그 구멍, 통합 문서 파서가 막아요.

한국 기업·공공이 AI 도입 직전에 멈춰 서는 이유 — 거의 다 첨부파일이에요. 업무 문서 하나 올리는 순간 주민번호·계좌·연락처·계약 정보가 그대로 해외 LLM으로 흘러나가니까요. 코어핀 통합 문서 파서는 업로드되는 순간 국내 데이터센터에서 먼저 받아 가려내고, 안전한 텍스트만 해외 LLM으로 보내요.

개인정보 필터링

Query about personal data filtering in AI

From공공기관 담당자 K <a***1351@***.go.kr>

Tosupport@(파트너 AI사)

2026-05-21 17:53 KST

개인 대화창에 개인정보를 넣었을 때는 개인정보로 추정되는 정보가 있어 입력이 불가합니다. 이렇게 떠서 막혀져 있는데,

첨부파일의 개인정보를 넣어서 표로 만들어 달라고 했더니, 대화창에서 표로 만들어서 올려 주네요.

첨부파일에 있는 개인정보는 필터링이 안 되나요?

— 익명 처리한 실제 공공기관 문의 (2026-05-21)

01

사용자가 첨부파일 업로드

HWP·HWPX·DOCX·PDF·이미지 등 19종 어떤 포맷이든 그대로 보내세요. 변환·전처리 코드는 필요 없어요.

↓

02

국내 데이터센터에서 먼저 가려내요

파일이 해외 LLM으로 나가기 전에, 코어핀이 국내에서 받아 마크다운으로 정리하면서 동시에 주민번호·계좌·연락처·이름 같은 개인정보를 자동 마스킹해요. 옵션 한 줄 (redact_pii: true), 평균 1.4초.

↓

03

안전한 텍스트만 LLM으로

GPT·Gemini·Claude 어디로 보내든, 도착하는 건 마스킹 완료된 마크다운뿐. 첨부파일 속 개인정보는 한 글자도 안 새요.

기업·공공을 대상으로 서비스하는 AI 회사라면

코어핀 통합 문서 파서 한 줄이면,
PII 필터·DLP 따로 살 필요가 없어요.

지금까지는 AI 서비스 하나 만들려면 — 문서 파서 + 개인정보 필터 + DLP 제품 + OCR을 각각 사서 2중·3중으로 연동해야 했어요. 코어핀은 옵션 한 줄로 전부 묶었어요. 한 호출, 한 단가, 한국 데이터센터, 가장 빠르게, 가장 정확하게. 첨부파일 보안 때문에 AI 도입을 미루던 고객도 한 호흡에 통과해요.

파일 도착 → 마스킹 완료

1.4초

평균 4쪽 한국 공무 문서 기준

개인정보 검출 정확도

100.00%

자체 2,000건 + K-PII 14,195건 검증 (v1.1)

데이터 처리 위치

100% 국내

국외 이전 동의 절차 불필요

함께 켤 수 있는 안전망

문서에서 글자만 추출하지 않아요.
개인정보·보안 필터링·OCR까지 한 방에.

사내 문서를 RAG·검색·요약에 적재하기 전 안전망 — 개인정보 자동 마스킹·기밀 등급 자동 분류·스캔본 자동 OCR을 옵션 한 줄로 더해요. 추가 API 호출 없이.

auto_pii_mask

개인정보 자동 마스킹

추출된 본문에서 주민등록번호·이름·계좌번호 등 19 종 개인정보를 자동으로 ●●● 처리. 기본가에 +5원/호출.

auto_dlp_grade

기밀 등급 자동 분류

본문을 읽어 공개·내부·기밀·특급 6 단계 + 11 유형으로 자동 분류. 사내 RAG 적재 전 안전망. 기본가에 +20원/호출.

ocr_fallback

스캔본 자동 OCR

이미지 PDF·스캔본 자동 감지 후 한국어 OCR 1위 모델로 텍스트 복원. 같은 호출에서 자동 처리. OCR한 페이지만 +2원/페이지 (그 페이지는 4원, 글자 페이지는 2원 그대로).

moderation_check

유해발화 자동 감지

본문에 욕설·차별·인젝션 패턴이 있는지 자동 검사. RAG 적재 전 안전망. 기본가에 +5원/호출.

mental_health_check

정신건강 위험 신호 감지

본문에 자살·자해·중독 등 위기 신호가 있는지 10축 5단계로 자동 검사. 콘텐츠 모더레이션. 기본가에 +10원/호출.

pptx_ocr

PPTX 슬라이드 이미지 OCR

PPTX 슬라이드 안에 박힌 이미지(다이어그램·스크린샷·캡처)에서 텍스트 자동 추출. 한국어 OCR 1위 모델 호출. OCR한 이미지만 +2원/이미지.

국내·외산 대표 제품과 비교

AI 시대 문서 파서,
다음 세대로 넘어왔어요.

국내·외산을 대표하는 4사와 같은 표 위에 올려봤어요. 같은 API 한 호출에 파싱+마스킹+등급+OCR 통합 · 가입 즉시 시작 · 페이지당 2원 — 시장 최저 단가에 가장 넓은 묶음입니다.

항목	Corepin Doc	사이냅 도큐애널라이저	Upstage Document Parse	LlamaParse
배포 형태	API SaaS · 가입 즉시	온프레미스(도커)	API SaaS	API SaaS
HWP / HWPX	✓ HWP 3.0 구버전 포함	✓ 지원	✓ 지원	미지원
지원 포맷 수	19종	한글·MS·PDF·이미지	HWP·HWPX·워드·PPT·엑셀·PDF·이미지	PDF · DOCX 위주
출력(LLM-ready)	Markdown · JSON · HTML · Text	Markdown · JSON · XML	HTML · Markdown	Markdown
한국어 OCR(스캔 PDF·이미지)	✓ 같은 호출에 자동 인식(한국어 1위 모델)	별도 제품	Enhanced 모드(~₩42/p) 또는 Document OCR 별도(~₩2.1/p)	VLM(영문 중심)
1 호출 최대 파일/페이지	단건 50MB · batch 100 파일 · async ≤2,000p · 직접 업로드 ≤10,000p (200MB)	-	sync 100p · async 1,000p	호출당 1 파일
개인정보 자동 마스킹	✓ 옵션 한 줄	별도 시스템	별도 호출	별도 호출
기밀 등급 자동 분류	✓ 옵션 한 줄	없음	없음	없음
국내 처리(규제 준수)	✓ 100% 국내 처리	✓ 자사 인프라(온프레미스)	처리 위치 공식 미명시	⚠ 미국(국외 이전)
가격 공개(페이지당)	2원(배치 1원)	B2B 견적	Standard ~₩14 / Enhanced ~₩42 / Document OCR 별도 ~₩2.1	권장 ~₩19 · Premium ~₩113
도입 절차	가입 즉시 · 무료 100페이지/월	영업 → 계약 → 설치	가입 즉시	가입 즉시
LLM RAG 통합	파싱 + 마스킹 + 등급 + OCR 한 호출	RAG 적재 출력	RAG 적재 출력	LlamaIndex 네이티브

다섯 가지 차이

파싱 + 개인정보 마스킹 + 기밀 등급 + 한국어 OCR — 같은 호출 한 번에. 다른 곳은 모두 별도 API 호출. 우리는 옵션 한 줄.
HWP·PDF·DOCX·PPTX·XLSX·이미지 19종 단일 API — 한국 공무 표준부터 외산 오피스, 스캔본, 사진까지. 형식 가리지 않고 한 호출에 마크다운으로.
페이지당 2원 — Upstage Enhanced(~₩42)의 1/21, LlamaParse Premium(~₩113)의 1/57, Upstage Standard(~₩14)의 1/7. 배치는 1원.
가입 즉시 시작 · 무료 100페이지/월 — 영업·견적·계약 없이 1분 안에 첫 호출.
100% 국내 처리 — 데이터 국외 이전 동의 불필요. 개인정보보호법·금융 컴플라이언스 그대로 통과.

출처 (2026-05-17 기준) — 사이냅 도큐애널라이저 · Upstage Document Parse · LlamaParse Pricing. Upstage = Standard $0.01/p (~₩14) · Enhanced $0.03/p (~₩42) · Document OCR $0.0015/p (~₩2.1, 별도) · Auto mode. Sync 100p/호출 · Async 1,000p/호출. LlamaParse = Agentic 권장 $0.013/p (~₩19) · Premium $0.075/p (~₩113). 환율 ₩1,400/USD 기준. 견적·옵션·할인·환율에 따라 실제 단가 변동. 정확도 비교는 본인 데이터로 직접 권장.

바로 써보기

3줄이면 사내 문서 폴더가
마크다운으로 바뀝니다.

# 한국 공공기관 HWP 한 장을 마크다운으로(Office 문서·PDF·이미지도 같은 호출)
curl -X POST https://api.corepin.ai/v1/doc/parse \
  -H "Authorization: Bearer $COREPIN_API_KEY" \
  -F "file=@공문.hwp" \
  -F "output_format=markdown"

# RAG 적재 안전망 — 개인정보 자동 마스킹 + 기밀 등급 자동 분류
curl -X POST https://api.corepin.ai/v1/doc/parse \
  -H "Authorization: Bearer $COREPIN_API_KEY" \
  -F "file=@계약서.pdf" \
  -F "pii_mask=true" \
  -F "dlp_grade=true"

# Python — 스캔 PDF 같은 호출에 자동 OCR (OCR한 페이지만 +2원/p)
import requests
with open("옛판결문.pdf", "rb") as f:
    r = requests.post(
        "https://api.corepin.ai/v1/doc/parse",
        headers={"Authorization": f"Bearer {key}"},
        files={"file": f},
        data={"output_format": "markdown", "ocr_fallback": "true"},
        timeout=120,
    )
print(r.json()["markdown"])

가격

장당 2원. 국내 최저가 (업계 대비 1/7).

기본 파싱은 문서 페이지 수 × 2원, 배치 호출은 1원(50% 할인). 옵션은 기본가에 더해져요 — 스캔된 페이지만 OCR +2원/페이지(그 페이지는 4원), 개인정보 마스킹 +5원/호출, 기밀 등급 +20원/호출, 표 정밀 모드 +0원. 자세한 단가는 API 문서에서 확인.

엔드포인트	단위	가격	설명
`POST /v1/doc/parse`	페이지	2원	단건 파싱 — 19종 형식 모두 동일
`POST /v1/doc/parse/batch`	페이지	1원	일괄 처리(≤100개 파일) — 50% 할인
`POST /v1/doc/diff`	페이지	2원	두 문서 신구대조표 — A·B 페이지 합산
옵션 `pii_mask`	호출	+ 5원	본문 자동 개인정보 마스킹 (M/01)
옵션 `dlp_grade`	호출	+ 20원	자동 보안 등급·유형 분류 (M/02)
옵션 `moderation_check`	호출	+ 5원	본문 유해발화 자동 감지 (M/03)
옵션 `mental_health_check`	호출	+ 10원	본문 정신건강 위험 신호 감지 (M/04)
옵션 `ocr_fallback`	페이지	+ 2원	스캔본 자동 감지 시 OCR 페이지당
옵션 `pptx_ocr`	이미지	+ 2원	PPTX 슬라이드 이미지에 박힌 텍스트 자동 OCR
`POST /v1/doc/fill`	페이지	2원	양식 자동 채우기 — HWPX 양식 + JSON 한 줄. dry_run 무료
`POST /v1/doc/markdown-to` ?format=hwpx \| docx \| pdf	페이지	2원	마크다운 → 한컴 HWPX · 워드 DOCX · A4 PDF 미려 역변환

무료 한도 100페이지/월. 회원가입 즉시 발급. 그 이상은 등록한 카드로 다음 달 1일 자동 정산돼요. 후불 청구 한도는 대시보드에서 조정 가능. 슈퍼어드민 등록 고객은 별도 단가 적용 가능.

라이브 데모

자신있게 다른 제품들과 비교를 권합니다.

왼쪽엔 실제 한국 공무 문서를 그대로 띄워드려요 (줌·스크롤로 페이지를 살펴볼 수 있어요). 오른쪽엔 운영 중인 파서가 그 자리에서 돌려준 LLM-ready 마크다운. 옵션(개인정보 마스킹·기밀 등급·스캔 자동 OCR)도 켜고 끄며 확인 가능. 개인정보 마스킹을 켜면 변환 결과에 이름 식으로 해당 부분이 노랗게 강조돼요.

49페이지 매우 복잡한 HWP 파싱 남양주왕숙2A3블록 입주자 모집공고문 HWP 원본 — 좌측은 미리보기용 PDF, 변환은 HWP 직접 ↓ 원본 HWP 다운로드

매우 복잡한 표 PDF 중기부 기술혁신개발사업 공고 정부 공문서 — 다단 표·각주·본문 혼합 ↓ 원본 PDF 다운로드

프리젠테이션 PDF 슬라이드 자료 PPTX 출력 PDF — 슬라이드 레이아웃·도형·텍스트 박스 ↓ 원본 PDF 다운로드

출력 마크다운 텍스트 HTML JSON

+ α 옵션 개인정보 마스킹 기밀 등급 분류 유해발화 감지(+5원) 정신건강 신호(+10원) PPTX 슬라이드 이미지 OCR(+2원/장)

📂 내 파일 올리기(최대 8MB)

원본(Before)

샘플을 선택하면 원본이 여기에 표시돼요.

변환 결과(After)

변환 결과가 여기에 표시돼요.

사내 설치 · 완전 에어갭

망분리 환경엔 온프렘 패키지도 있어요.

같은 API·같은 출력을 고객사 데이터센터 안에 그대로 심어드려요. 필요하시면 편하게 연락 주세요.

온프렘 도입 문의하기 →

어떤 문서든 한 호출에 AI 대응 준비 끝

이 정도 묶음을 한 호출로 주는 곳,전 세계 어디에도 없어요.

한국 공무 표준을 진짜로 읽어요

외산 문서도 LLM-ready 마크다운으로

스캔본도 자동으로 OCR

한국어 단어가 안 깨져요

어떤 문서가 와도 완벽히 처리해요.

업로드만 하세요.최적 파서는 우리가 고릅니다.

한국 표준·외산 표준·이미지·웹 텍스트까지단 한 번의 API 호출로 AI 인식 준비 끝.

Microsoft

PDF

웹·텍스트

이미지

한국 표준 한국 unique

표를 글자가 아니라 그림처럼 봐요.

페이지 레이아웃을 통째로 봐요

복잡한 표 구조를 풀어요

읽기 순서가 안 흔들려요

큰 PDF도 일관된 품질로

한국 공무 문서에 특화

쓰는 곳마다 형식이 딱 맞아요.출력 형식 4가지.

LLM 프롬프트에 그대로

GPT·Gemini·Claude 입력 표준

구조 그대로 파이프라인에

웹·메일에 그대로 임베드

문서 → 마크다운, 마크다운 → 문서.두 방향 모두 한 호출에 끝나요.

어떤 문서든 들어오면, 마크다운으로 떨어져요.

LLM이 쓴 마크다운, 정식 사무 문서로 미려하게.

웹 페이지는 주소(URL)만 넣으면본문만 깔끔하게 떨어져요.

크롤러 SaaS + 직접 본문 추출 파이프라인

POST /v1/doc/parse/url 한 줄

"대화는 차단해도, 파일은 그대로 나가요."그 구멍, 통합 문서 파서가 막아요.

개인정보 필터링

사용자가 첨부파일 업로드

국내 데이터센터에서 먼저 가려내요

안전한 텍스트만 LLM으로

코어핀 통합 문서 파서 한 줄이면,PII 필터·DLP 따로 살 필요가 없어요.

문서에서 글자만 추출하지 않아요.개인정보·보안 필터링·OCR까지 한 방에.

개인정보 자동 마스킹

기밀 등급 자동 분류

스캔본 자동 OCR

유해발화 자동 감지

정신건강 위험 신호 감지

PPTX 슬라이드 이미지 OCR

AI 시대 문서 파서,다음 세대로 넘어왔어요.

3줄이면 사내 문서 폴더가마크다운으로 바뀝니다.

장당 2원. 국내 최저가 (업계 대비 1/7).

자신있게 다른 제품들과 비교를 권합니다.

망분리 환경엔 온프렘 패키지도 있어요.

한국 기업·공공 문서를가장 싸게 빠르게 완벽하게AI Native로 바꿔드릴게요.

어떤 문서든 한 호출에
AI 대응 준비 끝

이 정도 묶음을 한 호출로 주는 곳,
전 세계 어디에도 없어요.

업로드만 하세요.
최적 파서는 우리가 고릅니다.

한국 표준·외산 표준·이미지·웹 텍스트까지
단 한 번의 API 호출로 AI 인식 준비 끝.

쓰는 곳마다 형식이 딱 맞아요.
출력 형식 4가지.

문서 → 마크다운, 마크다운 → 문서.
두 방향 모두 한 호출에 끝나요.

웹 페이지는 주소(URL)만 넣으면
본문만 깔끔하게 떨어져요.

POST `/v1/doc/parse/url` 한 줄

"대화는 차단해도, 파일은 그대로 나가요."
그 구멍, 통합 문서 파서가 막아요.

코어핀 통합 문서 파서 한 줄이면,
PII 필터·DLP 따로 살 필요가 없어요.

문서에서 글자만 추출하지 않아요.
개인정보·보안 필터링·OCR까지 한 방에.

AI 시대 문서 파서,
다음 세대로 넘어왔어요.

3줄이면 사내 문서 폴더가
마크다운으로 바뀝니다.

한국 기업·공공 문서를
가장 싸게 빠르게 완벽하게
AI Native로 바꿔드릴게요.