Corepin / 한국형 AI 웹 크롤러

복잡한 한국 웹사이트를,
AI가 완벽히 이해하는 형태로.

챗봇·RAG·에이전트에 웹사이트를 읽힐 때, 광고·메뉴·깨진 글자로 가득한 원본 HTML 대신
LLM이 바로 이해하는 깨끗한 Markdown·JSON으로 돌려드려요. 한글 인코딩 깨짐 자동 복원 +
사내 적재 전 안전 검사까지 한 호출에.

API 키 받기 → 라이브 데모 바로 보기

4가지 출력

Markdown · JSON · HTML · 텍스트
한 번 크롤하면 LLM·RAG·화면 어디에 넣든
원하는 형식으로 받아요

EUC-KR자동 복원

한글 인코딩 자동 감지·복원
사이트마다 제각각인 문자셋·레이아웃에서
깨진 글자(□□□)를 자동으로 살려요

2원/페이지

종량 과금 · 성공분만
월 구독은 안 써도 매달 청구되지만,
코어핀은 성공한 페이지만 ₩2

왜 필요한가

원본 HTML을 그대로 LLM에 넣으면,
광고·메뉴·깨진 글자가 답을 흔들어요.

웹페이지의 HTML에는 본문 말고도 광고·내비게이션·사이드바·댓글·푸터·스크립트가 잔뜩 섞여 있어요. 이걸 그대로 모델에 넣으면 쓸데없는 토큰으로 비용이 새고, 정작 중요한 본문이 노이즈에 묻혀 답이 흔들려요. 게다가 한국 웹사이트는 인코딩·레이아웃·문자셋이 사이트마다 제각각이라, 일반 크롤러는 글자가 깨지거나(□□□) 본문을 아예 못 잡는 경우가 흔해요.

그냥 긁은 원본 HTML

노이즈에 본문이 묻혀요

[로그인] [회원가입] GNB 메뉴 · 광고 배너 · 추천 기사 삼성전자는 2분기 영업이익이… 댓글 142개 · SNS 공유 · 관련기사 · 푸터 약관 �� (인코딩 깨짐)

토큰의 절반 이상이 메뉴·광고·깨진 글자. RAG에 넣으면 검색 정확도가 떨어지고 비용은 올라가요.

코어핀이 정리한 결과

본문·표·제목 구조만

# 삼성전자, 2분기 영업이익 발표 삼성전자는 2분기 영업이익이 … 전년 동기 대비 …% 증가했다. | 항목 | 2분기 | 증감 | |------|-------|------| | 매출 | … | … |

광고·메뉴·댓글을 걷어내고 인코딩을 복원해 본문·표만 남겨요. LLM이 바로 먹는 깨끗한 형태예요.

어떻게

주소 하나로,
AI가 바로 읽는 데이터까지 네 단계.

크롤·인코딩 복원·형식 변환·안전 검사를 따로 붙일 필요 없이, 한 API 호출에 묶어 처리해요.

① 본문만 추출

광고·메뉴·댓글을 걷어내요

광고·내비게이션·사이드바·댓글·푸터를 모두 제거하고 본문·제목·표·목록 구조만 남겨요. 한국 사이트의 제각각인 레이아웃에서도 본문을 정확히 잡아요.

② 한글 인코딩 복원

깨진 글자(□□□)를 살려요

아직도 EUC-KR·CP949로 서빙하는 한국 사이트의 깨진 글자를 자동 감지·복원해요. 문서 파서의 인코딩 자동 감지 철학을 웹에도 그대로 적용했어요.

③ 원하는 형식으로

MD · JSON · HTML · 텍스트

프롬프트에 바로 넣을 Markdown, 블록 구조가 필요한 RAG용 JSON, 화면에 그릴 HTML, 순수 텍스트 중에서 호출 한 줄로 골라 받아요.

④ 사내 적재 전 검사

개인정보·기밀·유해·정신건강

외부에서 가져온 데이터를 사내 AI에 넣기 전, 개인정보 마스킹·기밀 등급·유해발화·정신건강 위험 신호를 한 호출에 검사해요. (.hwp·.pdf 등 첨부가 있으면 함께 처리)

핵심 기능

그냥 크롤러가 아니라,
한국 웹을 아는 LLM용 크롤러예요.

본문 추출부터 인코딩 복원, 형식 선택, 사내 적재 안전 검사, 첨부 처리, 합법 크롤링까지. 필요한 옵션만 한 줄씩 켜면 돼요.

/v1/crawl/scrape

LLM이 이해하는 깨끗한 본문

광고·내비게이션·사이드바·댓글·푸터를 걷어내고 본문·제목·표·목록 구조만 남겨요. 원본 HTML 대신 LLM 이 바로 먹을 수 있는 형태라 토큰이 줄고 답의 정확도가 올라가요.

output_format

출력 형식 선택 (MD·JSON·HTML·텍스트)

프롬프트에 바로 넣을 Markdown, 블록 구조가 필요한 RAG 파이프라인용 JSON, 화면에 그릴 HTML, 순수 텍스트 중에서 호출 한 줄로 골라 받아요.

자동

한국 사이트 정확 추출 + 인코딩 복원

사이트마다 제각각인 한국 웹의 문자셋(EUC-KR·CP949)·레이아웃을 알아서 처리해 깨진 글자(□□□)를 자동 복원하고 본문만 정확히 잡아요. 일반 크롤러가 한국 사이트에서 자주 깨지는 지점을 코어핀은 그냥 넘어가요.

/v1/crawl/map

사이트 URL 발견 (크롤 전 미리보기)

sitemap + 링크로 사이트의 페이지 주소를 빠르게 훑어 목록으로. 풀크롤 전에 무엇이 긁힐지 미리 확인해요.

옵션

사내 적재 전 안전 검사 (4종)

긁어온 내용에 개인정보가 있으면 자동 마스킹, 기밀 등급 분류, 유해발화·정신건강 위험 신호까지 한 호출에 검사해요. 외부에서 가져온 데이터를 사내 AI 에 안심하고 넣을 수 있어요.

/v1/crawl/scrape?parse_attachments=true

첨부 문서까지 한 번에 (HWP·PDF 등)

페이지에 붙은 .hwp·.pdf·.docx·.xlsx 첨부가 있으면 자동으로 받아 본문으로 풀어 함께 돌려줘요. 한컴 한글(HWP)까지 그대로 처리돼요.

옵션

합법 크롤링 (robots 준수·감사로그)

robots.txt 규칙을 지키고, 어떤 키가 어떤 도메인을 언제 크롤했는지 기록을 남겨요. 내부망·메타데이터 주소는 보안 정책으로 차단해요.

라이브 데모

직접 한국 사이트 주소를 넣어보세요.
그 자리에서, 원하는 형식으로.

아래에 주소를 넣고 「크롤하기」를 누르면 운영 중인 크롤러가 본문을 정리해 돌려줘요. 출력 형식(Markdown·HTML·JSON)은 추가 호출 없이 그 자리에서 전환되고, 「개인정보 마스킹」을 켜면 가려진 부분이 이름 식으로 강조돼요.

위키백과 — 삼성전자 (표 많은 한국 페이지) ko.wikipedia.org/wiki/삼성전자

정책브리핑 보도자료 (한국 공공) korea.kr · 정책브리핑

KDI 경제전망 보고서 (한국 연구·정책 본문) kdi.re.kr · 경제전망

⚡ JS 렌더 예시 — 자바스크립트로만 그려지는 페이지 quotes.toscrape.com/js · 렌더 끄면 본문 0줄, 켜면 살아나요

안전 검사 개인정보 마스킹 기밀 등급 분류 유해발화 감지 정신건강 감지 첨부 파싱

가져오기 JS 렌더 (브라우저 실행) 스크립트로만 그려지는 사이트(SPA)에 켜보세요 · 정적 추출로 안 잡히던 본문도 살아나요

robots.txt 준수 · 공개 페이지만 · 내부망 차단

위에 한국 사이트 주소를 넣고 「크롤하기」를 눌러보세요. 본문을 정리해 여기에 표시하고, 위 형식 탭으로 Markdown·HTML·JSON을 바로 전환할 수 있어요.

사이트 통째로 · JS 렌더

URL 하나로 사이트 전체를,
스크립트로 그려지는 페이지까지.

특정 페이지 몇 개가 아니라 사이트를 통째로 RAG에 적재하거나, 자바스크립트로만 그려지는 요즘 사이트(SPA)도 그대로 읽어야 할 때가 있어요. 둘 다 옵션 한 줄이에요.

POST /v1/crawl/crawl

사이트 통째로 (비동기 크롤 잡)

시작 주소 하나만 주면 같은 사이트 링크를 따라가며 수십~수백 페이지를 한 번에 긁어요. RAG에 사내 문서 사이트·홈페이지 전체를 적재할 때 딱이에요. 깊이·페이지 수 한도, robots 준수, 중복 페이지 자동 제거. 오래 걸리는 작업이라 잡으로 등록하고 상태를 확인하는 방식 — 끝나면 webhook으로 알려줄 수도 있어요.

render: true

JS 렌더 (브라우저 실행)

본문이 자바스크립트로만 그려지는 페이지는 실제 브라우저로 실행한 뒤 추출해요. 정적 추출로 본문이 안 잡히던 사이트도 읽혀요. 렌더 페이지는 5원, 렌더가 막히거나 실패하면 자동으로 정적 추출(2원)로 폴백해서 크롤이 멈추지 않아요.

사내 적재 안전

외부에서 긁은 데이터,
사내 AI에 넣기 전 한 호출로 검사해요.

크롤한 내용을 그대로 사내 RAG·챗봇에 넣으면 개인정보·기밀이 새거나, 유해·위험 콘텐츠가 섞일 수 있어요. 코어핀은 크롤과 동시에 네 가지 안전 검사를 옵션 한 줄로 묶어요. 개인정보 보호와 사내 보안을 같은 호출에서 끝내요.

pii_mask

개인정보 마스킹

주민등록번호·이름·전화·계좌 등 한국형 개인정보 19종을 자동으로 ●●● 처리해요. 외부 콘텐츠가 개인정보 보호 기준을 그대로 통과하도록.

dlp_grade

기밀 등급 분류

본문을 읽어 공개·내부·기밀·특급 6단계 + 11유형으로 자동 분류해요. 사내 적재 전 등급별 처리 정책을 적용할 수 있어요.

moderation_check

유해발화 감지

욕설·차별·위협·프롬프트 인젝션 패턴이 섞였는지 검사해요. 외부 텍스트가 사내 AI를 흔들지 않도록 적재 전에 걸러요.

mental_health_check

정신건강 위험 신호

자살·자해·중독 등 위기 신호를 10축 5단계로 검사해요. 콘텐츠 모더레이션이 필요한 서비스에서 안전망으로 써요.

일반 크롤러와 비교

한국 사이트에선,
코어핀이 압도적으로 잘해요.

일반 크롤러는 한국 웹의 인코딩·레이아웃 앞에서 글자가 깨지고 본문을 놓쳐요. 코어핀은 한국 웹에 맞춰 본문을 정확히 뽑고, LLM이 바로 먹는 형식·사내 적재 안전 검사·첨부 처리·종량 가격까지 한 제품에 묶었어요.

항목	일반 크롤러	Corepin Crawl
한국 사이트 본문 추출	자주 깨지거나 노이즈 섞임	한국 웹 맞춤 — 본문만 정확히✓ 우위
한글 인코딩(EUC-KR 등)	깨진 글자(□□□) 빈발	자동 감지·복원✓ 우위
LLM-ready 출력	원본 HTML 위주	MD·JSON·HTML·텍스트 선택✓ 우위
사내 적재 안전 검사	없음 (별도 구축)	개인정보·기밀·유해·정신건강 한 호출✓ 우위
첨부 문서(HWP 등)	처리 못 함	본문과 함께 자동 처리✓ 우위
가격	월 구독 (안 써도 청구)	종량 ₩2/페이지 (성공분만·선불·후불)✓ 우위

요약 — 한국 웹에서는 코어핀이 앞섭니다. 결정적 차이는 ① 한국 사이트 본문 정확 추출 · ② 한글 인코딩(EUC-KR·CP949) 자동 복원 · ③ LLM이 바로 먹는 4가지 출력 형식 · ④ 개인정보·기밀·유해·정신건강 한 호출 검사 · ⑤ 종량 ₩2/페이지(성공분만). 직접 한국 사이트 주소로 비교해보세요.

가격

페이지당 2원. 성공한 페이지만 과금해요.

쓴 만큼만 내는 종량제예요. 실패한 페이지는 한 푼도 안 받아요. 선불·후불 모두 지원하고, 옵션은 기본가에 더해져요.

엔드포인트 · 옵션	단위	가격	설명
`POST /v1/crawl/scrape`	페이지	2원	본문 스크랩 — 성공한 페이지만 과금
`POST /v1/crawl/map`	사이트	2원	사이트에 어떤 페이지들이 있는지 주소 목록 먼저 훑어보기 (풀크롤 전 미리보기)
`POST /v1/crawl/crawl`	페이지	2원	사이트 통째로 비동기 크롤 잡 (RAG 적재 · 성공한 페이지만)
옵션 `parse_attachments`	첨부 문서	+ 2원	.hwp·.pdf·.docx·.xlsx 첨부가 있으면 함께 파싱 (페이지당)
옵션 `render` (JS 렌더)	렌더 페이지	5원	스크립트로만 그려지는 페이지(SPA)를 브라우저로 실제 실행해 추출 · 실패 시 정적 2원으로 폴백
옵션 `pii_mask`	호출	+ 5원	본문 자동 개인정보 마스킹
옵션 `dlp_grade`	호출	+ 20원	본문 자동 기밀 등급·유형 분류
옵션 `respect_robots`	—	무료	robots.txt 준수 강제 + 크롤링 감사로그

월 구독 vs 종량 ₩2 — 월 구독제 크롤러는 안 써도 매달 청구되지만, 코어핀은 쓴 페이지 × ₩2, 성공분만이에요. 무료 한도로 먼저 테스트하고, 그 이상은 선불 충전 또는 후불 청구(대시보드에서 한도 조정) 중에 골라요. 자세한 단가는 API 문서에서 확인하세요.

# 주소만 던지면 본문을 깨끗하게 — 출력 형식 + 개인정보 마스킹 한 호출에
curl -X POST https://api.corepin.ai/v1/crawl/scrape \
  -H "Authorization: Bearer $COREPIN_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://ko.wikipedia.org/wiki/삼성전자",
       "output_format": "markdown",
       "pii_mask": true,
       "respect_robots": true}'

# output_format: "markdown" | "json" | "html" | "text"

사내망 설치 · 완전 에어갭

바깥 인터넷이 막힌 사내망 환경에는 직접 설치하는 패키지도 있어요.
같은 API·같은 출력을 고객사 안에 그대로.

사내망 설치 문의하기 →

Corepin Crawl

복잡한 한국 웹을,
AI가 이해하는
가장 깨끗한 형태로.

회원가입 즉시 시작. 성공한 페이지만 2원, 안 쓰면 0원.
단 하나의 한국형 AI 웹 크롤러를 지금 써보세요.

API 키 받기 → API 문서

복잡한 한국 웹사이트를, AI가 완벽히 이해하는 형태로.

원본 HTML을 그대로 LLM에 넣으면,광고·메뉴·깨진 글자가 답을 흔들어요.

주소 하나로,AI가 바로 읽는 데이터까지 네 단계.

그냥 크롤러가 아니라,한국 웹을 아는 LLM용 크롤러예요.