복잡한 한국 웹사이트를,
AI가 완벽히 이해하는 형태로.
챗봇·RAG·에이전트에 웹사이트를 읽힐 때, 광고·메뉴·깨진 글자로 가득한 원본 HTML 대신
LLM이 바로 이해하는 깨끗한 Markdown·JSON으로 돌려드려요. 한글 인코딩 깨짐 자동 복원 +
사내 적재 전 안전 검사까지 한 호출에.
한 번 크롤하면 LLM·RAG·화면 어디에 넣든
원하는 형식으로 받아요
사이트마다 제각각인 문자셋·레이아웃에서
깨진 글자(□□□)를 자동으로 살려요
월 구독은 안 써도 매달 청구되지만,
코어핀은 성공한 페이지만 ₩2
원본 HTML을 그대로 LLM에 넣으면,
광고·메뉴·깨진 글자가 답을 흔들어요.
웹페이지의 HTML에는 본문 말고도 광고·내비게이션·사이드바·댓글·푸터·스크립트가 잔뜩 섞여 있어요. 이걸 그대로 모델에 넣으면 쓸데없는 토큰으로 비용이 새고, 정작 중요한 본문이 노이즈에 묻혀 답이 흔들려요. 게다가 한국 웹사이트는 인코딩·레이아웃·문자셋이 사이트마다 제각각이라, 일반 크롤러는 글자가 깨지거나(□□□) 본문을 아예 못 잡는 경우가 흔해요.
주소 하나로,
AI가 바로 읽는 데이터까지 네 단계.
크롤·인코딩 복원·형식 변환·안전 검사를 따로 붙일 필요 없이, 한 API 호출에 묶어 처리해요.
그냥 크롤러가 아니라,
한국 웹을 아는 LLM용 크롤러예요.
본문 추출부터 인코딩 복원, 형식 선택, 사내 적재 안전 검사, 첨부 처리, 합법 크롤링까지. 필요한 옵션만 한 줄씩 켜면 돼요.
LLM이 이해하는 깨끗한 본문
광고·내비게이션·사이드바·댓글·푸터를 걷어내고 본문·제목·표·목록 구조만 남겨요. 원본 HTML 대신 LLM 이 바로 먹을 수 있는 형태라 토큰이 줄고 답의 정확도가 올라가요.
출력 형식 선택 (MD·JSON·HTML·텍스트)
프롬프트에 바로 넣을 Markdown, 블록 구조가 필요한 RAG 파이프라인용 JSON, 화면에 그릴 HTML, 순수 텍스트 중에서 호출 한 줄로 골라 받아요.
한국 사이트 정확 추출 + 인코딩 복원
사이트마다 제각각인 한국 웹의 문자셋(EUC-KR·CP949)·레이아웃을 알아서 처리해 깨진 글자(□□□)를 자동 복원하고 본문만 정확히 잡아요. 일반 크롤러가 한국 사이트에서 자주 깨지는 지점을 코어핀은 그냥 넘어가요.
사이트 URL 발견 (크롤 전 미리보기)
sitemap + 링크로 사이트의 페이지 주소를 빠르게 훑어 목록으로. 풀크롤 전에 무엇이 긁힐지 미리 확인해요.
사내 적재 전 안전 검사 (4종)
긁어온 내용에 개인정보가 있으면 자동 마스킹, 기밀 등급 분류, 유해발화·정신건강 위험 신호까지 한 호출에 검사해요. 외부에서 가져온 데이터를 사내 AI 에 안심하고 넣을 수 있어요.
첨부 문서까지 한 번에 (HWP·PDF 등)
페이지에 붙은 .hwp·.pdf·.docx·.xlsx 첨부가 있으면 자동으로 받아 본문으로 풀어 함께 돌려줘요. 한컴 한글(HWP)까지 그대로 처리돼요.
합법 크롤링 (robots 준수·감사로그)
robots.txt 규칙을 지키고, 어떤 키가 어떤 도메인을 언제 크롤했는지 기록을 남겨요. 내부망·메타데이터 주소는 보안 정책으로 차단해요.
직접 한국 사이트 주소를 넣어보세요.
그 자리에서, 원하는 형식으로.
아래에 주소를 넣고 「크롤하기」를 누르면 운영 중인 크롤러가 본문을 정리해 돌려줘요. 출력 형식(Markdown·HTML·JSON)은 추가 호출 없이 그 자리에서 전환되고, 「개인정보 마스킹」을 켜면 가려진 부분이 이름 식으로 강조돼요.
URL 하나로 사이트 전체를,
스크립트로 그려지는 페이지까지.
특정 페이지 몇 개가 아니라 사이트를 통째로 RAG에 적재하거나, 자바스크립트로만 그려지는 요즘 사이트(SPA)도 그대로 읽어야 할 때가 있어요. 둘 다 옵션 한 줄이에요.
외부에서 긁은 데이터,
사내 AI에 넣기 전 한 호출로 검사해요.
크롤한 내용을 그대로 사내 RAG·챗봇에 넣으면 개인정보·기밀이 새거나, 유해·위험 콘텐츠가 섞일 수 있어요. 코어핀은 크롤과 동시에 네 가지 안전 검사를 옵션 한 줄로 묶어요. 개인정보 보호와 사내 보안을 같은 호출에서 끝내요.
한국 사이트에선,
코어핀이 압도적으로 잘해요.
일반 크롤러는 한국 웹의 인코딩·레이아웃 앞에서 글자가 깨지고 본문을 놓쳐요. 코어핀은 한국 웹에 맞춰 본문을 정확히 뽑고, LLM이 바로 먹는 형식·사내 적재 안전 검사·첨부 처리·종량 가격까지 한 제품에 묶었어요.
| 항목 | 일반 크롤러 | Corepin Crawl |
|---|---|---|
| 한국 사이트 본문 추출 | 자주 깨지거나 노이즈 섞임 | 한국 웹 맞춤 — 본문만 정확히✓ 우위 |
| 한글 인코딩(EUC-KR 등) | 깨진 글자(□□□) 빈발 | 자동 감지·복원✓ 우위 |
| LLM-ready 출력 | 원본 HTML 위주 | MD·JSON·HTML·텍스트 선택✓ 우위 |
| 사내 적재 안전 검사 | 없음 (별도 구축) | 개인정보·기밀·유해·정신건강 한 호출✓ 우위 |
| 첨부 문서(HWP 등) | 처리 못 함 | 본문과 함께 자동 처리✓ 우위 |
| 가격 | 월 구독 (안 써도 청구) | 종량 ₩2/페이지 (성공분만·선불·후불)✓ 우위 |
페이지당 2원. 성공한 페이지만 과금해요.
쓴 만큼만 내는 종량제예요. 실패한 페이지는 한 푼도 안 받아요. 선불·후불 모두 지원하고, 옵션은 기본가에 더해져요.
| 엔드포인트 · 옵션 | 단위 | 가격 | 설명 |
|---|---|---|---|
POST /v1/crawl/scrape | 페이지 | 2원 | 본문 스크랩 — 성공한 페이지만 과금 |
POST /v1/crawl/map | 사이트 | 2원 | 사이트에 어떤 페이지들이 있는지 주소 목록 먼저 훑어보기 (풀크롤 전 미리보기) |
POST /v1/crawl/crawl | 페이지 | 2원 | 사이트 통째로 비동기 크롤 잡 (RAG 적재 · 성공한 페이지만) |
옵션 parse_attachments | 첨부 문서 | + 2원 | .hwp·.pdf·.docx·.xlsx 첨부가 있으면 함께 파싱 (페이지당) |
옵션 render (JS 렌더) | 렌더 페이지 | 5원 | 스크립트로만 그려지는 페이지(SPA)를 브라우저로 실제 실행해 추출 · 실패 시 정적 2원으로 폴백 |
옵션 pii_mask | 호출 | + 5원 | 본문 자동 개인정보 마스킹 |
옵션 dlp_grade | 호출 | + 20원 | 본문 자동 기밀 등급·유형 분류 |
옵션 respect_robots | — | 무료 | robots.txt 준수 강제 + 크롤링 감사로그 |
# 주소만 던지면 본문을 깨끗하게 — 출력 형식 + 개인정보 마스킹 한 호출에 curl -X POST https://api.corepin.ai/v1/crawl/scrape \ -H "Authorization: Bearer $COREPIN_API_KEY" \ -H "Content-Type: application/json" \ -d '{"url": "https://ko.wikipedia.org/wiki/삼성전자", "output_format": "markdown", "pii_mask": true, "respect_robots": true}' # output_format: "markdown" | "json" | "html" | "text"
복잡한 한국 웹을,
AI가 이해하는
가장 깨끗한 형태로.
회원가입 즉시 시작. 성공한 페이지만 2원, 안 쓰면 0원.
단 하나의 한국형 AI 웹 크롤러를 지금 써보세요.