🔤

텍스트 인코딩 감지기

브라우저에서 동작하는 인코딩 감지기로, 예제 불러오기·변환 팁·16개 언어 문서를 제공합니다.

텍스트 입력

문자 인코딩이란

문자 인코딩은 컴퓨터 저장 및 전송을 위해 문자를 이진 값에 매핑하는 시스템입니다. 다양한 인코딩은 서로 다른 매핑을 사용합니다: ASCII는 7비트(128문자, 영어만), ISO-8859-1(Latin-1)은 8비트로 확장(256문자, 서유럽), 간체 중국어용 GB2312/GBK, 번체 중국어용 Big5, 일본어용 Shift-JIS, UTF-8(1-4바이트, 범용, ASCII와 하위 호환), UTF-16(2 또는 4바이트). 깨진 문자(�와 같은 문자깨짐 현상)는 한 문자셋으로 인코딩된 텍스트를 다른 문자셋으로 디코딩할 때 발생합니다. BOM(Byte 순서 Mark)은 파일 시작 부분의 선택적 서명으로 인코딩을 식별합니다. 적절한 인코딩 감지는 데이터 손상을 방지하고 시스템과 언어 간에 정확한 텍스트 표시를 보장합니다.

기능

🔍

스마트 감지

통계 분석, BOM 감지, 문자 패턴 인식을 사용하여 텍스트 인코딩을 자동으로 감지합니다. UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, ISO-8859 시리즈, Windows-1252를 신뢰도 점수와 함께 지원
🔄

문자 집합 변환

지원되는 모든 인코딩 간 텍스트 변환: UTF-8 ↔ GBK ↔ Big5, 깨진 문자 문제 해결, BOM 마커 추가 또는 제거, 대리 쌍 및 결합 문자를 올바르게 처리
🩺

인코딩 진단

인코딩 문제 식별: 잘못된 바이트 시퀀스, 동일 파일 내 혼합 인코딩, BOM 불일치, 대리 쌍 오류와 함께 수정 제안 및 상세한 오류 보고서 제공
📦

일괄 처리

인코딩 감지로 여러 파일을 동시에 처리하고, 전체 디렉토리를 변환하며, 파일 구조를 보존하고, 통계 및 오류 로그가 포함된 변환 보고서를 생성
🎯

활용 사례

🏢

레거시 시스템 마이그레이션

금융·ERP·공공 시스템을 현대화할 때 GBK/Big5 아카이브를 일괄적으로 UTF-8로 변환합니다.
🌐

글로벌 콘텐츠 QA

콘텐츠/SEO 팀이 다국어 사이트·피드·이메일이 올바른 문자셋을 선언하는지 확인해 문자 깨짐을 방지합니다.
🧾

데이터 수집 파이프라인

파트너 로그, CSV, ETL 입력의 인코딩을 데이터 웨어하우스나 Spark에 투입하기 전에 검증합니다.
🛠️

개발자 디버깅

Git diff나 DB 내보내기를 검토하며 BOM 충돌 또는 혼합 인코딩을 빠르게 찾아냅니다.

📋사용 가이드

1️⃣
1단계: 텍스트 입력
파일을 업로드하거나 텍스트를 붙여넣어 인코딩을 감지합니다
2️⃣
2단계: 인코딩 확인
감지된 인코딩과 신뢰도 점수를 검토합니다
3️⃣
3단계: 변환 또는 복사
필요한 경우 다른 인코딩으로 변환하거나 결과를 복사합니다

📚기술 소개

🔍인코딩 감지 알고리즘

텍스트 인코딩 감지는 통계 분석, BOM(Byte 순서 Mark) 감지, 문자 패턴 인식을 결합합니다. 도구는 바이트 시퀀스 빈도 분석을 수행하고(UTF-8은 특정 멀티바이트 패턴을 가짐), BOM 서명을 확인하고(UTF-8: EF BB BF, UTF-16 LE: FF FE, UTF-16 BE: FE FF), 언어별 문자 범위를 평가합니다(중국어: GB2312/GBK/Big5, 일본어: Shift-JIS, 한국어: EUC-KR). 각 가능한 인코딩에 대해 신뢰도 점수가 계산되며, chardet, iconv-lite, jschardet과 같은 라이브러리가 머신러닝 기반 감지를 제공합니다.

🔄문자 집합 변환

인코딩 변환은 소스 인코딩에서 유니코드로의 디코딩, 그런 다음 대상 인코딩으로의 인코딩을 포함합니다. 프로세스는 여러 단계를 처리합니다: 바이트 시퀀스 유효성 검사(잘못된 바이트는 대체 문자로 대체), 유니코드 정규화(NFC, NFD, NFKC, NFKD), 대리 쌍 처리(UTF-16 0xD800-0xDFFF 범위), 결합 문자 보존(악센트, 분음 부호), 양방향 텍스트 처리(아랍어, 히브리어). TextEncoder/TextDecoder API(브라우저) 또는 iconv/iconv-lite(노드.js)가 사용되며, 손실 없는 변환을 보장하기 위해 왕복 테스트가 수행됩니다.

🩺인코딩 문제 진단

일반적인 인코딩 문제에는 깨진 문자(한 인코딩으로 인코딩되고 다른 인코딩으로 디코딩된 텍스트, 예: UTF-8을 ISO-8859-1로 읽기), 혼합 인코딩(동일 파일 내 여러 인코딩), BOM 불일치(BOM이 실제 인코딩과 일치하지 않음), 대리 쌍 오류(UTF-16 대리 쌍 손상)가 포함됩니다. 진단 도구는 잘못된 바이트 시퀀스를 식별하고, 교체 문자(U+FFFD �)를 감지하며, 인코딩 경계를 분석하고, 수정 제안을 제공합니다: 올바른 소스 인코딩으로 재디코딩, UTF-8로 변환(범용 솔루션), BOM 정리 또는 추가, 파일 인코딩 메타데이터 업데이트.

📚인코딩 표준 및 호환성

주요 인코딩 표준에는 ASCII(7비트, 0-127, 영어 기본), ISO-8859 시리즈(8비트, 단일 바이트, 지역별: Latin-1/서유럽, Latin-2/중앙 유럽), Windows 코드 페이지(Windows-1252, Windows-1251), 동아시아 인코딩(GB2312: 간체 중국어 6,763자, GBK: GB2312 확장 21,000+자, Big5: 번체 중국어 13,000+자, Shift-JIS: 일본어 카타카나+한자), 유니코드(UTF-8: 1-4바이트 가변 길이, UTF-16: 2-4바이트 대리 쌍, UTF-32: 4바이트 고정)가 포함됩니다. UTF-8은 웹용으로 권장되며(ASCII 호환, 효율적, 범용), HTML/XML <meta charset="utf-8"> 선언을 사용하고, HTTP 콘텐츠 유형 헤더를 지정하며, 일관된 인코딩(데이터베이스 ↔ 애플리케이션 ↔ 브라우저)을 유지하여 호환성을 보장합니다.

자주 묻는 질문

이 도구는 무엇을 위한 것인가요?

텍스트 인코딩 감지기는 텍스트 파일이나 내용의 문자 인코딩을 자동으로 식별하고 다양한 인코딩 간 변환을 수행하는 도구입니다. UTF-8, GBK, GB2312, Big5, Shift-JIS, ISO-8859, Windows 코드 페이지 등을 지원하며, BOM 감지, 깨진 문자 복구, 인코딩 진단 기능을 제공합니다.
💬

이 도구를 어떻게 사용하나요?

파일을 업로드하거나 텍스트를 붙여넣습니다. 도구가 자동으로 인코딩을 감지하고 신뢰도 점수를 표시합니다. 필요한 경우 대상 인코딩을 선택하여 변환하거나, 감지된 결과를 검토하여 올바른 인코딩으로 텍스트를 처리할 수 있습니다.
🔍

이 도구는 무료인가요?

네, 완전히 무료입니다. 등록이나 결제 없이 즉시 사용할 수 있으며, 파일 크기나 변환 횟수에 제한이 없습니다. 모든 처리는 브라우저에서 로컬로 수행되므로 데이터 프라이버시가 보장됩니다.
💡

깨진 문자를 어떻게 복구하나요?

깨진 문자(�, ��, 등)는 잘못된 인코딩으로 디코딩된 결과입니다. 복구하려면: 1) 원본 바이트 시퀀스를 얻고, 2) 올바른 소스 인코딩을 식별하고(다양한 인코딩 시도), 3) 올바른 인코딩으로 재디코딩합니다. 일반적인 경우는 UTF-8을 ISO-8859-1로 읽거나 GBK를 UTF-8로 읽는 것입니다.
📚

언제 이 도구를 사용해야 하나요?

파일의 인코딩이 불확실할 때, 깨진 텍스트를 복구해야 할 때, 다양한 시스템 간 파일을 변환할 때, 웹 애플리케이션의 인코딩 문제를 디버깅할 때, 레거시 시스템 데이터를 현대 UTF-8 형식으로 마이그레이션할 때 사용하세요. 데이터 손상을 방지하고 올바른 텍스트 표시를 보장합니다.

💡사용 방법

🔍

인코딩 감지하기

파일을 업로드하거나 텍스트를 붙여넣습니다. 도구가 자동으로 인코딩을 분석하고 신뢰도 점수와 함께 가능한 인코딩을 표시합니다. UTF-8(BOM 있음/없음), UTF-16, GB 계열, Big5, Shift-JIS 등을 지원합니다.
🔄

인코딩 변환하기

소스 인코딩을 선택하고(자동 감지 또는 수동 지정) 대상 인코딩을 선택한 후 '변환' 버튼을 클릭합니다. 변환된 텍스트를 미리보고 복사하거나 파일로 다운로드할 수 있습니다.
🩺

깨진 문자 복구하기

깨진 텍스트(�, ��, 등)가 보이면 원본 바이트를 올바른 인코딩으로 재해석해야 합니다. 일반적인 경우: UTF-8을 ISO-8859-1로 읽기, GBK를 UTF-8로 읽기. 다양한 소스 인코딩을 시도하여 올바른 것을 찾으세요.
📝

BOM 관리하기

BOM(Byte 순서 Mark)은 파일 시작 부분의 선택적 바이트 시퀀스입니다. UTF-8 BOM(EF BB BF)은 일부 편집기에서 문제를 일으킬 수 있습니다. 필요에 따라 BOM을 추가하거나 제거하세요. UTF-8은 일반적으로 BOM이 필요하지 않지만 UTF-16은 바이트 순서(LE/BE)에 필요합니다.

🔗관련 문서

📖MDN - TextEncoder/TextDecoder API-브라우저 문자 인코딩 API 참조 문서
🎓RFC 3629 - UTF-8 인코딩 표준-UTF-8 인코딩의 공식 IETF 표준
💻IANA 문자 집합 레지스트리-공식 문자 인코딩 이름 및 별칭 레지스트리
📚iconv-lite - 노드.js 인코딩 변환-순수 JavaScript 문자 인코딩 변환 라이브러리

User Comments

0 / 2000
Loading...