브라우저에서 동작하는 인코딩 감지기로, 예제 불러오기·변환 팁·16개 언어 문서를 제공합니다.
Features
- 스마트 감지: 통계 분석, BOM 감지, 문자 패턴 인식을 사용하여 텍스트 인코딩을 자동으로 감지합니다. UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, ISO-8859 시리즈, Windows-1252를 신뢰도 점수와 함께 지원
- 문자 집합 변환: 지원되는 모든 인코딩 간 텍스트 변환: UTF-8 ↔ GBK ↔ Big5, 깨진 문자 문제 해결, BOM 마커 추가 또는 제거, 대리 쌍 및 결합 문자를 올바르게 처리
- 인코딩 진단: 인코딩 문제 식별: 잘못된 바이트 시퀀스, 동일 파일 내 혼합 인코딩, BOM 불일치, 대리 쌍 오류와 함께 수정 제안 및 상세한 오류 보고서 제공
- 일괄 처리: 인코딩 감지로 여러 파일을 동시에 처리하고, 전체 디렉토리를 변환하며, 파일 구조를 보존하고, 통계 및 오류 로그가 포함된 변환 보고서를 생성
Use Cases
- 레거시 시스템 마이그레이션: 금융·ERP·공공 시스템을 현대화할 때 GBK/Big5 아카이브를 일괄적으로 UTF-8로 변환합니다.
- 글로벌 콘텐츠 QA: 콘텐츠/SEO 팀이 다국어 사이트·피드·이메일이 올바른 문자셋을 선언하는지 확인해 문자 깨짐을 방지합니다.
- 데이터 수집 파이프라인: 파트너 로그, CSV, ETL 입력의 인코딩을 데이터 웨어하우스나 Spark에 투입하기 전에 검증합니다.
- 개발자 디버깅: Git diff나 DB 내보내기를 검토하며 BOM 충돌 또는 혼합 인코딩을 빠르게 찾아냅니다.
Usage Guide
- 1단계: 텍스트 입력: 파일을 업로드하거나 텍스트를 붙여넣어 인코딩을 감지합니다
- 2단계: 인코딩 확인: 감지된 인코딩과 신뢰도 점수를 검토합니다
- 3단계: 변환 또는 복사: 필요한 경우 다른 인코딩으로 변환하거나 결과를 복사합니다
Technical Details
인코딩 감지 알고리즘
텍스트 인코딩 감지는 통계 분석, BOM(Byte 순서 Mark) 감지, 문자 패턴 인식을 결합합니다. 도구는 바이트 시퀀스 빈도 분석을 수행하고(UTF-8은 특정 멀티바이트 패턴을 가짐), BOM 서명을 확인하고(UTF-8: EF BB BF, UTF-16 LE: FF FE, UTF-16 BE: FE FF), 언어별 문자 범위를 평가합니다(중국어: GB2312/GBK/Big5, 일본어: Shift-JIS, 한국어: EUC-KR). 각 가능한 인코딩에 대해 신뢰도 점수가 계산되며, chardet, iconv-lite, jschardet과 같은 라이브러리가 머신러닝 기반 감지를 제공합니다.
문자 집합 변환
인코딩 변환은 소스 인코딩에서 유니코드로의 디코딩, 그런 다음 대상 인코딩으로의 인코딩을 포함합니다. 프로세스는 여러 단계를 처리합니다: 바이트 시퀀스 유효성 검사(잘못된 바이트는 대체 문자로 대체), 유니코드 정규화(NFC, NFD, NFKC, NFKD), 대리 쌍 처리(UTF-16 0xD800-0xDFFF 범위), 결합 문자 보존(악센트, 분음 부호), 양방향 텍스트 처리(아랍어, 히브리어). TextEncoder/TextDecoder API(브라우저) 또는 iconv/iconv-lite(노드.js)가 사용되며, 손실 없는 변환을 보장하기 위해 왕복 테스트가 수행됩니다.
인코딩 문제 진단
일반적인 인코딩 문제에는 깨진 문자(한 인코딩으로 인코딩되고 다른 인코딩으로 디코딩된 텍스트, 예: UTF-8을 ISO-8859-1로 읽기), 혼합 인코딩(동일 파일 내 여러 인코딩), BOM 불일치(BOM이 실제 인코딩과 일치하지 않음), 대리 쌍 오류(UTF-16 대리 쌍 손상)가 포함됩니다. 진단 도구는 잘못된 바이트 시퀀스를 식별하고, 교체 문자(U+FFFD �)를 감지하며, 인코딩 경계를 분석하고, 수정 제안을 제공합니다: 올바른 소스 인코딩으로 재디코딩, UTF-8로 변환(범용 솔루션), BOM 정리 또는 추가, 파일 인코딩 메타데이터 업데이트.
Frequently Asked Questions
- 이 도구는 무엇을 위한 것인가요?
- 텍스트 인코딩 감지기는 텍스트 파일이나 내용의 문자 인코딩을 자동으로 식별하고 다양한 인코딩 간 변환을 수행하는 도구입니다. UTF-8, GBK, GB2312, Big5, Shift-JIS, ISO-8859, Windows 코드 페이지 등을 지원하며, BOM 감지, 깨진 문자 복구, 인코딩 진단 기능을 제공합니다.
- 이 도구를 어떻게 사용하나요?
- 파일을 업로드하거나 텍스트를 붙여넣습니다. 도구가 자동으로 인코딩을 감지하고 신뢰도 점수를 표시합니다. 필요한 경우 대상 인코딩을 선택하여 변환하거나, 감지된 결과를 검토하여 올바른 인코딩으로 텍스트를 처리할 수 있습니다.
- 이 도구는 무료인가요?
- 네, 완전히 무료입니다. 등록이나 결제 없이 즉시 사용할 수 있으며, 파일 크기나 변환 횟수에 제한이 없습니다. 모든 처리는 브라우저에서 로컬로 수행되므로 데이터 프라이버시가 보장됩니다.
- 깨진 문자를 어떻게 복구하나요?
- 깨진 문자(�, ��, 등)는 잘못된 인코딩으로 디코딩된 결과입니다. 복구하려면: 1) 원본 바이트 시퀀스를 얻고, 2) 올바른 소스 인코딩을 식별하고(다양한 인코딩 시도), 3) 올바른 인코딩으로 재디코딩합니다. 일반적인 경우는 UTF-8을 ISO-8859-1로 읽거나 GBK를 UTF-8로 읽는 것입니다.
- 언제 이 도구를 사용해야 하나요?
- 파일의 인코딩이 불확실할 때, 깨진 텍스트를 복구해야 할 때, 다양한 시스템 간 파일을 변환할 때, 웹 애플리케이션의 인코딩 문제를 디버깅할 때, 레거시 시스템 데이터를 현대 UTF-8 형식으로 마이그레이션할 때 사용하세요. 데이터 손상을 방지하고 올바른 텍스트 표시를 보장합니다.
Related Documentation
- MDN - TextEncoder/TextDecoder API - 브라우저 문자 인코딩 API 참조 문서
- RFC 3629 - UTF-8 인코딩 표준 - UTF-8 인코딩의 공식 IETF 표준
- Unicode 표준 - Unicode 컨소시엄 공식 표준 문서
- IANA 문자 집합 레지스트리 - 공식 문자 인코딩 이름 및 별칭 레지스트리
- iconv-lite - 노드.js 인코딩 변환 - 순수 JavaScript 문자 인코딩 변환 라이브러리