Post

문자 데이터의 표현

문자 데이터의 표현

문자 집합

아스키 코드 (ASCII)

  • 알파벳, 아라비아 숫자, 일부 특수 문자 및 제어 문자
  • 8비트로 하나의 문자 표현

    8비트 중 1비트는 오류 검출을 위한 패리티 비트 (parity bit)이다.
    따라서, 실제 문자 표현을 위해서는 7비트를 사용하기 때문에 $2^7$개 즉, 0번 ~ 127번까지 총 128개의 문자를 표현한다.

  • 한글 등 영어를 제외한 각 나라의 언어 표현 불가

EUC-KR

  • 완성형 인코딩 방식으로 한글 표현

    완성형 인코딩은 가, 각 등 한 글자에 코드룰 부여하는 방식이다.
    초성, 중성, 종성을 조합하는 조합형 인코딩 방식도 있지만, 거의 사용하지 않는다.

  • 16비트로 한 글자 표현
  • 한글 2350자 표현 가능

    다, 케 등 표현 불가능한 글자 존재한다.


유니코드 (Unicode)

  • 모든 언어와 특수문자까지 표현 가능한 문자 집합
  • utf-8, utf-16, utf-32, … 등의 인코딩 방식 존재

인코딩 (encoding)

  • 문자를 0과 1로 이루어진 문자 코드로 변환하는 과정

디코딩 (decoding)

  • 0과 1로 표현된 문자 코드를 문자로 변환하는 과정
This post is licensed under CC BY 4.0 by the author.