문자 데이터의 표현
문자 데이터의 표현
문자 집합
아스키 코드 (ASCII)
- 알파벳, 아라비아 숫자, 일부 특수 문자 및 제어 문자
- 8비트로 하나의 문자 표현
8비트 중 1비트는 오류 검출을 위한 패리티 비트 (parity bit)이다.
따라서, 실제 문자 표현을 위해서는 7비트를 사용하기 때문에 $2^7$개 즉, 0번 ~ 127번까지 총 128개의 문자를 표현한다. - 한글 등 영어를 제외한 각 나라의 언어 표현 불가
EUC-KR
- 완성형 인코딩 방식으로 한글 표현
완성형 인코딩은 가, 각 등 한 글자에 코드룰 부여하는 방식이다.
초성, 중성, 종성을 조합하는 조합형 인코딩 방식도 있지만, 거의 사용하지 않는다. - 16비트로 한 글자 표현
- 한글 2350자 표현 가능
설렜다, 케잌 등 표현 불가능한 글자 존재한다.
유니코드 (Unicode)
- 모든 언어와 특수문자까지 표현 가능한 문자 집합
- utf-8, utf-16, utf-32, … 등의 인코딩 방식 존재
인코딩 (encoding)
- 문자를 0과 1로 이루어진 문자 코드로 변환하는 과정
디코딩 (decoding)
- 0과 1로 표현된 문자 코드를 문자로 변환하는 과정
This post is licensed under CC BY 4.0 by the author.