Character Set
character set이란 문자의 집합입니다. 단 이때 각문자에는 숫자코드가 부여됩니다. 그렇지만 코드숫자가 컴퓨터상에서 어떻게 표현되는 가는 정해지지 않은 상태라고 보면 됩니다.
Encoding
encoding이란 character set에 좀더 제약이 강해서 컴퓨터상에서 어떻게 표현 되는가까지를 정해진 상태의 문자의 집합입니다. 같은 그림이라도 압축방법에 따라 gif, png, bmp등등의 파일형식이 있듯이 code set과 encoding의 차이를 이해할 수도 있을 겁니다.
실제 예를 들면 완성형 한글인 KSC5601 codeset은 UNIX에서는 euc-kr이란 encoding으로 표현되고 DOS에서는 codeset 949란 encoding으로 표현됩니다.
WINDOW - KSC5601(완성형)
UNIX - EUC-KR
DOS - codeset 949
오래전에는 character set과 character encoding은 같은 말이었습니다. 그러나 언젠가 부터 시스템의 종류도 많아지고 다국어시스템의 지원등등 여러 여건들에 의해 character set에서 부터 character encoding이 분리된 것이죠.
Code Set
code set이란 말은 어쩔 때는 character set의 의미로 어쩔 때는 encoding의 의미로 사용됩니다. 그렇다 보니 문맥을 보고서 적당히 해석해서 사용을 해야 합니다.
CODEPAGE
codepage는 IBM에서 사용하던(?) 말로 encoding과 같은 것으로 보면됩니다. MICROSOFT에서 DOS를 만들때 IBM과 같이 만들었기 때문에 MICROSOFT에서는 codepage라는 말을 많이 사용합니다.
l10n 과 i18n 용어 (0) | 2018.09.04 |
---|---|
MBCS, SBCS, DBCS 차이 (0) | 2018.09.04 |
문자셋과 코드페이지 (0) | 2018.09.04 |
ASCII CODE 표 (0) | 2018.09.04 |
ASCII 제어 문자표 (0) | 2018.09.04 |
댓글 영역