상세 컨텐츠

본문 제목

유니코드 등장 이유

멀티미디어/폰트(Font)

by cepiloth 2018. 12. 4. 22:58

본문

728x90
반응형

유니코드 등장 이유


 영문권에서 i18n을 위해서 만든 character set입니다. 유니코드가 나오기 이전에는 i18n system을 만들기가 어려웠습니다. 왜냐하면 여러언어를 포함하는 하나의 단일 character set이 없었기 때문입니다. 예전에는 여러 character set을 포함하는 가상의 character set을 각 소프트웨어회사마다 내부적으로 만들어서 사용하였습니다. 

상기 같은 이유료 호환성이 배제 되었습니다. 그래서 유니코드 콘소시엄을 결성하여 모두가 동의하는 문자셋을 만들게 되었습니다. 이것이 바로 유니코드입니다. 유니코드에서 정의하는 character set은 UCS2와 UCS4가 있습니다.

유니코드 사용 이유

 보통 일반 프로그램을 개발할 때는 UCS2를 기반으로 만들게 됩니다. UCS4는 산스크리트어나 옛 이집트 고어와 같은 것까지 포함하는 것으로 알고 있습니다. 그러므로 보통 유니코드라고 말할 때는 UCS2를 지칭합니다. UCS2/UCS4는 character set이면서 encoding으로도 존재합니다. 

이 encoding의 특징은 UCS2경우에는 영문을 포함한 모든 문자가 2 바이트로 표현되고 UCS4경우에는 4 바이트로 표현됩니다. 이렇게 고정된 길이의 encoding을 쓰면 장점은 문자열내의 특정 문자를 index로 쉽게 접근할 수 있다는 것입니다. 

MBCS처럼 문자마다 길이가 다른 경우에는 n번째 문자를 접근하려면 문자열의 처음부터 검색을 해야 한다는 점을 생각한다면 문자열처리에 잇점이 있겠지요. 

 그러나 UCS2 encoding에 장점만 있는 것은 아닙니다. 문제는 기존의 ASCII기반으로 된 모든 소프트웨어와 데이타베이스를 UCS2로 업그레이드해야만 UCS2와 호환 됩니다. Y2K보다 더 황당한 비용이 발생하겠지요. 그래서 이러한 단점을 보완하기 위한 encoding이 UTF7, UTF8입니다. 

 이 encoding들의 특징은 기존 MBCS처럼 한문자가 1바이트에서 여러바이트를 가질 수 있습니다. 이 경우 encoding의 디자인이 기존 ascii파일은 utf8 encoding을 하더라도 차이가 없도록 되어 있습니다. 즉 ascii파일은 그냥 utf8 encoding이 되어있다고 가정해도 상관없는 겁니다. 

 그래서 실제적으로 프로그램이 유니코드를 지원한다고 하면 내부적으로는 UCS2/UCS4 encoding을 사용하고 파일/데이타베이스 같은 외부자원에 대해서는 UTF7/UTF8과 같은 encoding을 사용합니다. 즉 혼용해서 사용하는 겁니다. 


ko.wikipedia.org/wiki/%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C

 

유니코드 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 유니의 음반에 대해서는 U;Nee Code 문서를 참조하십시오. 유니코드(Unicode)는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업

ko.wikipedia.org

 유니코드(Unicode)는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준이며, 유니코드 협회(Unicode Consortium)가 제정한다. 이 표준에는 ISO 10646 문자 집합, 문자 인코딩, 문자 정보 데이터베이스, 문자들을 다루기 위한 알고리즘 등을 포함하고 있다.

 유니코드의 목적은 현존하는 문자 인코딩 방법들을 모두 유니코드로 교체하려는 것이다. 기존의 인코딩들은 그 규모나 범위 면에서 한정되어 있고, 다국어 환경에서는 서로 호환되지 않는 문제점이 있었다. 유니코드가 다양한 문자 집합들을 통합하는 데 성공하면서 유니코드는 컴퓨터 소프트웨어의 국제화와 지역화에 널리 사용되게 되었으며, 비교적 최근의 기술인 XML, 자바, 그리고 최신 운영 체제 등에서도 지원하고 있다.

유니코드에서 한국어 발음을 나타날 때는 예일 로마자 표기법의 변형인 ISO/TR 11941을 사용하고 있다.

728x90
반응형

'멀티미디어 > 폰트(Font)' 카테고리의 다른 글

중국어 간체와 번체  (0) 2018.12.04
Font Reference Book  (0) 2018.09.04
l10n 과 i18n 용어  (0) 2018.09.04
MBCS, SBCS, DBCS 차이  (0) 2018.09.04
character set, code set, character encoding, codepage 용어  (0) 2018.09.04

관련글 더보기

댓글 영역