3.11. Unicode/ISO 10646

Unicode (Universal Multiple Octet Coded Character Set), Unicode 國際標準組織於1984年4月成立 IOS / IEC JTC1 / SC2 / WG2工作組,針對各國文字、符號進行統一性編碼,1991年美國跨國公司成立Unicode Consortium,並於1991年10月與WG2達成協議,採用同一編碼字集 。 目前Unicode是採用16 bit之編碼架構,其字集內容與ISO 10646之 BMP(Basic Multilingual Plane)相同。

Unicode (Unicode Consortium)並於1992年6月通過 DIS(Draft International Standard),目前版本為Unicode v2.0 於1996年公佈, 內容包含符號6811、漢字20902、韓文拼音11172、 造字區6400,保留20249共65534個碼位 。

目前碼位空間為 U+0000 到 U+10FFFF,共有 1,114,112 個空間。

漢字計算大略如下:

Big5碼 = 13053 繁體漢字, GB2312碼 = 6763 簡體漢字, CJK = 20902 簡繁漢字 = Unicode 1.0 = Big5 + GB2312, GBK = CJK 20902 + 101 漢字造字 = 21003 漢字, Unicode 3.0 = CJK 20902 + Unicode Ext-A 6582 漢字 = 27484 漢字, GB18030 = GBK + Unicode Ext-A 漢字, Unicode 3.1 = Unicode 3.0 + Unicode Ext-B 42711 漢字 = 70205 漢字 = Super CJK 1.4, Unicode Ext-C 24365 漢字.

目前最適合的字型是 ming_uni.ttf, 為 Unicode 3.0 加上四千多香港造字, 由於 Unicode Ext-A 已收錄兩千多個香港造字, 故該字體有 27484 + 千餘個香港字 = 29000++ 漢字.

當國內的政府不夠積極的時候, 許多人開始傾向於使用 UTF-8/UCS-2 來作為交換碼,甚至是當做基本的內碼。 畢竟他們能夠顯示的字元遠遠比常用的 Big5 還要多,也同時解決了多國語言共存的問題。 目前如果要使用 zh_TW.UTF-8, 可以安裝 misc/utf8locale

WWW: ISO 10646 HK

WWW: Various Versions of CJK

WWW: Unicode Home Page

WWW: Unicode 與 ISO10646 上 by 曾士熊

WWW: Unicode 與 ISO10646 下 by 曾士熊

WWW: UTF-8 and Unicode FAQ

WWW: UTF-8 and Unicode FAQ 中譯

WWW: Joel on Unicode

WWW: Joel on Unicode 中譯