データベース

31. UTF-8 の文字コード表

UNICODE には UTF-8UTF-16 の2種類があるが UTF-16 は漢字コードは
EBCDIC と同じように 2バイトであるがアルファベットや数字もまた2バイトであるため
全体として冗長となってしまう。
これに対して UTF-8 であればアルファベットや数字は従来の ASCII コードと同じであり、
しかも 1バイトである。
ただし漢字は 3バイトとなる。
そこでビジネスでは UNICODE と言えば、圧倒的に UTF-8 を採用するケースが多い。

System i で UNICODE つまり UTF-8 を使用したいという目的は多言語への対応、
特に中国語や韓国語へ対応したいという目的がある。
しかしインターネットで日本人用に公開されている UTF-8 の文字コード表は、
個人がどこかのサイトの文字コード表を丸写しにしたものが大半であって
文字の部分は日本語の漢字しか表記されていない場合が多い。
これでは中国語の文字コードを探す、という本来のコード表としての目的には適っていない。
そこで 中国語等の文字も正しく表記されているサイトを見つけたので下記に紹介する。
恐らく「UTF-8 コード表 (2)」が文字コードを調べるのに約に立つはずである。

UTF-8 コード表 (1) : 00-7F, C0-E3 から始まる文字コード

http://www.seiai.ed.jp/sys/text/java/utf8table.html

UTF-8 コード表 (2) : E3-E9 から始まる文字コード

http://www.seiai.ed.jp/sys/text/java/utf8table2.html

[検索の方法]

ブラウザの機能で[編集] - [このページの選択] によって文字を入力して検索すると
求める文字のコードを知ることができる。