Unicode

Unicode(ユニコード)は、符号化文字集合文字符号化方式などを定めた、文字コードの業界標準規格文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。

従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]1980年代に、Starワークステーションの日本語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフトAppleIBMサン・マイクロシステムズヒューレット・パッカードジャストシステムなどが参加するユニコードコンソーシアムにより作られた。国際規格のISO/IEC 10646とUnicode規格は同じ文字コード表になるように協調して策定されている[2]

概要

[編集]

Unicodeは世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、UnixWindowsmacOSPlan 9[注釈 1]などの様々なオペレーティングシステムでサポートされている。Java.NETのようなプログラミング環境でも標準的にサポートされている。現代の文字だけでなく古代の文字や歴史的な文字、数学記号、絵文字なども含む[3]

Unicode以前の文字コードとの相互運用性もある程度考慮されており、歴史上・実用上の識別が求められる場合には互換領域がとられ、元のコード→Unicode→元のコードというような変換(ラウンドトリップ変換)において、元通りに戻るよう配慮されている文字もある。しかし、正規のJIS X 0208の範囲内であればトラブルは少ないが、複数の文字集合が混在していたり、文字集合の亜種ごとにマッピング(対応づけ)が異なる文字(機種依存文字)を含んでいたりする場合[注釈 2]、変換テーブルによるマッピングが不可逆変換となり文字化けを起こすことがある。

Unicode文字符号化モデル

[編集]

文字コードは、Unicode文字符号化モデル[4]によると以下の4段階に分けられる:

抽象文字集合 (ACR)
符号化の対象とする順序のない文字の集合。
符号化文字集合 (CCS)
抽象文字集合を非負整数に対応させたもの。この非負整数の範囲を符号空間、各値を符号位置 (コードポイント) といい、抽象文字は対応後、符号化文字となる[5]。抽象文字は複数の符号化文字に対応されることもある[6]
文字符号化形式 (CEF)
符号化文字集合の非負整数を符号単位列に変換する方法。文字符号化形式はコンピュータ中に実際にデータとして文字を表現することを可能にする。
文字符号化方式 (CES)
符号単位列をバイト列に直列化する方法。符号単位が8ビットより大きい場合はエンディアンが関係する。

その後、バイト列を、gzipなどで圧縮したり、7ビット伝送路に通すためにBase64Quoted-printableなどで変換したりすることがあるが、これらは文字コードの管轄範囲外である。

文字集合

[編集]

Unicodeの文字集合の符号空間は0 - 10FFFF16で111万4,112の符号位置がある[7]。Unicode 12.1(2019年5月7日公表)では13万7,929個 (12%) の文字[注釈 3]が割り当てられ、65個を制御文字に使い、13万7,468符号位置 (12%) を私用文字として確保している。また、2,048文字分をUTF-16のための代用符号位置に使用しており、加えて66の特別な符号位置は使われない。残りの83万6,536符号位置 (75%) は未使用である[8]

文字を特定する場合にはUnicode符号位置や一意につけられた名前が使われる。例えば、アルファベット小文字の「a」はU+0061 (LATIN SMALL LETTER A)、八分音符「♪」はU+266A (EIGHTH NOTE) である。Unicode符号位置を文章中などに記す場合は "U+" の後に十六進法で符号位置を4桁から6桁続けることで表す。また、符号空間のうち代用符号位置を除く符号位置をUnicodeスカラ値という[9]

収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初よりJIS X 0201JIS X 0208JIS X 0212を、Unicode 3.1からはJIS X 0213の内容も収録している。

また収録において、元の各文字集合内で分離されている文字は尊重するが、異なる文字集合に同一の文字が収録されているとみなされるものは、同じ符号位置に割り当てる方針を取っている。この際に集合が膨大であるという理由で、漢字について、中国日本韓国の各規格の漢字を統合CJK統合漢字としたことは大きな議論となった。

現在では独自創作の絵文字の追加等、当初の目的である「各国・各社の文字コードの統合」から外れた動きも進んでいる。

Unicodeに収録されている文字については、「ブロックの一覧」を参照。

文字符号化形式

[編集]

Unicodeでは文字符号化形式としてUTF-8UTF-16UTF-32の3種類が定められている。

UTF-8は1符号化文字を1〜4符号単位で表す可変幅文字符号化形式で、1符号単位は8ビットである。

UTF-16は1符号化文字を1〜2符号単位で表す可変幅文字符号化形式で、1符号単位は16ビットである。基本多言語面の文字を符号単位一つで、その他の文字をサロゲートペア(代用対)という仕組みを使い符号単位二つで表現する。

UTF-32は1符号化文字を1符号単位で表す固定幅文字符号化形式で、1符号単位は32ビットである。ただし、Unicodeの符号空間がU+10FFFFまでであるため、実際に使われるのは21ビットまでである。

各文字符号化形式の符号化例
00 01 02 03 04 05 06 07 08 09 0A 0B 0C 0D 0E 0F
UTF-8 A Ω 😊
41 CE A9 E8 AA 9E F0 9F 98 8A
UTF-16 A Ω 😊
0041 03A9 8A9E D83D DE0A
UTF-32 A Ω 😊
00000041 000003A9 00008A9E 0001F60A

文字符号化方式

[編集]
文字符号化形式
(CEF)
文字符号化方式
(CES)
UTF-8 UTF-8
UTF-16 UTF-16
UTF-16BE
UTF-16LE
UTF-32 UTF-32
UTF-32BE
UTF-32LE

Unicodeでは文字符号化方式としてUTF-8UTF-16UTF-16BEUTF-16LEUTF-32UTF-32BEUTF-32LEの7種類が定められている。それぞれの符号化形式に対応する符号化方式は表の通り。

文字符号化形式との違いは、文字符号化形式がプログラム内部で文字を扱う場合に符号なし整数として文字を表現する方法なのに対し、文字符号化方式は入出力時にバイト列として表現する方法である。UTF-8は符号単位が8ビットであるため区別する意味はない。

文字符号化方式
(CES)
エンディアン BOMの付与
UTF-8
UTF-16 ビッグ/リトル
UTF-16BE ビッグエンディアン 不可
UTF-16LE リトルエンディアン 不可
UTF-32 ビッグ/リトル
UTF-32BE ビッグエンディアン 不可
UTF-32LE リトルエンディアン 不可
UTF-8
可変長(1-4バイト)の8ビット符号単位で表現する文字符号化方式。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化方式やUTF-32符号化方式との変換・逆変換に際して乗除算などの高負荷処理が必要ない、などの特長を持ち、インターネットではもっとも一般的に利用されている。
なお、UTF-8はもともと8ビットを符号単位とするためバイト順マーク(BOM;後述)は必要ないが、UTF-8であることが識別できるよう、データストリームの先頭に EF BB BF(U+FEFFのUTF-8での表現)の3バイトが付与されることがある。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化方式等における「真の意味でのBOM」と同じコードポイントを利用しているがゆえに慣用的にこう呼ばれているに過ぎない。UTF-8でのBOMの使用は非推奨[10]
UTF-16
UTF-16符号化方式では、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが FF FEならリトルエンディアン、FE FFならビッグエンディアンとして後に続く文書を処理する。
RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Microsoft Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化方式をUTF-16BE、リトルエンディアンの符号化方式をUTF-16LEとして区別することもある。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-16BEUTF-16LEを指定している場合にはBOMを付与することは許容されない。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化方式のことを指す。TCP/IPネットワークでは、プロトコルヘッダやMIME等の手段で符号化方式が指定されずBOMも付与されない場合、ビッグエンディアンとして扱うと決められている。
UTF-32
UTF-32符号化方式でもUTF-16符号化方式と同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BEUTF-32LEと呼ばれる。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-32BEUTF-32LEを指定している場合にはBOMを付与することは許容されない。
単純な符号化方式であるが、テキストファイルなどではファイルのサイズが大きくなる(すべてBMPの文字からなる文章の場合はUTF-16符号化方式の2倍、すべてASCII文字の場合はASCII/UTF-8の4倍のサイズとなる)ため、ストレージ用として使われることは稀である。そのためか、Microsoft Officeでの「エンコードされたテキストファイル」の読み書きでは、Office 2016 でもいまだに符号化方式には対応していない。フリーウェアシェアウェアテキストエディタのうち多数の符号化方式に対応しているものでも、この符号化方式には対応していないものが存在する。
ただし、すべてのUnicode文字を処理する場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式(あるいはUCS-4)で扱うこともある。実例として、Linux 上のC言語環境では wchar_t は32ビット整数型である。
UTF-16符号化方式などと同様にUTF-32符号化方式にもBOMがあり、データストリームの先頭に付される。先頭の4バイトがFF FE 00 00ならリトルエンディアン、00 00 FE FFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。
各文字符号化方式の符号化例
UTF-8 A Ω 😊
41 CE A9 E8 AA 9E F0 9F 98 8A
UTF-16BE A Ω 😊
00 41 03 A9 8A 9E D8 3D DE 0A
UTF-16LE A Ω 😊
41 00 A9 03 9E 8A 3D D8 0A DE
UTF-32BE A Ω 😊
00 00 00 41 00 00 03 A9 00 00 8A 9E 00 01 F6 0A
UTF-32LE A Ω 😊
41 00 00 00 A9 03 00 00 9E 8A 00 00 0A F6 01 00

その他

[編集]
UTF-7
UTF-16で表したUnicodeをBase64で変換して表す符号化方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊な符号化方式を行う。RFC 2152で定められており、Unicode規格及びUnicodeの関連規格には含まれない。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましい。


以下はエイプリルフールに公開されたジョークRFCである (RFC 4042)。UTF-9に関しては同名の規格が実際に検討されていた(ただし、内容は大きく異なる)が、ドラフト段階で破棄されているため重複にはならない。

UTF-9
可変長の9ビット符号単位で表現する符号化方式。1バイト8ビットオクテット)ではなく9ビット(ノネット)であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ(PDP-10ACOS-6など)であれば計算コストも低い。
UTF-18
Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つの(BMP、U+1xxxx、U+2xxxx、U+Exxxx)を余った2ビットで識別するため、代用符号位置は使わない。

以下はドラフト段階で破棄された規格案。

UTF-5
国際化ドメイン名での利用を想定し、0-9、A-Vの32文字で表現する文字符号化方式。国際化ドメイン名にはPunycodeが採用されたため、利用されていない。
UTF-9
可変長(1-5バイト)の8ビット符号単位で表現する文字符号化形式または文字符号化方式。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。

拡張領域

[編集]

1980年代の当初の構想では、Unicodeは16ビット固定長で、216 = 6万5,536 個の符号位置に必要な全ての文字を収録する、というもくろみであった。しかし、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字などである。このようにしてUnicodeの、16ビットの枠内に全世界の文字を収録するという計画は早々に破綻し、1996年のUnicode 2.0の時点で既に、文字集合の空間を16ビットから広げることが決まった。この時、それまでの16ビットを前提としてすでに設計されていたシステム(たとえばJavachar型や、Windows NTWindows 95のAPI)をなるべくそのままにしたまま、広げられた空間にある符号位置を表現する方法として、サロゲートペアが定義された。

サロゲートペア

[編集]

サロゲートペア(代用対)は16ビットUnicodeの領域1,024文字分を2つ使い(前半 U+D800 〜 U+DBFF、後半 U+DC00 〜 U+DFFF)、各々1個ずつからなるペアで1,024 × 1,024 = 1,048,576文字を表す。これはちょうど16面分であり、第1面〜第16面(U+010000 〜 U+10FFFF)の文字をこれで表すこととした。加えて第0面(基本多言語面)も使用可能なので、Unicodeには合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字分の空間が確保されたことになる。Unicodeの符号空間が10FFFF16まで(サロゲート領域を除いて111万2,064文字)とされているのはUTF-16が表現可能な限界だからである。

サロゲートはUnicodeの符号位置の U+010000 〜 U+10FFFF の範囲を16ビットユニットのペア(2つ)で表現する集合で、最初の16ビットユニットを前半サロゲートもしくはハイサロゲート、二番目を後半サロゲートもしくはローサロゲートと称する。ハイサロゲートは U+D800 〜 U+DBFF の範囲、ローサロゲートは U+DC00 〜 U+DFFF の範囲である。

サロゲートペアはUTF-16でのみ使われ[11]、UTF-8、UTF-32ではすべての符号位置を符号化できるためこのような特別な処理は必要ない。

コーディング

[編集]

サロゲートのエンコーディングは、符号位置を 、ハイサロゲートを 、ローサロゲートを とすると次の通りに計算する。

デコーディングは、

である。

コード変換例
𠮷[注釈 4]」U+20BB7 のエンコードを考えてみる。
から
を引くと、結果は
となる。
これを上位10ビット値と下位10ビット値に分割する。
ハイ(上位)サロゲートを形成するために上位ビットに を加える。
ロー(下位)サロゲートを形成するために下位ビットに を加える。
結果
(UTF-16 符号単位列)
(UTF-16BEでの符号化バイト列)
(UTF-16LEでの符号化バイト列)

次の表は、この文字変換と他をまとめたものである。 色は、コードポイントからのビットがUTF-16バイトにどのように分配されるかを示した。 なお、UTF-16エンコーディングプロセスによって追加された追加ビットは黒で示されている。

文字
(符号位置)
符号位置(2進数) UTF-16
符号単位列(2進数)
UTF-16
符号単位列
UTF-16BE
符号化バイト列
UTF-16LE
符号化バイト列
$ U+0024 0000 0000 0010 0100 0000 0000 0010 0100 0024 00 24 24 00
[注釈 5] U+20AC 0010 0000 1010 1100 0010 0000 1010 1100 20AC 20 AC AC 20
𠮷[注釈 4] U+20BB7 0010 0000 1011 1011 0111 1101 1000 0100 0010 1101 1111 1011 0111 D842 DFB7 D8 42 DF B7 42 D8 B7 DF
最大値 U+10FFFF 1 0000 1111 1111 1111 1111 1101 1011 1111 1111 1101 1111 1111 1111 DBFF DFFF DB FF DF FF FF DB FF DF

[編集]

一つの面は6万5536個の符号位置がある。

符号位置 英語での名称 略称 日本語での名称 収録されている主な文字
第0面 U+0000 - U+FFFF Basic Multilingual Plane BMP 基本多言語面 基本的な文字。
第1面 U+10000 - U+1FFFF Supplementary Multilingual Plane SMP 追加多言語面 古代文字や記号・絵文字類など。
第2面 U+20000 - U+2FFFF Supplementary Ideographic Plane SIP 追加漢字面 漢字専用領域。
第3面 U+30000 - U+3FFFF Tertiary Ideographic Plane TIP 第三漢字面 追加漢字面に入りきらなかった漢字。また、将来的には古代漢字や甲骨文字などが収録される予定[注釈 6]
第4面 U+40000 - U+4FFFF 未使用(将来どのような目的で使用するのかすら決まっていない)。
第5面 U+50000 - U+5FFFF
第6面 U+60000 - U+6FFFF
第7面 U+70000 - U+7FFFF
第8面 U+80000 - U+8FFFF
第9面 U+90000 - U+9FFFF
第10面 U+A0000 - U+AFFFF
第11面 U+B0000 - U+BFFFF
第12面 U+C0000 - U+CFFFF
第13面 U+D0000 - U+DFFFF
第14面 U+E0000 - U+EFFFF Supplementary Special-purpose Plane SSP 追加特殊用途面 制御コード専用領域。
第15面 U+F0000 - U+FFFFF Private Use Plane PUP 私用面 BMPの U+E000 - U+F8FF の領域の拡張。
第16面 U+100000 - U+10FFFF

日本では2000年にJIS X 0208を拡張する目的でJIS X 0213(いわゆるJIS第3・第4水準)が制定されたが、この際、新たに採用された文字でUnicodeになかったものの一部は、BMPに収録できず、第2面への収録となった(Unicodeが最終的にJIS X 0213への対応を完了したのは2002年である)。このため、JIS X 0213収録文字をUnicodeで完全にサポートするには、追加漢字面をサポートしたOSフォントアプリケーションが必要となる。Shift_JISなど、Unicodeにて規定されるもの以外のエンコーディングを利用する場合であっても、JIS X 0213に対応するフォントやアプリケーションが必要である。

常用漢字2010年改定で追加された字のうち𠮟はU+20B9Fで、追加漢字面に含まれる。そのため、改定後の常用漢字完全サポートを謳う場合、Unicodeに対応していて更にこの拡張領域にも対応している必要があると言える。ただ、現状ではこの字は、JIS X 0208に含まれる(=当然、Unicode策定当初からBMPに収録されている)異体字の「叱」(U+53F1) で代用されることが多い。

歴史

[編集]

1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフト(DIS 10646#DIS 10646第1版)では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。

このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にUnicodeと呼ばれるようになる、世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット(16ビット)固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。このドラフトは少しずつ改良を加えられながら1990年4月にUnicode Draft 2、同年12月Unicode Final Draftとなった。さらに1991年1月にはこのUnicode Final Draftに賛同する企業によって、ユニコードコンソーシアムが設立された。

1991年6月、ISO/IEC 10646による4オクテット固定長コードを主体としたドラフト「DIS 10646第1版」は、2オクテット固定長コードであるUnicodeとの一本化を求める各国により否決され、ISO 10646とUnicodeの一本化が図られることになった。また中国およびユニコードコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646 / Unicode用の統合漢字コード表を作成することになった。CJK-JRGの会合は第1回が7月22日から24日にかけて東京で、第2回の会合が9月17日から19日にかけて北京で、第3回が11月25日から29日にかけて香港で開催された。これらの討議の結果、1991年末になって「ISO 10646=Unicode」用の統合漢字コード表が Unified Repertoire and Ordering (URO) の第1版として完成した。

Unicodeの最初に印刷されたドキュメントであるUnicode 1.0は、統合漢字表の完成に先行して漢字部分を除いたUnicode 1.0, Vol.1が1991年10月に出版され、後に1992年になって漢字部分だけのUnicode 1.0, Vol.2が出版された。

1992年、CJK統合漢字URO第二版が完成し、これを取り込んだ(ただし、UROには若干の間違いが発見されており、それらの修正が行われている。)DIS 10646第2版が、5月30日の国際投票で可決された。

1993年5月1日 「ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane」が制定される。同年翌6月にUnicode 1.0は ISO/IEC 10646-1:1993にあわせた変更を行いUnicode 1.1となり、以後UnicodeとISO/IEC 10646とは歩調を合わせて改訂されていくことになる。

Unicodeのバージョン

[編集]

Unicodeのバージョンは、メジャーバージョン (the major version)、マイナーバージョン (the minor version)、アップデートバージョン (the update version) の3つの部分から構成され、ピリオドでつなげて表示される[12]。ただし、マイナーバージョン及びアップデートバージョンについては0の場合には省略して表示されることもある。メジャーバージョンはレパートリーの追加のような重要な変更が行われたときに改定される。Unicodeのドキュメントは書籍形態と電子版ドキュメント形態の両方で公表され、どちらもUnicodeについての正式なドキュメントであるとされている。新たなバージョンがリリースされたときは新たなドキュメントが公表されるが、書籍として刊行されるのはメジャーバージョンが改定された場合および重要なマイナーバージョンの改定があった場合のみである。書籍版のバージョン1.0は、2巻に分けて刊行され、統合漢字部分を除いた第1巻は1991年10月に、統合漢字部分の第2巻は1992年6月に刊行された。そのため第1巻のみのものをUnicode 1.0.0、第2巻を含めたものをUnicode 1.0.1と呼ぶことがある。

各バージョンとその特徴

[編集]

Unicodeのそれぞれのバージョン番号とその制定年月日、収録文字数他の特徴は以下の通りである。

制定年月日 バージョン番号 収録文字数 概要 日本語における主要な追加文字
1991年10月 Unicode 1.0.0

[13]

7,161 初期バージョン、16ビットの文字コード JIS X 0201
1992年6月 Unicode 1.0.1

[14]

28,359 CJK統合漢字を導入 JIS X 0208JIS X 0212
1993年6月 Unicode 1.1.0

[15]

34,233 ISO/IEC 10646-1:1993にあわせ変更
1993年7月 Unicode 1.1.5

[16]

1996年7月 Unicode 2.0.0

[17]

38,950 ISO/IEC 10646-1:1993の追補Amd.1からAmd.7に対応。ハングルの大移動を行いUnicode1.xとの互換性を失う (Amd.5)、サロゲートペア(代用対)を導入し追加面を可能にして収容可能な文字を大幅に増やす、21ビット領域に拡張 (Amd.1)
1998年5月 Unicode 2.1.0

[18]

38,952 ユーロ記号と正誤表を追加
1998年5月 Unicode 2.1.2

[19]

1998年8月 Unicode 2.1.5

[20]

1998年10月 Unicode 2.1.8

[21]

1999年4月 Unicode 2.1.9

[22]

1999年9月 Unicode 3.0.0

[23]

49,259 ISO/IEC 10646-1:2000が発行されるまでの追補Amd.8からAmd.31の文字すべてに対応。CJK統合漢字拡張Aで漢字6582字を追加 (Amd.17) JIS X 0213の一部(地名や人名などに用いられる漢字)
2000年8月 Unicode 3.0.1

[24]

2001年3月 Unicode 3.1.0

[25]

94,205 ISO/IEC 10646-2:2001に対応。BMP以外の拡張。CJK統合漢字拡張Bで漢字42711字を追加 JIS X 0213の一部(地名や人名などに用いられる漢字)
2001年8月 Unicode 3.1.1

[26]

2002年3月 Unicode 3.2.0

[27]

95,221 ISO/IEC 10646-1:2000の追補Amd.1に対応 JIS X 0213(正式対応)
2003年4月 Unicode 4.0.0

[28]

96,447 ISO/IEC 10646:2003に対応
2004年5月 Unicode 4.0.1

[29]

2005年3月31日 Unicode 4.1.0

[30]

97,720 ISO/IEC 10646:2003の追補Amd.1に対応
2006年7月14日 Unicode 5.0.0

[31]

99,089 ISO/IEC 10646:2003の追補Amd.2とシンド語(Amd.3に含まれる)に対応
2008年4月4日

[32]

Unicode 5.1.0 100,713 ISO/IEC 10646:2003の追補Amd.3とAmd.4に対応。異体字セレクタを漢字に対して使い始める

[33]

麻雀牌、割り算の筆算(長除法)の記号、電話機の星印Adobe-Japan1-6の漢字字形

[34]

2009年10月1日 Unicode 5.2.0

[35]

107,361 ISO/IEC 10646:2003の追補Amd.6までに対応 ARIB外字
2010年10月11日 Unicode 6.0.0

[36]

109,449 ISO/IEC 10646:2010 携帯電話の絵文字
2012年1月31日 Unicode 6.1.0

[37]

110,181 ISO/IEC 10646:2012
2012年9月26日 Unicode 6.2.0

[38]

110,182 新トルコリラの通貨記号の追加など
2013年9月30日 Unicode 6.3.0

[39]

110,187
2014年6月16日 Unicode 7.0.0

[40]

113,021 ISO/IEC 10646:2012の追補Amd.1とAmd.2に対応。ルーブルアゼルバイジャン・マナトの通貨記号、北米・中国・インド・アフリカの言語のための歴史的なスクリプトの追加。 約250字の絵文字の追加。
2015年6月17日 Unicode 8.0.0

[41]

120,737 ISO/IEC 10646:2014の追補Amd.1に対応。 U+301C WAVE DASHの修正(後述)
2016年6月21日 Unicode 9.0.0

[42]

128,172 ISO/IEC 10646:2014の追補Amd.2に対応。 91個の絵文字の追加、4KTV放送用シンボル19個の追加
2017年6月20日 Unicode 10.0.0

[43]

136,690 ISO/IEC 10646:2017 変体仮名285文字追加
2018年6月5日 Unicode 11.0.0 [44] 137,374 ISO/IEC 10646:2017の追補Amd.1に対応
2019年3月5日 Unicode 12.0.0 [45] 137,928 ISO/IEC 10646:2017の追補Amd.1とAmd.2に対応 小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」追加
2019年5月7日 Unicode 12.1.0 [46] 137,929 「㋿」(日本の元号「令和」の合字)追加
2020年3月10日 Unicode 13.0.0 [47] 143,859 ISO/IEC 10646:2020
2021年9月22日 Unicode 14.0.0 [48] 144,697 ISO/IEC 10646:2021 わ行う、ワ行うヤ行イヤ行エを追加
2022年9月13日 Unicode 15.0.0 [49] 149,186 ISO/IEC 10646:2022
2023年9月12日 Unicode 15.1.0 [50] 149,813 ISO/IEC 10646:2023
2024年9月10日 Unicode 16.0.0 [51] 154,998 ISO/IEC 10646:2024

構成要素のバージョン

[編集]

Unicodeのバージョンには、上記のような「Unicodeの規格全体に付けられたバージョン」の他に「Unicodeを構成する個々の要素の規格に付けられたバージョン」が存在する。これに該当するものとしては、Unicodeを構成する各面ごとに付けられたバージョンや、Unicodeに収録されないこととされたスクリプトのリスト (NOR = Not The Roadmap) に付けられたバージョン、規格の一部を構成するUnicode Technical Note(Unicode技術ノート)、Unicode Technical Report(Unicode技術報告)、Unicode Technical Standard(Unicode技術標準)のバージョンなどが存在する。

日付 全体[52] BMP[53] SMP[54] SIP[55] TIP[56] SSP[57] NOR[58]
1991年10月 1.0.0[13]
1992年6月 1.0.1[14]
1993年6月 1.1.0[15]
1993年7月 1.1.5[16]
1996年7月 2.0.0[17]
1998年5月 2.1.0[18]
1998年5月 2.1.2[19]
1998年8月 2.1.5[20]
1998年10月 2.1.8[21]
1999年4月 2.1.9[22]
1999年9月 3.0.0[23]
2000年8月 3.0.1[24]
2001年3月 3.1.0[25]
2001年8月 3.1.1[26]
2001年10月10日 3.0[59] 3.0[60] 3.0[61] 1.0[62]
2001年10月12日 3.1[63]
2001年10月27日 3.1[64]
2001年11月27日 3.0[65]
2002年1月22日 3.2[66] 3.1[67]
2002年1月29日 3.3[68]
2002年2月5日 3.4[69]
2002年3月 3.2.0[27]
2002年4月3日 3.2[70]
2002年4月4日 3.5[71]
2002年6月7日 3.6[72] 3.3[73]
2002年6月23日 3.7[74]
2002年10月2日 3.8[75]
2002年10月28日 3.9[76]
2002年11月11日 3.1[77]
2002年12月3日 3.10[78] 3.4[79]


3.5[80]

2002年12月11日 3.11[81]
2003年3月12日 3.12[82] 3.6[83]
2003年3月15日 3.7[84]
2003年4月 4.0.0[28]
2003年4月16日 4.0[85] 4.0[86] 4.0[87] 4.0[88] 4.0[89]
2003年5月4日 4.1[90]
2003年5月16日 4.1[91]
2003年6月18日 4.2[92] 4.1[93]
2003年7月15日 4.1[94]
2003年8月19日 4.3[95]
2003年9月11日 4.4[96] 4.2[97]
2003年9月20日 4.5[98]
2003年10月22日 4.6[99]
2003年10月31日 4.3[100]
2003年12月23日 4.7[101] 4.4[102]
2004年5月 4.0.1[29]
2004年5月27日 4.5[103]
2004年6月24日 4.8[104] 4.6[105]
2004年7月3日 4.7[106]
2004年12月1日 4.1[107]
2005年1月27日 4.2[108]
2005年1月28日 4.9[109] 4.8[110]
2005年3月31日 4.1.0[30] 4.10[111] 4.9[112]
2005年5月27日 4.10[113] 4.2[114]
2005年6月10日 4.11[115] 4.11[116]
2005年6月27日 4.12[117] 4.12[118] 4.3[119] 4.2[120] 4.3[121]
2005年8月1日 4.13[122] 4.13[123]
2005年9月6日 4.14[124]
2005年9月14日 4.15[125]
2005年9月17日 4.14[126]
2005年9月19日 4.16[127]
2005年12月8日 4.15[128]
2006年1月11日 4.17[129] 4.16[130]
2006年4月17日 4.18[131] 4.17[132] 4.4[133]
2006年4月28日 4.4[134]
2006年7月14日 5.0.0[31]
2006年9月21日 5.0[135] 5.0[136] 5.0[137] 5.0[138] 5.0[139]
2006年9月29日 5.0.1[140] 5.0.1[141]
2007年3月14日 5.0.1[142]
2007年4月11日 5.0.2[143] 5.0.2[144]
2007年5月5日 5.0.3[145] 5.0.3[146]
2007年7月24日 5.0.4[147] 5.0.4[148] 5.0.1[149]
2007年8月22日 5.0.5[150]
2007年8月29日 5.0.5[151]
2008年1月15日 5.0.6[152]
2008年1月31日 5.0.6[153]
2008年2月14日 5.0.7[154] 5.0.7[155]
2008年4月4日 5.1.0[32] 5.1.0[156] 5.1.0[157] 5.1.0[158] 5.1.0[159] 5.1.0[160]
2008年4月25日 5.1.1[161] 5.1.1[162] 5.1.0[163] 5.1.1[164]
2008年8月12日 5.1.2[165] 5.1.2[166]
2008年8月19日 5.1.3[167]
2008年10月17日 5.1.4[168] 5.1.3[169] 5.1.1[170]
2009年2月4日 5.1.5[171] 5.1.4[172]
2009年2月26日 5.1.1[173]
2009年4月22日 5.1.2[174]
2009年4月24日 5.1.5[175]
2009年10月1日 5.2.0[35] 5.2.0[176] 5.2.0[177] 5.2.0[178] 5.2.0[179] 5.2.0[180] 5.2.0[181]
2009年11月18日 5.2.1[182]
2010年2月5日 5.2.1[183]
2010年2月10日 5.2.2[184]
2010年2月23日 5.2.3[185]
2010年4月23日 5.2.2[186] 5.2.4[187]
2010年5月12日 5.2.5[188]
2010年6月24日 5.2.6[189]
2010年7月27日 5.2.7[190]
2010年10月11日 6.0.0[36] 6.0.0[191] 6.0.0[192] 6.0.0[193] 6.0.0[194] 6.0.0[195] 6.0.0[196]
2010年12月6日 6.0.1[197]
2011年1月9日 6.0.2[198]
2011年1月14日 6.0.1[199]
2011年1月27日 6.0.2[200] 6.0.3[201] 6.0.1[202] 6.0.1[203] 6.0.1[204] 6.0.1[205]
2011年3月18日 6.0.4[206]
2011年5月24日 6.0.5[207]
2011年6月23日 6.0.3[208] 6.0.6[209]
2011年8月1日 6.0.7[210]
2011年8月15日 6.0.8[211]
2011年8月24日 6.0.9[212]
2011年11月15日 6.0.10[213]
2011年11月29日 6.0.11[214]
2011年12月19日 6.0.2[215]
2012年1月6日 6.0.12[216]
2012年1月31日 6.1.0[37]
2012年2月1日 6.1.0[217] 6.1.0[218] 6.1.0[219] 6.1.0[220] 6.1.0[221] 6.1.0[222]
2012年2月15日 6.1.1[223]
2012年5月4日 6.1.2[224]
2012年7月30日 6.1.3[225]
2012年8月27日 6.1.4[226]
2012年9月13日 6.1.1[227] 6.1.5[228]
2012年9月26日 6.2.0[38]
2012年9月27日 6.2.0[229] 6.2.0[230] 6.2.0[231] 6.2.0[232] 6.2.0[233] 6.2.0[234]
2012年10月16日 6.2.1[235] 6.2.1[236]
2012年12月2日 6.2.2[237] 6.2.2[238]
2013年3月19日 6.2.3[239]
2013年5月4日 6.2.4[240]
2013年5月23日 6.2.5[241]
2013年7月24日 6.2.6[242]
2013年9月30日 6.3.0[39]
2013年10月28日 6.3.0[243] 6.3.0[244] 6.3.0[245] 6.3.0[246] 6.3.0[247] 6.3.0[248]
2014年2月19日 6.3.1[249] 6.3.1[250]
2014年6月16日 7.0.0[40]
2014年8月7日 7.0.0[251] 7.0.0[252] 7.0.0[253] 7.0.0[254] 7.0.0[255] 7.0.0[256]
2014年9月18日 7.0.1[257] 7.0.1[258] 7.0.1[259]
2014年10月24日 7.0.2[260] 7.0.2[261] 7.0.1[262]
2015年3月26日 7.0.2[263] 7.0.3[264]
2015年6月3日 7.0.3[265] 7.0.4[266]
2015年6月17日 8.0.0[41]
2015年6月26日 8.0.0[267] 8.0.0[268] 8.0.0[269] 8.0.0[270] 8.0.0[271] 8.0.0[272]
2015年8月17日 8.0.1[273]
2016年1月21日 8.0.1[274] 8.0.2[275] 8.0.1[276]
2016年2月3日 8.0.3[277] 8.0.1[278]
2016年5月3日 8.0.2[279]
2016年6月10日 8.0.4[280]
2016年6月21日 9.0.0[42]
2016年6月23日 9.0.0[281] 9.0.0[282] 9.0.0[283] 9.0.0[284] 9.0.0[285] 9.0.0[286]
2017年1月12日 9.0.1[287]
2017年5月24日 9.0.1[288]
2017年6月6日 9.0.2[289]
2017年6月20日 10.0.0[43]
2017年6月21日 10.0.0[290] 10.0.0[291] 10.0.0[292] 10.0.0[293] 10.0.0[294]
2017年6月29日 10.0.0[295]
2017年12月27日 10.0.1[296]
2018年1月10日 10.0.1[297] -

Unicodeの諸問題

[編集]

バージョンごとの非互換性

[編集]

Unicodeは同一のコードでもバージョンが変わったとき完全に異なった文字を定義し直したことがある。

そのうち最大のものがUnicode 2.0での「ハングルの大移動」である。これはUnicode 1.1までで定義されていたハングルの領域を破棄し、新しいハングルの領域を別の位置に設定し、破棄された領域には別の文字の領域を割り当てることとなった。その後、Unicode 3.0では、従来ハングルが割り当てられていた領域にCJK統合漢字拡張A、ついでUnicode 4.0で六十四卦が割り当てられた。このように、Unicode 1.1以前でハングルを記述した文書とUnicode 2.0以降でCJK統合漢字拡張Aを記述した文書には互換性がない[注釈 7]。JCS委員長の芝野耕司はUnicodeに日本語の漢字を収録させる議論の中で、ハングル大移動について「韓国のとった滅茶苦茶な行動」と述べている[298]

日本語環境でのUnicodeの諸問題

[編集]

YEN SIGN 問題

[編集]

Shift JIS では JIS X 0201 における(日本中国通貨の)円記号 "¥" が 0x5C に置かれている。これを Unicode のマッピングに合わせると YEN SIGN (U+00A5) にマップされる。しかし、0x5C は ASCII ではバックスラッシュ "\" に相当し、C言語などでエスケープ文字として使われる事から、この文字のコードを変更すると問題が起きる。極端な例として、0x5C が円記号とエスケープ文字の両方の目的で使われているケース(たとえばC言語printf関数で printf("¥¥%d¥n", price); など)も考えられる。

そのため、Unicode を利用するアプリケーションでは、U+007F 以下のコードに関しては移動させないという暗黙のルールができている。

そうなると、Unicode 環境では円記号がバックスラッシュの表示に変わってしまうように思われるが、これは日本語用のフォントデータの 0x5C の位置には円記号の字形を当ててしまうことで対処している。これによって、日本語環境での表示上は 0x5C の位置で円記号を用いることができる。

この問題は日本語環境に限ったことではない。もともと ISO 646 上では、0x5C を含む数種の文字は自由領域(バリアント)として各国での定義を認めていた。そのため、日本語以外でも ASCII でバックスラッシュに相当するコードに異なる記号を当てているケースが多い。例えば、韓国では通貨のウォン記号 (WON SIGN, U+20A9, "")、デンマークノルウェーではストローク付きO (LATIN CAPITAL LETTER O WITH STROKE, U+00D8, "Ø") などである。(後者は後の時代には、0x5C はバックスラッシュのままとし、ISO 8859 シリーズを用いることが一般化した。)

波ダッシュ・全角チルダ問題

[編集]

JIS X 0221 規定の JIS X 0208 と JIS X 0221 の対応表では、波ダッシュは WAVE DASH (U+301C, "") に対応させている。

しかし、マイクロソフトは Windows の Shift_JIS と Unicode の変換テーブルを作成する際に、JIS X 0208 において 1 区 33 点に割り当てられている波ダッシュ "" を、Unicode における全角チルダ (FULLWIDTH TILDE, U+FF5E, "~") に割り当てたため不整合が生じた。

この結果、macOS 等の JIS X 0221 準拠の Shift_JIS ⇔ Unicode 変換テーブルをもつ処理系と Windows との間で Unicode データをやり取りする場合、文字化けを起こすことになる。そこで Windows 以外の OS 上で動くアプリケーションの中には、CP932 という名前でマイクロソフト仕様の Shift_JIS コード体系を別途用意して対応しているケースが多い。この原因とされている Unicode 仕様書の例示字形の問題に関しては、波ダッシュ#Unicodeに関連する問題を参照すること。

マイクロソフト仕様に起因する問題
[編集]

上記に加え、マイクロソフト仕様は変換時にも問題が起こる文字を以下に示す。

JIS X 0208
区点
Shift JIS JIS X 0208
日本語通用名称
SJISでデコード MS932でデコード
(マイクロソフト仕様)
関連記事
1-29 0x815c ダッシュ(全角) (U+2014) EM DASH (U+2015) HORIZONTAL BAR ダッシュ (記号)
1-33 0x8160 波ダッシュ (U+301C) WAVE DASH (U+FF5E) FULLWIDTH TILDE 波ダッシュ全角チルダ
1-34 0x8161 双柱 (U+2016) DOUBLE VERTICAL LINE (U+2225) PARALLEL TO 双柱平行記号
1-61 0x817c 負符号、減算記号 (U+2212) MINUS SIGN (U+FF0D) FULLWIDTH HYPHEN-MINUS マイナス記号ハイフンマイナス
1-81 0x8191 セント記号 ¢ (U+00A2) CENT SIGN (U+FFE0) FULLWIDTH CENT SIGN セント (通貨)
1-82 0x8192 ポンド記号 £ (U+00A3) POUND SIGN (U+FFE1) FULLWIDTH POUND SIGN £
2-44 0x81ca 否定 ¬ (U+00AC) NOT SIGN (U+FFE2) FULLWIDTH NOT SIGN 否定記号

このうちセント・ポンド・否定については、IBMのメインフレームではShift_JISを拡張してこれらの半角版をコードポイント 0xFD-0xFF に割り当て、別途JIS X 0208からマップされた位置に全角版を収録していたため、WindowsをIBMメインフレームの端末として用いるケースを想定したといわれている[要出典]

なお、Windows Vista や Microsoft Office 2007 に付属する IME パッドの文字一覧における JIS X 0213 の面区点の表示は、上記の文字についても JIS で規定されているものと同じマッピングを使用している[要出典]

ブロックの一覧

[編集]
索引

0000-0FFF
1000-1FFF
2000-2FFF
3000-3FFF
4000-4FFF
5000-5FFF
6000-6FFF
7000-7FFF
8000-8FFF
9000-9FFF
A000-AFFF
B000-BFFF
C000-CFFF
D000-DFFF
E000-EFFF
F000-FFFF

10000-10FFF
11000-11FFF
12000-12FFF
13000-13FFF
14000-14FFF
15000-15FFF
16000-16FFF
17000-17FFF
18000-18FFF
19000-19FFF
1A000-1AFFF
1B000-1BFFF
1C000-1CFFF
1D000-1DFFF
1E000-1EFFF
1F000-1FFFF

20000-20FFF
21000-21FFF
22000-22FFF
23000-23FFF
24000-24FFF
25000-25FFF
26000-26FFF
27000-27FFF
28000-28FFF
29000-29FFF
2A000-2AFFF
2B000-2BFFF
2C000-2CFFF
2D000-2DFFF
2E000-2EFFF
2F000-2FFFF

30000-30FFF
31000-31FFF
32000-32FFF
33000-33FFF
34000-34FFF
35000-35FFF
36000-36FFF
37000-37FFF
38000-38FFF
39000-39FFF
3A000-3AFFF
3B000-3BFFF
3C000-3CFFF
3D000-3DFFF
3E000-3EFFF
3F000-3FFFF

E0000-E0FFF

ブロックの範囲[一覧 1] ブロック名[一覧 2] 日本語名称[一覧 3] 符号位置の数[一覧 4] 割当済の文字の数 用字[一覧 5][一覧 6][一覧 7][一覧 8]
 
0 BMP U+0000..U+007F Basic Latin[一覧 9] 基本ラテン文字
Basic Latin
128 128 ラテン文字 (52文字), Common (76文字)
U+0080..U+00FF Latin-1 Supplement[一覧 10] ラテン1補助
Latin-1 Supplement
128 128 ラテン文字 (64文字), Common (64文字)
U+0100..U+017F Latin Extended-A ラテン文字拡張A
en:Latin Extended-A
128 128 ラテン文字
U+0180..U+024F Latin Extended-B ラテン文字拡張B
en:Latin Extended-B
208 208 ラテン文字
U+0250..U+02AF IPA Extensions IPA拡張
en:IPA Extensions
96 96 ラテン文字
U+02B0..U+02FF Spacing Modifier Letters 前進を伴う修飾文字
en:Spacing Modifier Letters
80 80 注音符号 (2文字), ラテン文字 (14文字), Common (64文字)
U+0300..U+036F Combining Diacritical Marks 合成可能なダイアクリティカルマーク
en:Combining Diacritical Marks
112 112 Inherited
U+0370..U+03FF Greek and Coptic ギリシア文字及びコプト文字
en:Greek and Coptic
144 135 コプト文字 (14文字), ギリシア文字 (117文字), Common (4文字)
U+0400..U+04FF Cyrillic キリル文字
Cyrillic
256 256 キリル文字 (254文字), Inherited (2文字)
U+0500..U+052F Cyrillic Supplement キリル文字補助
en:Cyrillic Supplement
48 48 キリル文字
0 BMP U+0530..U+058F Armenian アルメニア文字
Armenian
96 91 アルメニア文字 (90文字), Common (1文字)
U+0590..U+05FF Hebrew ヘブライ文字
Hebrew
112 88 ヘブライ文字
U+0600..U+06FF Arabic アラビア文字
Arabic
256 255 アラビア文字 (237文字), Common (6文字), Inherited (12文字)
U+0700..U+074F Syriac シリア文字
Syriac
80 77 シリア文字
U+0750..U+077F Arabic Supplement アラビア文字補助
en:Arabic Supplement
48 48 アラビア文字
U+0780..U+07BF Thaana ターナ文字
Thaana
64 50 ターナ文字
U+07C0..U+07FF NKo ンコ文字
NKo
64 62 ンコ文字
U+0800..U+083F Samaritan サマリア文字
Samaritan
64 61 サマリア文字
U+0840..U+085F Mandaic マンダ文字
Mandaic
32 29 マンダ文字
U+0860..U+086F Syriac Supplement シリア文字拡張
en:Syriac Supplement
16 11 シリア文字
0 BMP U+0870..U+089F Arabic Extended-B アラビア文字拡張B
en:Arabic Extended-B
48 41 アラビア文字
U+08A0..U+08FF Arabic Extended-A アラビア文字拡張A
en:Arabic Extended-A
96 96 アラビア文字 (72文字), Common (1文字)
U+0900..U+097F Devanagari デーヴァナーガリー文字
Devanagari
128 128 デーヴァナーガリー文字 (124文字), Common (2文字), Inherited (2文字)
U+0980..U+09FF Bengali ベンガル文字
Bengali
128 96 ベンガル文字
U+0A00..U+0A7F Gurmukhi グルムキー文字
Gurmukhi
128 80 グルムキー文字
U+0A80..U+0AFF Gujarati グジャラート文字
Gujarati
128 91 グジャラート文字
U+0B00..U+0B7F Oriya オリヤー文字
Oriya
128 90 オリヤー文字
U+0B80..U+0BFF Tamil タミル文字
Tamil
128 72 タミル文字
U+0C00..U+0C7F Telugu テルグ文字
Telugu
128 98 テルグ文字
U+0C80..U+0CFF Kannada カンナダ文字
Kannada
128 89 カンナダ文字
0 BMP U+0D00..U+0D7F Malayalam マラヤーラム文字
Malayalam
128 117 マラヤーラム文字
U+0D80..U+0DFF Sinhala シンハラ文字
Sinhala
128 90 シンハラ文字
U+0E00..U+0E7F Thai タイ文字
Thai
128 87 タイ文字 (86文字), Common (1文字)
U+0E80..U+0EFF Lao ラオス文字
Lao
128 82 ラオス文字
U+0F00..U+0FFF Tibetan チベット文字
Tibetan
256 211 チベット文字 (207文字), Common (4文字)
U+1000..U+109F Myanmar ビルマ文字
Myanmar
160 160 ビルマ文字
U+10A0..U+10FF Georgian グルジア文字
Georgian
96 88 グルジア文字 (87文字), Common (1文字)
U+1100..U+11FF Hangul Jamo ハングル字母
Hangul Jamo
256 256 ハングル
U+1200..U+137F Ethiopic エチオピア文字
Ethiopic
384 358 エチオピア文字
U+1380..U+139F Ethiopic Supplement エチオピア文字補助
en:Ethiopic Supplement
32 26 エチオピア文字
0 BMP U+13A0..U+13FF Cherokee チェロキー文字
Cherokee
96 92 チェロキー文字
U+1400..U+167F Unified Canadian Aboriginal Syllabics 統合カナダ先住民音節
Unified Canadian Aboriginal Syllabics
640 640 カナダ先住民文字
U+1680..U+169F Ogham オガム文字
Ogham
32 29 オガム文字
U+16A0..U+16FF Runic ルーン文字
Runic
96 89 ルーン文字 (86文字), Common (3文字)
U+1700..U+171F Tagalog タガログ文字
Tagalog
32 20 タガログ文字
U+1720..U+173F Hanunoo ハヌノオ文字
Hanunoo
32 23 ハヌノオ文字 (21文字), Common (2文字)
U+1740..U+175F Buhid ブヒッド文字
Buhid
32 20 ブヒッド文字
U+1760..U+177F Tagbanwa タグバヌア文字
Tagbanwa
32 18 タグバヌワ文字
U+1780..U+17FF Khmer クメール文字
Khmer
128 114 クメール文字
U+1800..U+18AF Mongolian モンゴル文字
Mongolian
176 157 モンゴル文字 (153文字), Common (3文字)
0 BMP U+18B0..U+18FF Unified Canadian Aboriginal Syllabics Extended 統合カナダ先住民文字拡張
en:Unified Canadian Aboriginal Syllabics Extended
80 70 統合カナダ先住民文字
U+1900..U+194F Limbu リンブ文字
Limbu
80 68 リンブ文字
U+1950..U+197F Tai Le タイ・ナ文字
Tai Le
48 35 タイ・ナ文字
U+1980..U+19DF New Tai Lue 新タイ・ロ文字
New Tai Lue
96 83 タイ・ロ文字
U+19E0..U+19FF Khmer Symbols クメール文字様記号
en:Khmer Symbols
32 32 クメール文字
U+1A00..U+1A1F Buginese ブギス文字
Buginese
32 30 ブギス文字
U+1A20..U+1AAF Tai Tham タイ・タム文字
Tai Tham
144 127 タイタム文字
U+1AB0..U+1AFF Combining Diacritical Marks Extended 合成可能なダイアクリティカルマーク拡張
en:Combining Diacritical Marks Extended
80 15 Inherited
U+1B00..U+1B7F Balinese バリ文字
Balinese
128 121 バリ文字
U+1B80..U+1BBF Sundanese スンダ文字
Sundanese
64 64 スンダ文字
0 BMP U+1BC0..U+1BFF Batak バタク文字
Batak
64 56 バタク文字
U+1C00..U+1C4F Lepcha レプチャ文字
Lepcha
80 74 レプチャ文字
U+1C50..U+1C7F Ol Chiki オル・チキ文字
Ol Chiki
48 48 オル・チキ文字
U+1C80..U+1C8F Cyrillic Extended-C キリル文字拡張C
Cyrillic Extended-C
16 9 キリル文字
U+1C90..U+1CBF Georgian Extended グルジア文字拡張
Georgian Extended
48 46 グルジア文字
U+1CC0..U+1CCF Sundanese Supplement スンダ文字補助
Sundanese Supplement
16 8 スンダ文字
U+1CD0..U+1CFF Vedic Extensions ヴェーダ用拡張
Vedic Extensions
48 43 Common (15文字), Inherited (27文字)
U+1D00..U+1D7F Phonetic Extensions 音声記号拡張
Phonetic Extensions
128 128 キリル文字 (2文字), ギリシア文字 (15文字), ラテン文字 (111文字)
U+1D80..U+1DBF Phonetic Extensions Supplement 音声記号拡張補助
Phonetic Extensions Supplement
64 64 ギリシア文字 (1文字), ラテン文字 (63文字)
U+1DC0..U+1DFF Combining Diacritical Marks Supplement 合成可能なダイアクリティカルマーク補助
Combining Diacritical Marks Supplement
64 63 Inherited
0 BMP U+1E00..U+1EFF Latin Extended Additional ラテン文字拡張追加
Latin Extended Additional
256 256 ラテン文字
U+1F00..U+1FFF Greek Extended ギリシア文字拡張
Greek Extended
256 233 ギリシア文字
U+2000..U+206F General Punctuation 一般句読点
General Punctuation
112 111 Common (109文字), Inherited (2文字)
U+2070..U+209F Superscripts and Subscripts 上付き・下付き
Superscripts and Subscripts
48 42 ラテン文字 (15文字), Common (27文字)
U+20A0..U+20CF Currency Symbols 通貨記号
Currency Symbols
48 32 Common
U+20D0..U+20FF Combining Diacritical Marks for Symbols 合成可能な記号用ダイアクリティカルマーク
en:Combining Diacritical Marks for Symbols
48 33 Inherited
U+2100..U+214F Letterlike Symbols 文字様記号
en:Letterlike Symbols
80 80 ギリシア文字 (1文字), ラテン文字 (4文字), Common (75文字)
U+2150..U+218F Number Forms 数字に準ずるもの
en:Number Forms
64 60 ラテン文字 (41文字), Common (19文字)
U+2190..U+21FF Arrows 矢印
Arrows
112 112 Common
U+2200..U+22FF Mathematical Operators 数学記号
Mathematical Operators
256 256 Common
0 BMP U+2300..U+23FF Miscellaneous Technical その他の技術用記号
Miscellaneous Technical
256 256 Common
U+2400..U+243F Control Pictures 制御機能用記号
Control Pictures
64 39 Common
U+2440..U+245F Optical Character Recognition 光学的文字認識
Optical Character Recognition
32 11 Common
U+2460..U+24FF Enclosed Alphanumerics 囲み英数字
Enclosed Alphanumerics
160 160 Common
U+2500..U+257F Box Drawing 罫線素片
Box Drawing
128 128 Common
U+2580..U+259F Block Elements ブロック要素
Block Elements
32 32 Common
U+25A0..U+25FF Geometric Shapes 幾何学模様
Geometric Shapes
96 96 Common
U+2600..U+26FF Miscellaneous Symbols その他の記号
Miscellaneous Symbols
256 256 Common
U+2700..U+27BF Dingbats 装飾記号
Dingbats
192 192 Common
U+27C0..U+27EF Miscellaneous Mathematical Symbols-A その他の数学記号A
Miscellaneous Mathematical Symbols-A
48 48 Common
0 BMP U+27F0..U+27FF Supplemental Arrows-A 補助矢印A
Supplemental Arrows-A
16 16 Common
U+2800..U+28FF Braille Patterns 点字図形
Braille Patterns
256 256 点字
U+2900..U+297F Supplemental Arrows-B 補助矢印B
Supplemental Arrows-B
128 128 Common
U+2980..U+29FF Miscellaneous Mathematical Symbols-B その他の数学記号B
Miscellaneous Mathematical Symbols-B
128 128 Common
U+2A00..U+2AFF Supplemental Mathematical Operators 補助数学記号
Supplemental Mathematical Operators
256 256 Common
U+2B00..U+2BFF Miscellaneous Symbols and Arrows その他の記号及び矢印
Miscellaneous Symbols and Arrows
256 252 Common
U+2C00..U+2C5F Glagolitic グラゴル文字
Glagolitic
96 94 グラゴル文字
U+2C60..U+2C7F Latin Extended-C ラテン文字拡張C
Latin Extended-C
32 32 ラテン文字
U+2C80..U+2CFF Coptic コプト文字
Coptic
128 123 コプト文字
U+2D00..U+2D2F Georgian Supplement グルジア文字補助
Georgian Supplement
48 40 グルジア文字
0 BMP U+2D30..U+2D7F Tifinagh ティフィナグ文字
Tifinagh
80 59 ティフィナグ文字
U+2D80..U+2DDF Ethiopic Extended エチオピア文字拡張
Ethiopic Extended
96 79 エチオピア文字
U+2DE0..U+2DFF Cyrillic Extended-A キリル文字拡張A
Cyrillic Extended-A
32 32 キリル文字
U+2E00..U+2E7F Supplemental Punctuation 補助句読点
Supplemental Punctuation
128 80 Common
U+2E80..U+2EFF CJK Radicals Supplement CJK部首補助
CJK Radicals Supplement
128 115 漢字
U+2F00..U+2FDF Kangxi Radicals 康煕部首
Kangxi Radicals
224 214 漢字
U+2FF0..U+2FFF Ideographic Description Characters 漢字構成記述文字
Ideographic Description Characters
16 12 Common
U+3000..U+303F CJK Symbols and Punctuation CJKの記号及び句読点
en:CJK Symbols and Punctuation
64 64 漢字 (15文字), ハングル (2文字), Common (43文字), Inherited (4文字)
U+3040..U+309F Hiragana 平仮名
Hiragana
96 93 平仮名 (89文字), Common (2文字), Inherited (2文字)
U+30A0..U+30FF Katakana 片仮名
Katakana
96 96 片仮名 (93文字), Common (3文字)
0 BMP U+3100..U+312F Bopomofo 注音字母
Bopomofo
48 42 注音符号
U+3130..U+318F Hangul Compatibility Jamo ハングル互換字母
Hangul Compatibility Jamo
96 94 ハングル
U+3190..U+319F Kanbun 漢文用記号
Kanbun
16 16 Common
U+31A0..U+31BF Bopomofo Extended 注音字母拡張
en:Bopomofo Extended
32 27 注音符号
U+31C0..U+31EF CJK Strokes CJKの筆画
CJK Strokes
48 36 Common
U+31F0..U+31FF Katakana Phonetic Extensions 片仮名拡張
Katakana Phonetic Extensions
16 16 片仮名
U+3200..U+32FF Enclosed CJK Letters and Months 囲みCJK文字・月
Enclosed CJK Letters and Months
256 255 ハングル (62文字), 片仮名 (47文字), Common (146文字)
U+3300..U+33FF CJK Compatibility CJK互換用文字
CJK Compatibility
256 256 片仮名 (88文字), Common (168文字)
U+3400..U+4DBF CJK Unified Ideographs Extension A CJK統合漢字拡張A
CJK Unified Ideographs Extension A
6,592 6,582 漢字
U+4DC0..U+4DFF Yijing Hexagram Symbols 易経記号
Yijing Hexagram Symbols
64 64 Common
0 BMP U+4E00..U+9FFF CJK Unified Ideographs CJK統合漢字
CJK Unified Ideographs
20,992 20,976 漢字
U+A000..U+A48F Yi Syllables イ文字
Yi Syllables
1,168 1,165 イ文字
U+A490..U+A4CF Yi Radicals イ文字部首
Yi Radicals
64 55 イ文字
U+A4D0..U+A4FF Lisu リス文字
Lisu
48 48 リス文字
U+A500..U+A63F Vai ヴァイ文字
Vai
320 300 ヴァイ文字
U+A640..U+A69F Cyrillic Extended-B キリル文字拡張B
Cyrillic Extended-B
96 96 キリル文字
U+A6A0..U+A6FF Bamum バムン文字
Bamum
96 88 バムン文字
U+A700..U+A71F Modifier Tone Letters 声調修飾文字
Modifier Tone Letters
32 32 Common
U+A720..U+A7FF Latin Extended-D ラテン文字拡張D
Latin Extended-D
224 174 ラテン文字 (169文字), Common (5文字)
U+A800..U+A82F Syloti Nagri シロティ・ナグリ文字
Syloti Nagri
48 44 シロティ・ナグリ文字
0 BMP U+A830..U+A83F Common Indic Number Forms インド慣用数量記号
Common Indic Number Forms
16 10 Common
U+A840..U+A87F Phags-pa パスパ文字
Phags-pa
64 56 パスパ文字
U+A880..U+A8DF Saurashtra サウラーシュトラ文字
Saurashtra
96 82 サウラーシュトラ文字
U+A8E0..U+A8FF Devanagari Extended デーヴァナーガリー文字拡張
Devanagari Extended
32 32 デーヴァナーガリー文字
U+A900..U+A92F Kayah Li カヤー文字
Kayah Li
48 48 カヤー文字英語版 (47文字), Common (1文字)
U+A930..U+A95F Rejang ルジャン文字
Rejang
48 37 ルジャン文字
U+A960..U+A97F Hangul Jamo Extended-A ハングル字母拡張A
Hangul Jamo Extended-A
32 29 ハングル
U+A980..U+A9DF Javanese ジャワ文字
Javanese
96 91 ジャワ文字 (90文字), Common (1文字)
U+A9E0..U+A9FF Myanmar Extended-B ビルマ文字拡張B
Myanmar Extended-B
32 31 ビルマ文字
U+AA00..U+AA5F Cham チャム文字
Cham
96 83 チャム文字
0 BMP U+AA60..U+AA7F Myanmar Extended-A ビルマ文字拡張A
Myanmar Extended-A
32 32 ビルマ文字
U+AA80..U+AADF Tai Viet タイ・ヴィエト文字
Tai Viet
96 72 タイ・ヴィエト文字
U+AAE0..U+AAFF Meetei Mayek Extensions メイテイ文字拡張
Meetei Mayek Extensions
32 23 メイテイ文字
U+AB00..U+AB2F Ethiopic Extended-A エチオピア文字拡張A
Ethiopic Extended-A
48 32 エチオピア文字
U+AB30..U+AB6F Latin Extended-E ラテン文字拡張E
Latin Extended-E
64 56 ラテン文字 (54文字), ギリシア文字 (1文字), Common (1文字)
U+AB70..U+ABBF Cherokee Supplement チェロキー文字補助
Cherokee Supplement
80 80 チェロキー文字
U+ABC0..U+ABFF Meetei Mayek メイテイ文字
Meetei Mayek
64 56 メイテイ文字
U+AC00..U+D7AF Hangul Syllables ハングル音節文字
Hangul Syllables
11,184 11,172 ハングル
U+D7B0..U+D7FF Hangul Jamo Extended-B ハングル字母拡張B
Hangul Jamo Extended-B
80 72 ハングル
U+D800..U+DB7F High Surrogates サロゲート (high surrogate)
High Surrogates
896 0 Unknown
0 BMP U+DB80..U+DBFF High Private Use Surrogates サロゲート (high private use surrogate)
High Private Use Surrogates
128 0 Unknown
U+DC00..U+DFFF Low Surrogates サロゲート (low surrogate)
Low Surrogates
1,024 0 Unknown
U+E000..U+F8FF Private Use Area 私用領域
Private Use Area
6,400 6,400 Unknown
U+F900..U+FAFF CJK Compatibility Ideographs CJK互換漢字
CJK Compatibility Ideographs
512 472 漢字
U+FB00..U+FB4F Alphabetic Presentation Forms アルファベット表示形
Alphabetic Presentation Forms
80 58 Armenian (5文字), Hebrew (46文字), ラテン文字 (7文字)
U+FB50..U+FDFF Arabic Presentation Forms-A アラビア表示形A
Arabic Presentation Forms-A
688 611 アラビア文字 (609文字), Common (2文字)
U+FE00..U+FE0F Variation Selectors 字形選択子
Variation Selectors
16 16 Inherited
U+FE10..U+FE1F Vertical Forms 縦書き形
Vertical Forms
16 10 Common
U+FE20..U+FE2F Combining Half Marks 合成可能な半記号
Combining Half Marks
16 16 キリル文字 (2文字), Inherited (14文字)
U+FE30..U+FE4F CJK Compatibility Forms CJK互換形
CJK Compatibility Forms
32 32 Common
0 BMP U+FE50..U+FE6F Small Form Variants 小字形
Small Form Variants
32 26 Common
U+FE70..U+FEFF Arabic Presentation Forms-B アラビア表示形B
Arabic Presentation Forms-B
144 141 アラビア文字 (140文字), Common (1文字)
U+FF00..U+FFEF Halfwidth and Fullwidth Forms 半角・全角形
Halfwidth and Fullwidth Forms
240 225 ハングル (52文字), 片仮名 (55文字), ラテン文字 (52文字), Common (66文字)
U+FFF0..U+FFFF Specials 特殊用途文字
Specials
16 5 Common
1 SMP U+10000..U+1007F Linear B Syllabary 線文字B音節文字
Linear B Syllabary
128 88 線文字B
U+10080..U+100FF Linear B Ideograms 線文字B表意文字
Linear B Ideograms
128 123 線文字B
U+10100..U+1013F Aegean Numbers エーゲ数字
Aegean Numbers
64 57 Common
U+10140..U+1018F Ancient Greek Numbers 古代ギリシア数字
Ancient Greek Numbers
80 79 ギリシア文字
U+10190..U+101CF Ancient Symbols 古代記号
Ancient Symbols
64 13 ギリシア文字 (1文字), Common (12文字)
U+101D0..U+101FF Phaistos Disc ファイストスの円盤文字
Phaistos Disc
48 46 Common (45文字), Inherited (1文字)
U+10280..U+1029F Lycian リュキア文字
Lycian
32 29 リュキア文字
U+102A0..U+102DF Carian カリア文字
Carian
64 49 カリア文字
U+102E0..U+102FF Coptic Epact Numbers コプト・エパクト数字
Coptic Epact Numbers
32 28 Common (27文字), Inherited (1文字)
U+10300..U+1032F Old Italic 古代イタリア文字
Old Italic
48 39 古代イタリア文字
1 SMP U+10330..U+1034F Gothic ゴート文字
Gothic
32 27 ゴート文字
U+10350..U+1037F Old Permic 古ペルム文字
Old Permic
48 43 古ペルム文字
U+10380..U+1039F Ugaritic ウガリト文字
Ugaritic
32 31 ウガリト文字
U+103A0..U+103DF Old Persian 古代ペルシャ文字
Old Persian
64 50 古代ペルシャ文字
U+10400..U+1044F Deseret デザレット文字
Deseret
80 80 デザレット文字
U+10450..U+1047F Shavian ショー文字
Shavian
48 48 ショー文字
U+10480..U+104AF Osmanya オスマニア文字
Osmanya
48 40 オスマニヤ文字
U+104B0..U+104FF Osage オセージ文字
Osage
80 72 オセージ文字英語版
U+10500..U+1052F Elbasan エルバサン文字
Elbasan
48 40 エルバサン文字英語版
U+10530..U+1056F Caucasian Albanian カフカス・アルバニア文字
Caucasian Albanian
64 53 カフカス・アルバニア文字英語版
1 SMP U+10570..U+105BF Vithkuqi ビタクチェ文字
Vithkuqi
80 70 ビタクチェ文字英語版
U+10600..U+1077F Linear A 線文字A
Linear A
384 341 線文字A
U+10780..U+107BF Latin Extended-F ラテン文字拡張F
Latin Extended-F
64 57 ラテン文字
U+10800..U+1083F Cypriot Syllabary キプロス音節文字
Cypriot Syllabary
64 55 キプロス音節文字
U+10840..U+1085F Imperial Aramaic 帝国アラム文字
Imperial Aramaic
32 31 アラム文字
U+10860..U+1087F Palmyrene パルミラ文字
Palmyrene
32 32 パルミラ文字
U+10880..U+108AF Nabataean ナバテア文字
Nabataean
48 40 ナバテア文字
U+108E0..U+108FF Hatran ハトラ文字
Hatran
32 26 ハトラ文字英語版
U+10900..U+1091F Phoenician フェニキア文字
Phoenician
32 29 フェニキア文字
U+10920..U+1093F Lydian リュディア文字
Lydian
32 27 リュディア文字
1 SMP U+10980..U+1099F Meroitic Hieroglyphs メロエ文字楷書体
Meroitic Hieroglyphs
32 32 メロエ文字楷書体
U+109A0..U+109FF Meroitic Cursive メロエ文字草書体
Meroitic Cursive
96 90 メロエ文字草書体
U+10A00..U+10A5F Kharoshthi カローシュティー文字
Kharoshthi
96 68 カローシュティー文字
U+10A60..U+10A7F Old South Arabian 古代南アラビア文字
Old South Arabian
32 32 古代南アラビア文字
U+10A80..U+10A9F Old North Arabian 古代北アラビア文字
Old North Arabian
32 32 古代北アラビア文字
U+10AC0..U+10AFF Manichaean マニ文字
Manichaean
64 51 マニ文字
U+10B00..U+10B3F Avestan アヴェスタ文字
Avestan
64 61 アヴェスタ文字
U+10B40..U+10B5F Inscriptional Parthian 碑文パルティア文字
Inscriptional Parthian
32 30 碑文パルティア文字
U+10B60..U+10B7F Inscriptional Pahlavi 碑文パフラヴィ文字
Inscriptional Pahlavi
32 27 碑文パフラヴィ文字
U+10B80..U+10BAF Psalter Pahlavi 詩編パフラヴィ文字
Psalter Pahlavi
48 29 詩編パフラヴィ文字
1 SMP U+10C00..U+10C4F Old Turkic 突厥文字
Old Turkic
80 73 突厥文字
U+10C80..U+10CFF Old Hungarian 古ハンガリー文字
Old Hungarian
128 108 古ハンガリー文字
U+10D00..U+10D3F Hanifi Rohingya ハニーフィー・ロヒンギャ文字
Hanifi Rohingya
64 50 ハニーフィー・ロヒンギャ文字
U+10E60..U+10E7F Rumi Numeral Symbols ルミ数字記号
Rumi Numeral Symbols
32 31 アラビア文字
U+10E80..U+10EBF Yezidi ヤズィーディー文字
Yezidi
64 47 ヤズィーディー文字
U+10EC0..U+10EFF Arabic Extended-C アラビア文字拡張C
Arabic Extended-C
64 3 アラビア文字
U+10F00..U+10F2F Old Sogdian 古ソグド文字
Old Sogdian
48 40 古ソグド文字
U+10F30..U+10F6F Sogdian ソグド文字
Sogdian
64 42 ソグド文字
U+10F70..U+10FAF Old Uyghur 古ウイグル文字
Old Uyghur
64 26 古ウイグル文字
U+10FB0..U+10FDF Chorasmian ホラズム文字
Chorasmian
48 28 ホラズム文字
1 SMP U+10FE0..U+10FFF Elymaic エリマイス文字
Elymaic
32 23 エリマイス文字英語版
U+11000..U+1107F Brahmi ブラーフミー文字
Brahmi
128 109 ブラーフミー文字
U+11080..U+110CF Kaithi カイティー文字
Kaithi
80 67 カイティー文字
U+110D0..U+110FF Sora Sompeng ソラングソンペング文字
Sora Sompeng
48 35 ソラング・ソンペング文字
U+11100..U+1114F Chakma チャクマ文字
Chakma
80 70 チャクマ文字英語版
U+11150..U+1117F Mahajani マハージャニー文字
Mahajani
48 39 マハージャニー文字
U+11180..U+111DF Sharada シャーラダー文字
Sharada
96 94 シャーラダー文字
U+111E0..U+111FF Sinhala Archaic Numbers 旧シンハラ数字
Sinhala Archaic Numbers
32 20 シンハラ文字
U+11200..U+1124F Khojki ホジャ文字
Khojki
80 62 ホジャ文字英語版
U+11280..U+112AF Multani ムルターニー文字
Multani
48 38 ムルターニー文字英語版
1 SMP U+112B0..U+112FF Khudawadi フダーワーディー文字
Khudawadi
80 69 フダーワーディー文字英語版
U+11300..U+1137F Grantha グランタ文字
Grantha
128 86 グランタ文字
U+11400..U+1147F Newa ネワ文字
Newa
128 92 ネワ文字英語版
U+11480..U+114DF Tirhuta ティルフータ文字
Tirhuta
96 82 マイティリー文字
U+11580..U+115FF Siddham 悉曇文字
Siddham
128 92 悉曇文字
U+11600..U+1165F Modi モーディー文字
Modi
96 79 モーディー文字
U+11660..U+1167F Mongolian Supplement モンゴル文字補助
Mongolian Supplement
32 13 モンゴル文字
U+11680..U+116CF Takri タークリー文字
Takri
80 67 タークリー文字
U+11700..U+1174F Ahom アーホム文字
Ahom
80 58 アーホム文字
U+11800..U+1184F Dogra ドーグリー文字
Dogra
80 60 ドーグリー文字
1 SMP U+118A0..U+118FF Warang Citi ワラング・クシティ文字
Warang Citi
96 84 ワラング・クシティ文字
U+11900..U+1195F Dives Akuru ディヴェス・アクル文字
Dives Akuru
96 72 ディヴェス・アクル文字英語版
U+119A0..U+119FF Nandinagari ナンディナーガリー文字
Nandinagari
96 65 ナンディナーガリー文字英語版
U+11A00..U+11A4F Zanabazar Square ザナバザル方形文字
Zanabazar Square
80 72 ザナバザル方形文字英語版
U+11A50..U+11AAF Soyombo ソヨンボ文字
Soyombo
96 83 ソヨンボ文字
U+11AB0..U+11ABF Unified Canadian Aboriginal Syllabics Extended-A 統合カナダ先住民音節拡張A
Unified Canadian Aboriginal Syllabics Extended-A
16 16 カナダ先住民文字
U+11AC0..U+11AFF Pau Cin Hau パウ・チン・ハウ文字
Pau Cin Hau
64 57 パウ・チン・ハウ文字英語版
U+11C00..U+11C6F Bhaiksuki バイクシュキー文字
Bhaiksuki
112 97 バイクシュキー文字英語版
U+11C70..U+11CBF Marchen マルチェン文字
Marchen
80 68 マルチェン文字英語版
U+11D00..U+11D5F Masaram Gondi マサラム・ゴーンディー文字
Masaram Gondi
96 75 マサラム・ゴーンディー文字英語版
1 SMP U+11D60..U+11DAF Gunjala Gondi グンジャラ・ゴーンディー文字
Gunjala Gondi
80 63 グンジャラ・ゴーンディー文字
U+11EE0..U+11EFF Makasar マカッサル文字
Makasar
32 25 マカッサル文字
U+11F00..U+11F5F Kawi カウィ文字
Kawi
96 86 カウィ文字英語版
U+11FB0..U+11FBF Lisu Supplement リス文字補助
Lisu Supplement
16 1 リス文字
U+11FC0..U+11FFF Tamil Supplement タミル文字補助
Tamil Supplement
64 51 タミル文字
U+12000..U+123FF Cuneiform 楔形文字
Cuneiform
1,024 922 楔形文字
U+12400..U+1247F Cuneiform Numbers and Punctuation 楔形文字の数字及び句読点
Cuneiform Numbers and Punctuation
128 116 楔形文字
U+12480..U+1254F Early Dynastic Cuneiform シュメール楔形文字
Early Dynastic Cuneiform
208 196 楔形文字
U+12F90..U+12FFF Cypro-Minoan キュプロ・ミノア文字
Cypro-Minoan
112 99 キュプロ・ミノア文字
U+13000..U+1342F Egyptian Hieroglyphs エジプト聖刻文字
Egyptian Hieroglyphs
1,072 1,071 エジプト聖刻文字
1 SMP U+13430..U+1343F Egyptian Hieroglyph Format Controls エジプト聖刻文字書式制御記号
Egyptian Hieroglyph Format Controls
16 9 エジプト聖刻文字
U+14400..U+1467F Anatolian Hieroglyphs アナトリア聖刻文字
Anatolian Hieroglyphs
640 583 アナトリア聖刻文字
U+16800..U+16A3F Bamum Supplement バムン文字補助
Bamum Supplement
576 569 バムン文字
U+16A40..U+16A6F Mro ムロ文字
Mro
48 43 ムロ文字英語版
U+16AD0..U+16AFF Bassa Vah バサ文字
Bassa Vah
48 36 バサ文字
U+16B00..U+16B8F Pahawh Hmong パハウ・フモン文字
Pahawh Hmong
144 127 パハウ・フモン文字
U+16E40..U+16E9F Medefaidrin メデファイドリン文字
Medefaidrin
96 91 メデファイドリン文字
U+16F00..U+16F9F Miao ミャオ文字
Miao
160 149 ミャオ文字
U+16FE0..U+16FFF Ideographic Symbols and Punctuation 漢字の記号及び句読点
Ideographic Symbols and Punctuation
32 4 女書 (1文字), 西夏文字 (1文字), Common (2文字)
U+17000..U+187FF Tangut 西夏文字
Tangut
6,144 6,136 西夏文字
1 SMP U+18800..U+18AFF Tangut Components 西夏文字の構成要素
Tangut Components
768 755 西夏文字
U+18B00..U+18CFF Khitan Small Script 契丹小字
Khitan Small Script
512 470 契丹小字
U+18D00..U+18D7F Tangut Supplement 西夏文字補助
Tangut Supplement
128 9 西夏文字
U+1AFF0..U+1AFFF Kana Extended-B 仮名拡張B
Kana Extended-B
16 13 片仮名
U+1B000..U+1B0FF Kana Supplement 仮名補助
Kana Supplement
256 256 平仮名 (255文字), 片仮名 (1文字)
U+1B100..U+1B12F Kana Extended-A 仮名拡張A
Kana Extended-A
48 31 平仮名 (32文字), 片仮名 (3文字)
U+1B130..U+1B16F Small Kana Extension 小書き仮名拡張
Small Kana Extension
64 7 平仮名(4文字), 片仮名(5文字)
U+1B170..U+1B2FF Nushu 女書
Nushu
400 396 女書
U+1BC00..U+1BC9F Duployan デュプロワイエ式速記
Duployan
160 143 デュプロワイエ式速記英語版
U+1BCA0..U+1BCAF Shorthand Format Controls 速記書式制御記号
Shorthand Format Controls
16 4 Common
1 SMP U+1CF00..U+1CFCF Znamenny Musical Notation ズナメニ聖歌音符
Znamenny Musical Notation
208 185 Common (116文字),Inherited (69文字)
U+1D000..U+1D0FF Byzantine Musical Symbols ビザンチン音楽記号
Byzantine Musical Symbols
256 246 Common
U+1D100..U+1D1FF Musical Symbols 音楽記号
Musical Symbols
256 231 Common (209文字), Inherited (22文字)
U+1D200..U+1D24F Ancient Greek Musical Notation 古代ギリシア音符記号
Ancient Greek Musical Notation
80 70 ギリシア文字
U+1D2C0..U+1D2DF Kaktovik Numerals カクトヴィク数字
Kaktovik Numerals
32 20 Common
U+1D2E0..U+1D2FF Mayan Numerals マヤ数字
Mayan Numerals
32 20 Common
U+1D300..U+1D35F Tai Xuan Jing Symbols 太玄経記号
Tai Xuan Jing Symbols
96 87 Common
U+1D360..U+1D37F Counting Rod Numerals 算木用数字
en:Counting Rod Numerals
32 25 Common
U+1D400..U+1D7FF Mathematical Alphanumeric Symbols 数学用英数字記号
Mathematical Alphanumeric Symbols
1,024 996 Common
U+1D800..U+1DAAF Sutton SignWriting サットン手話表記法
Sutton SignWriting
688 672 サットン手話表記法英語版
1 SMP U+1DF00..U+1DFFF Latin Extended-G ラテン文字拡張G
Latin Extended-G
256 37 ラテン文字
U+1E000..U+1E02F Glagolitic Supplement グラゴル文字補助
Glagolitic Supplement
48 38 グラゴル文字
U+1E030..U+1E08F Cyrillic Extended-D キリル文字拡張D
Cyrillic Extended-D
96 63 キリル文字
U+1E100..U+1E14F Nyiakeng Puachue Hmong Nyiakeng Puachue Hmong文字
Nyiakeng Puachue Hmong
80 71 Nyiakeng Puachue Hmong文字
U+1E290..U+1E2BF Toto トト
Toto
48 31 トト文字
U+1E2C0..U+1E2FF Wancho ワンチョ文字
Wancho
64 59 ワンチョ文字英語版
U+1E4D0..U+1E4FF Nag Mundari ムンダリ・バニ文字
Nag Mundari
48 42 ムンダリ・バニ文字英語版
U+1E7E0..U+1E7FF Ethiopic Extended-B エチオピア文字拡張B
Ethiopic Extended-B
32 28 エチオピア文字
U+1E800..U+1E8DF Mende Kikakui メンデ文字
Mende Kikakui
224 213 メンデ文字
U+1E900..U+1E95F Adlam アドラム文字
Adlam
96 88 アドラム文字英語版
1 SMP U+1EC70..U+1ECBF Indic Siyaq Numbers インド・シヤク数字
Indic Siyaq Numbers
80 68 Common
U+1ED00..U+1ED4F Ottoman Siyaq Numbers オスマン・シヤク数字
Ottoman Siyaq Numbers
80 61 Common
U+1EE00..U+1EEFF Arabic Mathematical Alphabetic Symbols アラビア数字記号
Arabic Mathematical Alphabetic Symbols
256 143 アラビア文字
U+1F000..U+1F02F Mahjong Tiles マージャン記号
Mahjong Tiles
48 44 Common
U+1F030..U+1F09F Domino Tiles ドミノ記号
en:Domino Tiles
112 100 Common
U+1F0A0..U+1F0FF Playing Cards トランプ記号
Playing Cards
96 82 Common
U+1F100..U+1F1FF Enclosed Alphanumeric Supplement 囲み英数字補助
Enclosed Alphanumeric Supplement
256 193 Common
U+1F200..U+1F2FF Enclosed Ideographic Supplement 囲み漢字補助
Enclosed Ideographic Supplement
256 64 平仮名 (1文字), Common (63文字)
U+1F300..U+1F5FF Miscellaneous Symbols and Pictographs その他の記号及び絵記号
Miscellaneous Symbols and Pictographs
768 768 Common
U+1F600..U+1F64F Emoticons 顔文字
Emoticons
80 80 Common
1 SMP U+1F650..U+1F67F Ornamental Dingbats 装飾用絵記号
Ornamental Dingbats
48 48 Common
U+1F680..U+1F6FF Transport and Map Symbols 交通及び地図記号
Transport and Map Symbols
128 110 Common
U+1F700..U+1F77F Alchemical Symbols 錬金術記号
Alchemical Symbols
128 116 Common
U+1F780..U+1F7FF Geometric Shapes Extended 幾何学模様拡張
Geometric Shapes Extended
128 101 Common
U+1F800..U+1F8FF Supplemental Arrows-C 補助矢印C
Supplemental Arrows-C
256 148 Common
U+1F900..U+1F9FF Supplemental Symbols and Pictographs 補助記号及び絵記号
Supplemental Symbols and Pictographs
256 244 Common
U+1FA00..U+1FA6F Chess Symbols チェス記号
Chess Symbols
112 98 Common
U+1FA70..U+1FAFF Symbols and Pictographs Extended-A 記号及び絵記号拡張A
Symbols and Pictographs Extended-A
144 16 Common
U+1FB00..U+1FBFF Symbols for Legacy Computing 旧型コンピュータ記号
Symbols for Legacy Computing
256 212 Common
2 SIP U+20000..U+2A6DF CJK Unified Ideographs Extension B CJK統合漢字拡張B
CJK Unified Ideographs Extension B
42,720 42,711 漢字
U+2A700..U+2B73F CJK Unified Ideographs Extension C CJK統合漢字拡張C
en:CJK Unified Ideographs Extension C
4,160 4,149 漢字
U+2B740..U+2B81F CJK Unified Ideographs Extension D CJK統合漢字拡張D
en:CJK Unified Ideographs Extension D
224 222 漢字
U+2B820..U+2CEAF CJK Unified Ideographs Extension E CJK統合漢字拡張E
en:CJK Unified Ideographs Extension E
5,776 5,762 漢字
U+2CEB0..U+2EBEF CJK Unified Ideographs Extension F CJK統合漢字拡張F
en:CJK Unified Ideographs Extension F
7,488 7,473 漢字
U+2EBF0..U+2EE5F CJK Unified Ideographs Extension I CJK統合漢字拡張I
en:CJK Unified Ideographs Extension I
624 622 漢字
U+2F800..U+2FA1F CJK Compatibility Ideographs Supplement CJK互換漢字補助
en:CJK Compatibility Ideographs Supplement
544 542 漢字
3 TIP U+30000..U+3134F CJK Unified Ideographs Extension G CJK統合漢字拡張G
en:CJK Unified Ideographs Extension G
4,944 4,939 漢字
U+31350..U+323AF CJK Unified Ideographs Extension H CJK統合漢字拡張H
en:CJK Unified Ideographs Extension H
4,192 4,192 漢字
14 SSP U+E0000..U+E007F Tags タグ
Tags
128 97 Common
U+E0100..U+E01EF Variation Selectors Supplement 字形選択子補助
en:Variation Selectors Supplement
240 240 Inherited
15 PUA-A U+F0000..U+FFFFF Supplementary Private Use Area-A 補助私用領域A
Supplementary Private Use Area-A
65,536 65,534 Unknown
16 PUA-B U+100000..U+10FFFF Supplementary Private Use Area-B 補助私用領域B
Supplementary Private Use Area-B
65,536 65,534 Unknown
  1. ^ a b Unicode Blocks data file. As of Unicode version 12.1
  2. ^ Unicodeデータファイル[一覧 1]で定義されている値を記載する。
  3. ^ 日本語名称は、原則としてJIS X 0221:2014 附属書A A.2「ブロックの一覧」の「日本語による通用名称(参考)」に準拠する。ただし、一部でWikipeiaの項目名にふさわしい形に改変している(「ダイアクリティカルマーク(合成可能)」→「合成可能なダイアクリティカルマーク」、「けい線素辺」→「罫線素片」など)。また、JIS X 0221:2014はUnicode6.1に準拠したものであり、その後にUnicodeに追加されたブロックの、この表に記載された日本語名称は暫定的なものである。
  4. ^ 符号位置 (code point) には未割当 (unassigned)、すなわち非文字 (non-character) および保留 (reserved) の符号位置も数えている。
  5. ^ 各々の用字 (script) は、各ブロック中で一個または複数個の文字を持つ。これは文字の用字特性 (Script Property) で定義される。用字特性はブロックの名前とは独立である。
  6. ^ "Common" および "Unknown" (Zyyy) および "Inherited"(Zinh または Qaai)は、ISO 15924の用字を参照する。
  7. ^ UAX 24: Unicode Script Property (4 alpha code)
  8. ^ UAX 24: Script data file
  9. ^ ISO/IEC 10646では "C0 Controls and Basic Latin" と呼ばれる。
  10. ^ ISO/IEC 10646では "C1 Controls and Latin-1 Supplement" と呼ばれる。

脚注

[編集]

注釈

[編集]
  1. ^ UTF-8はPlan 9が由来。
  2. ^ 例えばShift_JISの実装であるCP932MacJapaneseEUC-JPの亜種であるCP51932とeucJP-ms、など。
  3. ^ 図形文字、書式文字。
  4. ^ a b 「吉」U+5409 の異体字で、上部が「士」ではなく「土」となっており、下の棒が長い。「つちよし」とも。
  5. ^ 通貨ユーロ記号
  6. ^ 2019年3月現在では、古代漢字や甲骨文字はまだ1文字も収録されていない。
  7. ^ RFC 3629の 5. Versions of the standards でKorean mess(ハングル大移動)について、8. MIME registration でUTF-8にバージョン指定がない理由についての言及がある。

出典

[編集]
  1. ^ a b 師茂樹Unicodeとのつきあい方 ―漢字文化圏を中心に―」第27巻、一般社団法人 CIEC、2009年、2020年5月14日閲覧 
  2. ^ The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 921 (2018年6月5日). 2019年2月23日閲覧。 “Today both organizations are firmly committed to maintaining the synchronization between the Unicode Standard and ISO/IEC 10646.”
  3. ^ The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 3 (2018年6月5日). 2019年1月15日閲覧。
  4. ^ UTR#17: Unicode Character Encoding Model” (English). The Unicode Consortium (2008年11月11日). 2019年5月21日閲覧。
  5. ^ The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 29 (2019年5月7日). 2019年5月21日閲覧。 “The range of integers used to code the abstract characters is called the codespace. A particular integer in this set is called a code point. When an abstract character is mapped or assigned to a particular code point in the codespace, it is then referred to as an encoded character.”
  6. ^ The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 29 (2019年5月7日). 2019年5月21日閲覧。 “an abstract character may be represented by a sequence of two (or more) other encoded characters.”
  7. ^ The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 1,29 (2018年6月5日). 2019年1月15日閲覧。
  8. ^ The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 954 (2019年5月7日). 2019年5月21日閲覧。
  9. ^ The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 120 (2018年6月5日). 2019年1月15日閲覧。 “D76 Unicode scalar value: Any Unicode code point except high-surrogate and low-surrogate code points.”
  10. ^ The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 40 (2019年5月7日). 2019年9月26日閲覧。 “Use of a BOM is neither required nor recommended for UTF-8,”
  11. ^ The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 119 (2018年6月5日). 2019年1月15日閲覧。 “Surrogate pairs are used only in UTF-16.”
  12. ^ About Versions of the Unicode® Standard” (English). Unicode Consortium (2015年6月18日). 2015年7月31日閲覧。
  13. ^ a b Components of The Unicode Standard Version 1.0.0” (English). Unicode Consortium (2010年12月3日). 2013年10月5日閲覧。
  14. ^ a b Components of The Unicode Standard Version 1.0.1” (English). Unicode Consortium (2010年12月3日). 2013年10月5日閲覧。
  15. ^ a b Components of The Unicode Standard Version 1.1.0” (English). Unicode Consortium (2010年12月3日). 2013年10月5日閲覧。
  16. ^ a b Components of The Unicode Standard Version 1.1.5” (English). Unicode Consortium (2010年12月3日). 2013年10月5日閲覧。
  17. ^ a b Components of The Unicode Standard Version 2.0.0” (English). Unicode Consortium (2011年1月12日). 2013年10月5日閲覧。
  18. ^ a b Unicode 2.1.0” (English). Unicode Consortium (2011年1月12日). 2013年10月5日閲覧。
  19. ^ a b Components of The Unicode Standard Version 2.1.2” (English). Unicode Consortium (2010年12月15日). 2013年10月5日閲覧。
  20. ^ a b Components of The Unicode Standard Version 2.1.5” (English). Unicode Consortium (2010年12月15日). 2013年10月5日閲覧。
  21. ^ a b Components of The Unicode Standard Version 2.1.8” (English). Unicode Consortium (2010年12月15日). 2013年10月5日閲覧。
  22. ^ a b Components of The Unicode Standard Version 2.1.9” (English). Unicode Consortium (2010年12月15日). 2013年10月5日閲覧。
  23. ^ a b Components of The Unicode Standard Version 3.0.0” (English). Unicode Consortium (2010年12月21日). 2013年10月5日閲覧。
  24. ^ a b Components of The Unicode Standard Version 3.0.1” (English). Unicode Consortium (2010年12月18日). 2013年10月5日閲覧。
  25. ^ a b Components of The Unicode Standard Version 3.1.0” (English). Unicode Consortium (2010年12月23日). 2013年10月5日閲覧。
  26. ^ a b Components of The Unicode Standard Version 3.1.1” (English). Unicode Consortium (2010年12月18日). 2013年10月5日閲覧。
  27. ^ a b Components of The Unicode Standard Version 3.2.0” (English). Unicode Consortium (2010年12月23日). 2013年10月5日閲覧。
  28. ^ a b Components of The Unicode Standard Version 4.0.0” (English). Unicode Consortium (2010年12月22日). 2013年10月5日閲覧。
  29. ^ a b Components of The Unicode Standard Version 4.0.1” (English). Unicode Consortium (2010年12月1日). 2013年10月5日閲覧。
  30. ^ a b Components of The Unicode Standard Version 4.1.0” (English). Unicode Consortium (2010年12月1日). 2013年10月5日閲覧。
  31. ^ a b Components of The Unicode Standard Version 5.0.0” (English). Unicode Consortium (2011年1月7日). 2013年10月5日閲覧。
  32. ^ a b Unicode Consortium. “Components of The Unicode Version 5.1.0”. 2008年4月5日閲覧。
  33. ^ Unicode Consortium. “Unicode 5.1.0”. 2008年4月8日閲覧。
  34. ^ Unicode Consortium. “Ideographic Variation Database”. 2008年4月7日閲覧。
  35. ^ a b Components of The Unicode Standard Version 5.2.0” (English). Unicode Consortium (2011年1月12日). 2013年10月5日閲覧。
  36. ^ a b Components of The Unicode Standard Version 6.0.0” (English). Unicode Consortium (2011年3月18日). 2013年10月5日閲覧。
  37. ^ a b Components of The Unicode Standard Version 6.1.0” (English). Unicode Consortium (2012年5月15日). 2013年10月5日閲覧。
  38. ^ a b Components of The Unicode Standard Version 6.2.0” (English). Unicode Consortium (2012年11月17日). 2013年10月5日閲覧。
  39. ^ a b Components of The Unicode Standard Version 6.3.0” (English). Unicode Consortium (2013年9月28日). 2013年10月5日閲覧。
  40. ^ a b Components of The Unicode Standard Version 7.0.0” (English). Unicode Consortium (2014年6月16日). 2014年6月18日閲覧。
  41. ^ a b Components of The Unicode Standard Version 8.0.0” (English). Unicode Consortium (2015年6月17日). 2015年6月19日閲覧。
  42. ^ a b Components of The Unicode Standard Version 9.0.0” (English). Unicode Consortium (2016年6月21日). 2016年7月5日閲覧。
  43. ^ a b Components of The Unicode Standard Version 10.0.0” (English). Unicode Consortium (2017年6月20日). 2017年6月23日閲覧。
  44. ^ Components of The Unicode Standard Version 11.0.0” (English). Unicode Consortium (2018年6月5日). 2019年4�