KOI8-R

KOI8-Rロシア語キリル文字を扱うよう設計された、8ビットの文字コードである。ブルガリア語も扱える。ここから派生したKOI8-Uには、ウクライナ語の文字が追加されている。最初のKOI-8符号はソビエト当局により1974年に設計された。

KOI8はISO 8859-5よりもはるかに広く使われ続けている。ISO 8859-5が人気だったことはない。他のよく知られたキリル語文字コードはWindows-1251である。キリル語を他の非ラテン言語と一緒に表現する方法としてUnicodeがある。

KOI8はロシア語でKod Obmena Informatsiey, 8 bit (Код Обмена Информацией, 8 бит) の略であり、「情報交換用符号、8ビット」という意味である。

KOIシリーズの文字集合におけるロシア語のキリル文字は、ISO 8859-5のような自然なキリル文字のアルファベット順ではなく、主に発音の対応するASCIIのラテン文字の符号位置の順で並べられているという特性を持つ。さらに、大文字と小文字の符号位置は逆になっている。これは一見して不自然に見えるが、8ビット目が欠落する文字化けに対処できるという利点がある。たとえば、KOI8-Rで表現した"Русский Текст" (ラテン文字転写例: Russkij Tjekst)は8ビット目を落とすと"rUSSKIJ tEKST"になる。大文字と小文字が逆になることで文字化けが発生したことが分かり、文字の発音も近いため、そのまま読めるか、少なくとも復元することはできる。また、これは正しいKOI-7として解釈できる。ASCII文字列"rUSSKIJ tEKST"をKOI-7(КОИ-7 Н1)として解釈すれば"Русский Текст"である。一方で、文字コードでソートしても正しいキリル文字の順序にならないという欠点もある。

KOI8-R
x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF
0x 制御文字
1x
2x SP ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } ~
8x
9x NBSP ° ² · ÷
Ax ё
Bx Ё ©
Cx ю а б ц д е ф г х и й к л м н о
Dx п я р с т у ж в ь ы з ш э щ ч ъ
Ex Ю А Б Ц Д Е Ф Г Х И Й К Л М Н О
Fx П Я Р С Т У Ж В Ь Ы З Ш Э Щ Ч Ъ

外部リンク

[編集]
  • RFC 1489
  • All about KOI8-R (英語)
  • Universal Cyrillic decoder (英語) 壊れたKOI8-Rや他の文字コードで書かれたキリル文字の文章の修復を手助けするオンラインのプログラム。
  • キリル文字符号化の小史 (英語)