文字コードの概念
文字集合と文字エンコーディング(文字符号化方式)の2つの概念を合わせたもののこと
Unicodeとは?
Unicodeは符号化文字集合である。
文字集合(文字セット)とは、表現できる文字の集合体である(“あ”、”わ”・・・などの文字の集合体である)
符号化文字集合にはコードポイント(符号位置)と言う文字集合内の個々の文字に対して、数値(非負整数値)が割り振られている。
UTF-8
UTF-8はUnicodeの文字符号化方式である
文字符号化方式とは、コードポイントをバイト列に変換することを指す
簡単なサンプル
Unicodeのコードポイントで表した「あ」 => U+3042 UTF-8で符号化 => 0xE3 0x81 0x82 UTF-16で符号化 => 0x30 0x42