UTF-8とは
UTF-8は、Unicodeの文字を1〜4バイトの長さで表す文字符号化方式です。英数字などASCIIの範囲はそのまま1バイトで一致するため、既存のテキストやプロトコルと高い互換性があります。現在のWebやプログラミングで最も広く使われる標準的なエンコードです。
仕組みとして、文字ごとに割り当てられたコードポイントを、値の大きさに応じて可変長のバイト列に変換します。先頭のビットパターンで何バイト構成かが分かるため、途中から読み取っても区切りを判別しやすく、UTF-16のようにエンディアンを意識する必要もありません。
Unicodeが扱う多言語の文字を一つの方式で表せること、ASCIIとの互換性で移行が容易なことが主な利点です。BOMは不要ですが、UTF-8であることを示す目的で先頭にEF BB BFを付ける場合もあります。まとめると、UTF-8は多言語対応と互換性を両立する実用的な文字コードです。
関連用語
PR

