UTF-8

Category:

 

UTF-8 (8-bit UCS Transformation Format)
 
UCS-2やUCS-4(Unicode)で定義される文字集合を用いて記述された文字列を
バイト列(数値の列)に変換する方式の一つです。
 
UTF-8では1文字を1~6バイトの可変長の数値(バイト列)に変換するようになっていますが、
現在定義されているUnicode文字をUTF-8で表現した場合、最長で4バイトのバイト列に変換されます。
 
UTF-8では、Unicodeの最初の128文字を変換した結果がASCIIとまったく同じになるため、
従来の処理システムとの親和性が高いという特徴があります。一方、日本語などの文字は
元々2バイトだったものが3バイトや4バイトで表現されてしまうため、
UTF-16と比べてデータサイズが大きくなってしまうという欠点があります。
このエントリーをはてなブックマークに追加

商品を出品したら、FacebookやTwitterなどで広めよう!

上記の”いいね”や”ツイート”ボタンをクリックするとこのページをみんなに紹介できるよ。
出品していなくてもオススメの商品をみんなに紹介しよう。

feedback