文字列のバイト数・文字数を文字コード別に自動計算
入力した文字列が何バイトになるかを、UTF-8・Shift_JIS・EUC-JP・UTF-16 といった文字コード別に計算します。データベースの桁数設計やファイルサイズの見積もり、文字数制限の確認に役立ちます。
バイト数は「各文字を指定の文字コードで符号化したときの合計バイト数」です。文字コードによって1文字に割り当てるバイト数が異なります。
例として「あA1」を計算すると、UTF-8では「あ(3バイト)+A(1バイト)+1(1バイト)=5バイト」、Shift_JISでは「2+1+1=4バイト」になります。「こんにちは」(全角5文字)はUTF-8で15バイト、Shift_JISで10バイトです。
Q. 文字数とバイト数は何が違いますか?
A. 文字数は文字の「個数」、バイト数は保存・送信に必要な「データ量」です。半角英数字なら多くのコードで一致しますが、日本語が混じるとバイト数は文字数より大きくなります。
Q. 同じ文字列なのにバイト数が違うのはなぜですか?
A. 文字コードごとに1文字あたりの符号化バイト数が違うためです。たとえば漢字はUTF-8で3バイト、Shift_JISで2バイトと、コードによって変わります。
Q. 絵文字は何バイトになりますか?
A. 多くの絵文字はUTF-8で4バイトです。さらに肌の色や合成絵文字は複数の符号が連結され、見た目1文字でも合計バイト数が大きくなることがあります。