文字数と言語からAIのトークン数をざっくり概算
単純化した目安です。実際の条件でご確認ください。
AIに文章を読ませたり書かせたりするとき、処理量の単位としてよく使われるのが「トークン」です。ところが「トークン」は文字数とも単語数とも一致しないため、自分の文章がどれくらいのトークンになるのか、感覚がつかみにくいものです。このツールは、文章の文字数と言語を入れるだけで、おおよそのトークン数をざっくり概算します。長文を扱うときの規模感を先につかんでおきたい人、日本語と英語でどれくらい差が出るのかを知りたい人が、あたりを付けるための道具として使えます。表示される数値はあくまで目安で、条件によって変わります。
計算はとてもシンプルで、推定トークン数=文字数×係数です。係数は言語で切り替わり、日本語は1、英語は0.25を使います。日本語は1文字あたりの情報量が大きく、多くの場合1文字が1トークン前後になりやすい一方、英語は複数の文字がまとめて1トークンになりやすいため、同じ文字数でもトークン数は少なめになります。
計算例①:日本語2,000字
推定トークン数=2,000×1=約2,000トークン。千トークン単位では2千トークン、同じ内容を10回投げると合計約20,000トークンの目安になります。
計算例②:英語2,000字
推定トークン数=2,000×0.25=約500トークン。同じ2,000字でも、英語のほうが日本語よりトークン数はぐっと少なくなります。これが「日本語は英語よりトークンを消費しやすい」と言われる理由です。
Q. トークンって何ですか?文字数とは違うのですか?
A. トークンはAIが文章を処理するときの最小のかたまりで、単語や文字の一部にあたります。1トークンがちょうど1文字とは限らず、言語や表記によって「1トークン=数文字」になることもあれば「1文字=複数トークン」になることもあります。このツールはその平均的なイメージを、文字数からざっくり概算するものです。
Q. なぜ日本語と英語で数値が大きく違うのですか?
A. 英語はアルファベットが連なって単語になり、その単語やよく使う文字列がまとめて1トークンになりやすいためです。日本語は1文字ごとの情報量が大きく、1文字前後で1トークンになりやすいので、同じ文字数だと日本語のほうがトークン数は多くなります。
Q. 表示された数値どおりに課金や処理量が決まりますか?
A. いいえ、あくまで目安です。実際のトークン数は使うAIモデルの分割(トークナイズ)方式によって前後します。記号・改行・専門用語の多い文章ではズレやすいため、正確な値が必要な場合は利用するサービス側のカウント機能で確認してください。