掲示板システム
ホーム
アクセス解析
カテゴリ
ログアウト
文字列の分割(UTF8) (ID:64510)
名前
ホームページ(ブログ、Twitterなど)のURL (省略可)
本文
Blueさんの提案とは別のアプローチで。 UTF-8文字列は、任意の1オクテットを取り出した場合、その取りだしたオクテットが、 - 先頭オクテットか、後続オクテットか - 先頭オクテットだった場合、何オクテットで1文字を構成するか が簡単に分かる仕様になっていますので、その判定を行う関数を自作してしまうのもひとつの手です。 具体的な分類は、オクテットを2進数で表わすと以下のようになります。 なお、一次情報としてはUnicodeフォーラムの仕様書か、RFC3629を参照するとよいでしょう。 0*******: 1オクテット文字 10******: 複数オクテット文字の後続部分 110*****: 2オクテット文字の先頭 1110****: 3オクテット文字の先頭 11110***: 4オクテット文字の先頭 111110**: 5オクテット文字の先頭 1111110*: 6オクテット文字の先頭
←解決時は質問者本人がここをチェックしてください。
更新する
戻る
掲示板システム
Copyright 2021 Takeshi Okamoto All Rights Reserved.