こんにちは。
以下のルールで文章から単語を抽出したいと考えています。
ルール:
・漢字・カタカナが連続している文字を抽出。
・半角に変換できる数字(漢数字は上記漢字に含める)・記号・ひらがな・句読点は抽出対象外とする。
(漢字以外の全角記号は抽出対象外としたいのですが、難しいようであれば漢字と同じ扱いとします。)
例えば、以下の例文では、
「あまり長文にならないようにしてください。
エラー発生時、再送信すると二重送信になることがあります。
回答が得られたら、お礼書き込み時に[解決]チェックしてください。」
長文 エラー発生時 再送信 二重送信 回答 得 礼書 込 時 解決 チェック
が抽出されるようにしたいのです。
そこで質問ですが、
・ある文字が上記ルールに適合するかどうかを簡単に調べる方法はありますか?
・上記ルールの正規表現(RegEx)パターンを簡単に表すことができるでしょうか?
(可能であれば、パターンをお教えください。)
宜しくお願い申し上げます。
VB2008ということを忘れていました。申し訳ございません。
さて、以下のサイトを参考にしてみました。
http://www.atmarkit.co.jp/fdotnet/dotnettips/054iskana/iskana.html
その結果、以下のような正規表現パターンにすれば、漢字以外の記号も除外されるようで良さそうですが、いかがでしょうか?
"(\p{IsKatakana}|\p{IsCJKUnifiedIdeographs})+"
ご指摘を頂きたく、お願い申し上げます。
ツイート | ![]() |