文章から漢字・カタカナ文字を抽出するには？

サトー 2009-11-12 06:28:21 No: 146506

こんにちは。
以下のルールで文章から単語を抽出したいと考えています。

ルール：
・漢字・カタカナが連続している文字を抽出。
・半角に変換できる数字（漢数字は上記漢字に含める）・記号・ひらがな・句読点は抽出対象外とする。
（漢字以外の全角記号は抽出対象外としたいのですが、難しいようであれば漢字と同じ扱いとします。）

例えば、以下の例文では、
「あまり長文にならないようにしてください。
エラー発生時、再送信すると二重送信になることがあります。
回答が得られたら、お礼書き込み時に[解決]チェックしてください。」

長文エラー発生時再送信二重送信回答得礼書込時解決チェック
が抽出されるようにしたいのです。

そこで質問ですが、
・ある文字が上記ルールに適合するかどうかを簡単に調べる方法はありますか？
・上記ルールの正規表現（RegEx）パターンを簡単に表すことができるでしょうか？
（可能であれば、パターンをお教えください。）

宜しくお願い申し上げます。

サトー 2009-11-12 09:58:20 No: 146507

VB2008ということを忘れていました。申し訳ございません。

さて、以下のサイトを参考にしてみました。
http://www.atmarkit.co.jp/fdotnet/dotnettips/054iskana/iskana.html

その結果、以下のような正規表現パターンにすれば、漢字以外の記号も除外されるようで良さそうですが、いかがでしょうか？
"(\p{IsKatakana}|\p{IsCJKUnifiedIdeographs})+"

ご指摘を頂きたく、お願い申し上げます。