文章から漢字・カタカナ文字を抽出するには?


サトー  2009-11-12 06:28:21  No: 146506  IP: [192.*.*.*]

こんにちは。
以下のルールで文章から単語を抽出したいと考えています。

ルール:
・漢字・カタカナが連続している文字を抽出。
・半角に変換できる数字(漢数字は上記漢字に含める)・記号・ひらがな・句読点は抽出対象外とする。
(漢字以外の全角記号は抽出対象外としたいのですが、難しいようであれば漢字と同じ扱いとします。)

例えば、以下の例文では、
「あまり長文にならないようにしてください。
エラー発生時、再送信すると二重送信になることがあります。
回答が得られたら、お礼書き込み時に[解決]チェックしてください。」

長文  エラー発生時  再送信  二重送信  回答  得  礼書  込  時  解決  チェック
が抽出されるようにしたいのです。

そこで質問ですが、
・ある文字が上記ルールに適合するかどうかを簡単に調べる方法はありますか?
・上記ルールの正規表現(RegEx)パターンを簡単に表すことができるでしょうか?
  (可能であれば、パターンをお教えください。)

宜しくお願い申し上げます。

編集 削除
サトー  2009-11-12 09:58:20  No: 146507  IP: [192.*.*.*]

VB2008ということを忘れていました。申し訳ございません。

さて、以下のサイトを参考にしてみました。
http://www.atmarkit.co.jp/fdotnet/dotnettips/054iskana/iskana.html

その結果、以下のような正規表現パターンにすれば、漢字以外の記号も除外されるようで良さそうですが、いかがでしょうか?
"(\p{IsKatakana}|\p{IsCJKUnifiedIdeographs})+"

ご指摘を頂きたく、お願い申し上げます。

編集 削除