HTMLを解析してデータを取り出す方法

解決


おも  2007-11-06 23:06:03  No: 138057  IP: 192.*.*.*

お世話になっております。
VB及びプログラミング暦ひと月で、VB2005を使用しております。
WEB上のHTMLファイルからデータを取得するプログラムを作っています。
とりあえずWebClientクラスでHTMLを取得するところまではできました。
そのテキストを解析して
変数や配列にいれようというところで躓いております。

WebBrowserコントロールでページをHTMLDocumentオブジェクトで取得すれば
タグを解析しやすくて楽なのですが、なるべくWebBrowserコントロールは使わない方向で考えています。

そこで、取得した文字列を
WebBrowserコントロールを使わずにHtmlDocumentオブジェクトに変換できればと思うのですが、そういうことは可能でしょうか?
もし可能でしたら方法をご教授ください<(_ _)>

よろしくお願いいたします。

編集 削除
嘘情報  2007-11-07 07:57:09  No: 138058  IP: 192.*.*.*

> WebBrowserコントロールを使わずにHtmlDocumentオブジェクトに変換できればと思うのですが、そういうことは可能でしょうか?

できる!

編集 削除
おも  2007-11-07 20:59:43  No: 138059  IP: 192.*.*.*

う〜ん、やはりできないのでしょうかね^^;
検索しているとDOMとかXMLHTTPとか、近い情報も得られたのですが、
まだそのあたりを活用する力量が無いので諦めます。

最終的には自分で解析しなきゃいけない部分が出てくるので、
とりあえず自分でやってみます。ありがとうございました。

こんな方法がある、というのがありましたら、
引き続き情報頂きたく思います<(_ _)>

編集 削除
Hongliang  2007-11-07 21:58:24  No: 138060  IP: 192.*.*.*

Microsoft.mshtml.dll を参照すれば、HTMLDocumentClass を New できます。
それを IHTMLDocument2 にキャストして html 文字列を write してやれば DOM を構築できます。
そこから System.Windows.Forms.HtmlDocument を作れないこともないですが、まあその必要はないでしょう。

VB なら htmlfile って progid から CreateObject してレイトバインドで書いてく手もありますが。

編集 削除
おも  2007-11-13 14:19:55  No: 138061  IP: 192.*.*.*

>Hongliang様
ご返信いただいたのに遅くなりましてすみません<(_ _)>
教えていただいたキーワードを自分なりに解釈していろいろ調べてみたのですが、ちょっと難しかったです^^;

正規表現を勉強して自分なりの解析を試みているのですが、
ひとまずこれでがんばってみます。

どうもありがとうございました<(_ _)>

編集 削除
通りすがり  2008-01-07 15:08:54  No: 138062  IP: 192.*.*.*

>そこから System.Windows.Forms.HtmlDocument を作れないこともないですが、まあその必要はないでしょう。

とありますがその方法が知りたいです(><)

編集 削除