HTMLを解析してデータを取り出す方法

解決


おも  2007-11-07 08:06:03  No: 138057

お世話になっております。
VB及びプログラミング暦ひと月で、VB2005を使用しております。
WEB上のHTMLファイルからデータを取得するプログラムを作っています。
とりあえずWebClientクラスでHTMLを取得するところまではできました。
そのテキストを解析して
変数や配列にいれようというところで躓いております。

WebBrowserコントロールでページをHTMLDocumentオブジェクトで取得すれば
タグを解析しやすくて楽なのですが、なるべくWebBrowserコントロールは使わない方向で考えています。

そこで、取得した文字列を
WebBrowserコントロールを使わずにHtmlDocumentオブジェクトに変換できればと思うのですが、そういうことは可能でしょうか?
もし可能でしたら方法をご教授ください<(_ _)>

よろしくお願いいたします。


嘘情報  2007-11-07 16:57:09  No: 138058

> WebBrowserコントロールを使わずにHtmlDocumentオブジェクトに変換できればと思うのですが、そういうことは可能でしょうか?

できる!


おも  2007-11-08 05:59:43  No: 138059

う〜ん、やはりできないのでしょうかね^^;
検索しているとDOMとかXMLHTTPとか、近い情報も得られたのですが、
まだそのあたりを活用する力量が無いので諦めます。

最終的には自分で解析しなきゃいけない部分が出てくるので、
とりあえず自分でやってみます。ありがとうございました。

こんな方法がある、というのがありましたら、
引き続き情報頂きたく思います<(_ _)>


Hongliang  2007-11-08 06:58:24  No: 138060

Microsoft.mshtml.dll を参照すれば、HTMLDocumentClass を New できます。
それを IHTMLDocument2 にキャストして html 文字列を write してやれば DOM を構築できます。
そこから System.Windows.Forms.HtmlDocument を作れないこともないですが、まあその必要はないでしょう。

VB なら htmlfile って progid から CreateObject してレイトバインドで書いてく手もありますが。


おも  2007-11-13 23:19:55  No: 138061

>Hongliang様
ご返信いただいたのに遅くなりましてすみません<(_ _)>
教えていただいたキーワードを自分なりに解釈していろいろ調べてみたのですが、ちょっと難しかったです^^;

正規表現を勉強して自分なりの解析を試みているのですが、
ひとまずこれでがんばってみます。

どうもありがとうございました<(_ _)>


通りすがり  2008-01-08 00:08:54  No: 138062

>そこから System.Windows.Forms.HtmlDocument を作れないこともないですが、まあその必要はないでしょう。

とありますがその方法が知りたいです(><)


※返信する前に利用規約をご確認ください。




  


  このエントリーをはてなブックマークに追加