ブラウザ自動収集

解決


マジック  2008-03-08 22:10:32  No: 100431

現在ブラウザコントロールを使用して、WEBページのデータを取得していますが、これをテキストデータのみから、例えばURLがわかっているとします、そして、その先のデータを、一旦、ブラウザコントロールに表示しなくても取得する事は可能でしょうか。どのような方法でも構いません。
ブラウザコントロールを介するより高速に出来ると予想します。

例えば、メールアドレスの自動収集ツールなどは、使用したことはありませんが、そのような感じでWEBを(どのようにか知りませんが)自動巡回して、高速に取得しているのではないでしょうか。
メールアドレスの自動収集ツールを作るわけではありませんが、そのようなテクニックがあれば知りたいです。

よろしくお願いします。


ガッ  2008-03-08 22:23:11  No: 100432

htmlにjavascriptとか色々使われていた場合はどうするんでしょうか?
色々無視してプレーンテキストでhtmlを走査するというのなら,普通にhttp使えばいいかと思います

句読点で読みづらくなってて
> これをテキストデータのみから、例えばURLがわかっているとします、
この部分がちょっとイミフでした


マジック  2008-03-08 23:18:00  No: 100433

有難うございます。

>普通にhttp使えばいいかと思います
これは、インターネットトランスファコントロールを使用すれば可能という事でしょうか
このコントロールは使用した事が無いのでこれから勉強しなければなりません。

javascriptとかは、まだ、考慮する段階まで行っていません。


obn  2008-03-09 02:59:57  No: 100434

APIのURLDownloadToFileが使えそうな

指定のURLのHTMLファイルをダウンロードする - VBレスキュー(花ちゃん)
http://hanatyan.sakura.ne.jp/vbhlp/urltodl.htm


VT250F  2008-03-09 16:31:19  No: 100435

表示せずに値を取得するのは絶対不可能ですね。
なんらかの形で取得しなければならないですから。
前述の
1.APIのURLDownloadToFile
2.ンターネットトランスファコントロール
等々、やっぱり裏で表示させてる訳です。
要はブラウザコントロールを2枚用意して、
メイン(表示用)、
サブ(文字取得用)に分ければよいのではないでしょうか。
高速化を図るには向いてませんが、実現可能ですよ。


K.J.K.  2008-03-09 19:30:17  No: 100436

一応補足を。

> 1.APIのURLDownloadToFile
> 2.ンターネットトランスファコントロール
> 等々、やっぱり裏で表示させてる訳です。

いえ、表示させてはいません。両者ともBrowsing機能とは分離されています。


ガッ  2008-03-10 00:15:32  No: 100437

もしかしたら参考になるかも:
http://madia.world.coocan.jp/cgi-bin/VBBBS2/wwwlng.cgi?print+200803/08030007.txt


マジック  2008-03-10 00:58:57  No: 100438

皆さん有難うございます。
紹介された花ちゃんのサンプルで取り敢えず出来た感じがします。
あとは、これから色々使いこなせるまで少し練習する必要があるかと
思います。


※返信する前に利用規約をご確認ください。

※Google reCAPTCHA認証からCloudflare Turnstile認証へ変更しました。






  このエントリーをはてなブックマークに追加