htmlタグから可変の文字列抽出について


ようこ  2008-08-06 04:06:14  No: 140180

お世話になります。

開発環境
VB6  WinXP  IE7

ある特定のHPからソースを取得し、ファイルに保存しています。
そのファイルから、ある特定のタグの中にある可変の文字列を抽出することが目標です。(文字列自体は1つだけです)

その文字列を挟む左右の記号は不変ですので、そこから解けるかも…という気はしているのですが、色々検索しても分からず困っています。
説明が下手ですので例を挙げますと

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML4.01 Transitional//EN">
の中の
//W3C//DTD

という文字列だけを抽出したいのです。

ステートメントやメソッドなど、ヒントだけでも構いません。
申し訳ありませんが、上司が正規表現は嫌いらしく…正規表現は使うなということです。
どうかよろしくお願い致します。


魔界の仮面弁士  2008-08-06 04:48:52  No: 140181

> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML4.01 Transitional//EN">
> の中の
> //W3C//DTD
> という文字列だけを抽出したいのです。

という事は、
  「<!DOCTYPE HTML PUBLIC "-」

  「 HTML4.01 Transitional//EN">」
に囲まれた部分を探したい、ということでしょうか?

であれば、InStr 関数で検索して、Mid 関数で切り出せば OK かと。

ただし、「途中に改行が含まれていても対処したい」とか、
「それらがコメント文の中にあった場合は除外したい」といった
追加条件が入ってくるであれば、もう少し手を加える必要がありそうですが。


※返信する前に利用規約をご確認ください。

※Google reCAPTCHA認証からCloudflare Turnstile認証へ変更しました。






  このエントリーをはてなブックマークに追加