バイナリモードでの検索追加について

しっぽ 2005-03-30 08:14:17 No: 120559

バイナリモードでファイル開き、
例えば ABC という3文字の半角文字が格納されている部分を見つけ、
それ以降のデータ（ABCを先頭に付けて）を別のファイルもしくは、
配列に格納するプログラムを考えています。
ただし、このABCという半角文字はファイル中にいくつか存在し
長さも固定長ではない為、どういった検索方法が良いのか教えてください。

尚、ABCが格納されているファイルは複数存在し
File_01.DAT
File_02.DAT
File_03.DAT
File_04.DAT を
File_SAVE.DAT にまとめる形になります。

各ファイルの中身も、ABCxxxxデータABCxxxxデータABCxxxxデータ
のように入っています。
xxxxはインデックス番号になります。

処理として考えているのは、File_01.DATからFile_04.DATの
ABCの開始位置、インデックス番号を変数や配列として保持させ
その情報を元にFile_SAVE.DATに追加していく形を考えています。
ただ、ファイル容量が200MBなどになる場合、
この方法は効率が良いのか悩みます。
同じファイルを二度開くのが引っかかっています。

後、ABCのコードなのですが
これらのファイルにDC、FFGHの様に2、3、4バイトのデータも
検索対象に含めるとしたら、どのような方法が良いのでしょうか？

ABC0001
    FFGH0001
    FFGH0002
    DC0001
    DC0002
ABC0002
    FFGH0001
    FFGH0002
    DC0001
    DC0002
ABC0003
    FFGH0001
    FFGH0002
    DC0001
    DC0002

↑のような形になります。

Say 2005-03-30 08:58:20 No: 120560

>それ以降のデータ（ABCを先頭に付けて）
抽出データの先頭が「ABC」なのはいいとして、終端はFile Endかなにか？

それはともかく、1パスで処理可能なのでは？
2パスにする理由がわかりませんが・・・。
抽出したあと前後関係を見ての整形やソートが必要とか？

特攻隊長まるるう 2005-03-30 12:05:32 No: 120561

いま、どの段階まで修正可能なのでしょうか？
ファイルの仕様まで変更が可能なら、DAT ファイルの形式を
もっと検索しやすい形に変更すればいいと思うんですが？。
その段階なら
過去ログ検索『比較』『検索』『バイナリ』あたりでどんな
手法を使っている人がいるのか調べるだけで、大きく方向が
変わってしまいます。

>各ファイルの中身も、ABCxxxxデータABCxxxxデータABCxxxxデータ
>のように入っています。
この表現だと、改行(または区切り文字)なしのデータとしか
解釈できないから１つの文字列から Instr 関数などで検索
する…となりそうですが、
>ABC0001
>    FFGH0001
>    FFGH0002
>    DC0001
だと"ABC"は必ず行頭。"FFGH""DC"は行頭から全角スペース
２個の後…という法則ができてしまってます。何らかの法則
があるなら、それに合わせて検索すれば、早く検索できる
可能性もあります。

この状態では回答しようがないと思いますが？。

しっぽ 2005-03-31 08:33:57 No: 120562

＞Say様、特攻隊長まるるう様
ファイルの終端を判別するものは特にありません。
ファイルの変更は一切できません。

ファイルの中身は
ABC0001FFGH0001データFFGH0002データDC0001データDC0002データABC0002FFGH0003データFFGH0004データDC0003データDC0004データABC0003と続いており、
中にスペースは存在しません。

１パスに拘っている訳ではありませんが、
それぞれのファイルの先頭100バイトくらいは、
累積する情報が含まれており、それを１つのファイルにまとめます。
ファイルの終端はそれぞれのインデックスを表す情報を入れます。
１パスで見るにしても、先頭の100バイトを別の場所に保存した後、
それぞれのインデックスを抽出しつつ、
データをインデックス（別のファイルなら更新）付きで一箇所にまとめる・・・
上手い方法があれば是非教えて頂きたいと思います。

１パス、２パスどちらを選ぶにしても
インデックス検索の良い方法が一番知りたいです。
すみません。バイナリファイルの経験が浅く、
自力で解決できる程のレベルではないもので、気分を悪くされない事を願っています。

特攻隊長まるるう 2005-03-31 13:57:08 No: 120563

>ABC0001FFGH0001データFFGH0002データDC0001データDC0002データABC0002FFGH0003…
うーん。『データ』の最後はどうやって判別するの？
『データ』の中にキーワードの『ABC』や『FFGH』などが存在する可能性は？

区切り文字もなし、データ長も法則がないと『インデックス検索』と言われても
インデックスなのかただのデータなのか区別が付かない気が…ただの『文字列検索』
をするか、むしろ先頭から１文字ずつ判別するか…文字列検索して存在すれば
その文字で区切って、区切った中で次の文字列検索するか…。

しっぽ 2005-03-31 21:45:49 No: 120564

＞特攻隊長まるるう様
法則は、
ABCの中にFFGH、DCのデータ部を含んだブロックが存在し、
データ長は可変、ファイルの終端に各インデックスの番号が付加されるだけです。
もちろん、データの中にはそれらのインデックスは存在しません。

ファイルの中身を知るにも
ABCの開始位置と終了位置（または次のABCの位置）を調べてから、FFGH、DCと
見て行くしかないのでしょうか？
それとも判別（１バイトで）しつつデータを格納して１パスにするのが良いのでしょうか？。
インデックスはどうしても取得しなければならないので、
なかなか良い方法が見出せないままです。

特攻隊長まるるう 2005-04-02 03:19:01 No: 120565

レスも付かないようですし、そんな感じで好きな方を
選んでプログラムすれば良いんじゃないでしょうか？(。＿゜)