掲示板システム
ホーム
アクセス解析
カテゴリ
ログアウト
複数ファイルのファイル間の重複削除 (ID:5842)
名前
ホームページ(ブログ、Twitterなど)のURL (省略可)
本文
「書き込んであるもの」が抽象的で、どの程度の量を言っているのでしょうか。 たとえば、 次のような場合。 File1の内容 ---ここから ABC DEF GHI ---ここまで このファイルと、 File2の内容 ---ここから ABC DEG HIJ ---ここまで このファイルの場合、 F と出力すれば良いのでしょうか。 それとも、 DEF GHI と出力するのでしょうか。 簡単にするのであれば、File2にかかれているものを、File1から検索して削除、とすれば良いかと。 高速に処理することを考える前に、どのような処理をするかは考えてありますか? まず、ざっと処理を作成し、どこが一番時間のかかる箇所かを確認して、そこを重点的に早く処理できるようにしていけばよろしいかと思います。 遅くなると考えられる箇所は、検索ロジックと、ファイル入出力ロジックですが、他にもあるかもしれません。 文字列検索ロジックは、結構たくさんの方法があります。文字列の長さによって、単純法・KMP法・BM法と切り替える手もあります。 テキストの比較が、たとえば改行毎などであれば、文字列検索ロジックを用いずB木などの構造でデータを持ち、その中を検索すれば早くなるかもしれません。 テキストが大きくなければ、ファイル入出力は、1入力1出力としたほうが早いです。遅いのは、メモリに展開せずにファイル内部を何度もシークしながら読み込む方法です。
←解決時は質問者本人がここをチェックしてください。
戻る
掲示板システム
Copyright 2021 Takeshi Okamoto All Rights Reserved.