HTML Parser for PHP の高速化

とある目的で HTML Parser for PHP-4 を使って HTML を解析しようとしたら、Yahoo! Japan を解析するのに1秒近くかかってしまった。サーバは Apache 1.3 + PHP5、CPU は Pentium4 2GHz くらいでメモリは 1GB くらい。

原因は PHP の配列なのだろうけど、以下の方法で結構速くなった。

  1. preg_replace() でコメント、script 要素、style 要素を取り除く
  2. strip_tags() で解析したいもの以外のタグを除去
  3. あとは普通に

これで約三分の一の 334 ms になった。まだ遅いけど。

カテゴリ : 主にWeb開発

この記事に対する皆さんの反応

  1. 研究開発 :
    2008年7月1日 6:38 PHP HTML-parserの使い方... PHP HTML-parserの使い方 ダウンロードはここから どうも、ソース /src/htmlparser.incを include ( (more...)

コメントをどうぞ