HTML Parser for PHP の高速化
とある目的で HTML Parser for PHP-4 を使って HTML を解析しようとしたら、Yahoo! Japan を解析するのに1秒近くかかってしまった。サーバは Apache 1.3 + PHP5、CPU は Pentium4 2GHz くらいでメモリは 1GB くらい。
原因は PHP の配列なのだろうけど、以下の方法で結構速くなった。
- preg_replace() でコメント、script 要素、style 要素を取り除く
- strip_tags() で解析したいもの以外のタグを除去
- あとは普通に
これで約三分の一の 334 ms になった。まだ遅いけど。
カテゴリ : 主にWeb開発
2008年7月1日 6:38 PHP HTML-parserの使い方... PHP HTML-parserの使い方 ダウンロードはここから どうも、ソース /src/htmlparser.incを include ( (more...)