用php写文章采集系统,php小偷程序

2009年5月3日星期日

用php写文章采集系统,php小偷程序

正则,循环,读取远程文件,数组。

php写采集文章系统原理描述:读取远程文件并根据正则匹配到文章地址,然后再去读文章地址,用正则匹配文章标题和内容。

我对正则并不熟悉,为了搞懂文章采集临时学了点东东,所学一点东西正好用在简单的文章采集上。

$preg='/xxxxx/';
$preg='/xxxxx/isU';
里面的属于内容性的斜杠都加了\作为转义符。所以会看到http:\/\/
正则描述部分放在了()之中。.*表示所有内容了
这段是界定正则xxxxx的范围在//之间
其中isU三个字母是修整符,释义如下:
i:如果设定此修正符,模式中的字符将同时匹配大小写字母
s:如果设定了此修正符,模式中的圆点元字符(.)匹配所有的字符,包括换行符。没有此设定的话,则不包括换行符。
U:本修正符反转了匹配数量的值使其不是默认的重复,而变成在后面跟上?才变得重复。

上面取得了标题$title_result和内容$content_result,如何使用并不在本文讨论范围。
希望这个能给你采集工作带来一些用处,呵呵

0 评论:

发表评论