云南网站建设创新企业 昆明多彩网络公司

|网页对话|电话:0871-63215311

用php实现的小偷程序原理

来源:昆明网络公司 日期:2010-09-15 阅读: 发表评论

很多站因为无法及时更新网站信息,所以都采用了程序自动采集网络新闻的做法,这里我们来说一下php的自动采集原理。

1、确定采集的网站目标。

2、使用file_get_contents来获取远程网站的内容存储到某个变量当中。

3、构建正则表达式,提取需要的内容,并循环存储到数据库中。

该任务的主要技术难点有以下:

1、正则表达式的构建,需要重复测试并且试验一段时间。

2、对方采取一些了防采集的措施,比如,网页内容规律的刻意打乱,服务器端的检测,对内容读取时间频率的控制等等。

发表评论评论列表(有 条评论)

网页对话 0871-63215311