教程集 www.jiaochengji.com
教程集 >  脚本编程  >  php  >  正文 php采集程序代码(入门)

php采集程序代码(入门)

发布时间:2015-10-28   编辑:jiaochengji.com
php写的一段采集程序,采集网页,抓取相关内容,有需要的朋友,可以参考下。

完整代码如下。

<?php
/**
 * php采集程序
 * by http://www.jbxue.com
*/
function fetch_urlpage_contents($url){
$c=file_get_contents($url);
return $c;
}
//获取匹配内容
function fetch_match_contents($begin,$end,$c)
{
$begin=change_match_string($begin);
$end=change_match_string($end);
$p = "{$begin}(.*){$end}";
if(eregi($p,$c,$rs))
{
return $rs[1];}
else { return "";}
}//转义正则表达式字符串
function change_match_string($str){
//注意,以下只是简单转义
//$old=array("/","$");
//$new=array("\/","\$");
$str=str_replace($old,$new,$str);
return $str;
}

//采集网页
function pick($url,$ft,$th)
{
$c=fetch_urlpage_contents($url);
foreach($ft as $key => $value)
{
$rs[$key]=fetch_match_contents($value["begin"],$value["end"],$c);
if(is_array($th[$key]))
{ foreach($th[$key] as $old => $new)
{
$rs[$key]=str_replace($old,$new,$rs[$key]);
}
}
}
return $rs;
}

$url="http://www.yourdomain.com"; //要采集的地址
$ft["title"]["begin"]="<title>"; //截取的开始点
$ft["title"]["end"]="</title>"; //截取的结束点
$th["title"]["站点"]="脚本学堂"; //截取部分的替换

$ft["body"]["begin"]="<body>"; //截取的开始点
$ft["body"]["end"]="</body>"; //截取的结束点
$th["body"]["网站"]="www.jbxue.com"; //截取部分的替换

$rs=pick($url,$ft,$th); //开始采集

echo $rs["title"];
echo $rs["body"]; //输出
?>

您可能感兴趣的文章:
php 网页采集入库程序代码
php采集程序代码(入门)
phpQuery采集网页内容的示例代码
php采集远程图片的思路与实现代码
PHP采集器的简单示例代码
php入门教程(索引)
php 爱站关键词采集器的示例代码
php 判断数组维数的例子(一维,二维或多维)
PHP小偷程序的简单示例
PHP采集远程图片的实例代码

关键词: php 采集  php采集代码   
[关闭]
~ ~