DedeHttpDown PHP远程下载网页的类,增强版 2013-1-17修改_PHP教程

php教程评论221 views阅读模式

1)新增远程主机判断,节约服务器资源。避免远程主机不存在的时候仍旧fsockopen,导致的死机占用服务器CPU (2)新增响应401的判断和支持。 (3)增加对json返回文本的支持。 (4)日志的生成,如果设置了DEBUG_LEVEL且为TRUE则会对每次远程下载做日志。 (5)获取字节的限定dataLimit,节约服务器资源。 (6)修改日期:2013-1-17 如果还有更好的方法建议,可以随时联系我本人。admin@zbphp.com [php] /** * 织梦HTTP下载类 * * @version $Id: dedehttpdown.class.php 1 11:42 2010年7月6日Z tianya $ * @package DedeCMS.Libraries * @copyright Copyright (c) 2007 - 2010, DesDev, Inc. * @modify author admin@zbphp.com * @license http://help.dedecms.com/usersguide/license.html * @link http://www.dedecms.com */ @set_time_limit(0); class DedeHttpDown { var $m_url = ''; var $m_urlpath = ''; var $m_scheme = 'http'; var $m_host = ''; var $m_port = '80'; var $m_user = ''; var $m_pass = ''; var $m_path = '/'; var $m_query = ''; var $m_fp = ''; var $m_error = ''; var $m_httphead = ''; var $m_html = ''; var $dataLimit = 0; var $m_puthead = ''; var $BaseUrlPath = ''; var $HomeUrl = ''; var $reTry = 0; var $JumpCount = 0; /** * 初始化系统 * * @access public * @param string $url 需要下载的地址 * @return string */ function PrivateInit($url) { if($url=='') { return ; } $urls = ''; $urls = @parse_url($url); $this->m_url = $url; if(is_array($urls)) { $this->m_host = $urls["host"]; if(!emptyempty($urls["scheme"])) { $this->m_scheme = $urls["scheme"]; } if(!emptyempty($urls["user"])) { $this->m_user = $urls["user"]; } if(!emptyempty($urls["pass"])) { $this->m_pass = $urls["pass"]; } if(!emptyempty($urls["port"])) { $this->m_port = $urls["port"]; } if(!emptyempty($urls["path"])) { $this->m_path = $urls["path"]; } $this->m_urlpath = $this->m_path; if(!emptyempty($urls["query"])) { $this->m_query = $urls["query"]; $this->m_urlpath .= "?".$this->m_query; } $this->HomeUrl = $urls["host"]; $this->BaseUrlPath = $this->HomeUrl.$urls["path"]; $this->BaseUrlPath = preg_replace("/\/([^\/]*)\.(.*)$/","/",$this->BaseUrlPath); $this->BaseUrlPath = preg_replace("/\/$/","",$this->BaseUrlPath); } } /** * 重设各参数 * * @access public * @return void */ function ResetAny() { $this->m_url = ""; $this->m_urlpath = ""; $this->m_scheme = "http"; $this->m_host = ""; $this->m_port = "80"; $this->m_user = ""; $this->m_pass = ""; $this->m_path = "/"; $this->m_query = ""; $this->m_error = ""; } /** * 打开指定网址 * * @access public * @param string $url 地址 * @param string $requestType 请求类型 * @return string */ function OpenUrl($url,$requestType="GET") { $this->ResetAny(); $this->JumpCount = 0; $this->m_httphead = Array() ; $this->m_html = ''; $this->dataLimit = 0; $this->reTry = 0; $this->Close(); //初始化系统 $this->PrivateInit($url); $this->PrivateStartSession($requestType); } /** * 转到303重定向网址 * * @access public * @param string $url 地址 * @return string */ function JumpOpenUrl($url) { $this->ResetAny(); $this->JumpCount++; $this->m_httphead = Array() ; $this->m_html = ""; $this->Close(); //初始化系统 $this->PrivateInit($url); $this->PrivateStartSession('GET'); } /** * 获得某操作错误的原因 * * @access public * @return void */ function printError() { echo "错误信息:".$this->m_error; echo "

具体返回头:

"; foreach($this->m_httphead as $k=>$v){ echo "$k => $v

\r\n"; } } /** * 判别用Get方法发送的头的应答结果是否正确 * * @access public * @return bool */ function IsGetOK() { if( preg_match("/^2/",$this->GetHead("http-state")) ) { return TRUE; } else { $this->m_error .= $this->GetHead("http-state")." - ".$this->GetHead("http-describe")."

"; return FALSE; } } /** * 看看返回的网页是否是text类型 * * @access public * @return bool */ function IsText() { if( preg_match("/^(2|401)/",$this->GetHead("http-state")) && preg_match("/text|xml|json/i",$this->GetHead("content-type")) ) { return TRUE; } else { $this->m_error .= "内容为非文本类型或网址重定向

"; return FALSE; } } /** * 判断返回的网页是否是特定的类型 * * @access public * @param string $ctype 内容类型 * @return string */ function IsContentType($ctype) { if(preg_match("/^2/",$this->GetHead("http-state")) && $this->GetHead("content-type")==strtolower($ctype)) { return TRUE; } else { $this->m_error .= "类型不对 ".$this->GetHead("content-type")."

"; return FALSE; } } /** * 用Http协议下载文件 * * @access public * @param string $savefilename 保存文件名称 * @return string */ function SaveToBin($savefilename) { if(!$this->IsGetOK()) { return FALSE; } if(@feof($this->m_fp)) { $this->m_error = "连接已经关闭!"; return FALSE; } $fp = fopen($savefilename,"w"); while(!feof($this->m_fp)) { fwrite($fp, fread($this->m_fp, 1024)); } fclose($this->m_fp); fclose($fp); return TRUE; } /** * 保存网页内容为Text文件 * * @access public * @param string $savefilename 保存文件名称 * @return string */ function SaveToText($savefilename) { if($this->IsText()) { $this->SaveBinFile($savefilename); } else { return ""; } } /** * 用Http协议获得一个网页的内容 * * @access public * @return string */ function GetHtml() { $tm1 = microtime(true); if(!$this->IsText()) { return ''; } if($this->m_html!='') { return $this->m_html; } if(!$this->m_fp||@feof($this->m_fp)) { return ''; } while(!feof($this->m_fp)) { $this->m_html .= fgets($this->m_fp,256); if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; } @fclose($this->m_fp); $tm2 = microtime(true); $log = "\ntm2-tm1 = ".($tm2-$tm1); $log.= "\n".$this->m_html; $this->log_write('GetHtml',$log); return $this->m_html; } /** * 开始HTTP会话 * * @access public * @param string $requestType 请求类型 * @return string */ function PrivateStartSession($requestType="GET") { if(!$this->PrivateOpenHost()) { $this->m_error .= "打开远程主机出错!"; return FALSE; } $this->reTry++; if($this->GetHead("http-edition")=="HTTP/1.1") { $httpv = "HTTP/1.1"; } else { $httpv = "HTTP/1.0"; } $ps = explode('?',$this->m_urlpath); $headString = ''; //发送固定的起始请求头GET、Host信息 if($requestType=="GET") { $headString .= "GET ".$this->m_urlpath." $httpv\r\n"; } else { $headString .= "POST ".$ps[0]." $httpv\r\n"; } if($this->m_user || $this->m_pass) { $headString .= "Authorization: Basic ".base64_encode($this->m_user.":".$this->m_pass)."\r\n"; } $this->m_puthead["Host"] = $this->m_host; //发送用户自定义的请求头 if(!isset($this->m_puthead["User-Agent"])) { $this->m_puthead["User-Agent"] = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2)"; } if(!isset($this->m_puthead["Refer"])) { $this->m_puthead["Refer"] = "http://".$this->m_puthead["Host"]; } /* add on 2012-12-19 */ $headString.="Connection:keep-alive\r\n"; $headString.="Accept-Language:zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3\r\n"; $headString.="Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\n"; foreach($this->m_puthead as $k=>$v) { $k = trim($k); $v = trim($v); if($k!=""&&$v!="") { $headString .= "$k: $v\r\n"; } } fputs($this->m_fp, $headString); if($requestType=="POST") { $postdata = ""; if(count($ps)>1) { for($i=1;$i { $postdata .= $ps[$i]; } } else { $postdata = "OK"; } $plen = strlen($postdata); fputs($this->m_fp,"Content-Type: application/x-www-form-urlencoded\r\n"); fputs($this->m_fp,"Content-Length: $plen\r\n"); } //发送固定的结束请求头 //HTTP1.1协议必须指定文档结束后关闭链接,否则读取文档时无法使用feof判断结束 if($httpv=="HTTP/1.1") { fputs($this->m_fp,"Connection: Close\r\n\r\n"); } else { fputs($this->m_fp,"\r\n"); } if($requestType=="POST") { fputs($this->m_fp,$postdata); } //获取应答头状态信息 $httpstas = explode(" ",fgets($this->m_fp,256)); $this->m_httphead["http-edition"] = trim($httpstas[0]); $this->m_httphead["http-state"] = trim($httpstas[1]); $this->m_httphead["http-describe"] = ""; for($i=2;$i { $this->m_httphead["http-describe"] .= " ".trim($httpstas[$i]); } //获取详细应答头 while(!feof($this->m_fp)) { $line = trim(fgets($this->m_fp,256)); if($line == "") { break; } $hkey = ""; $hvalue = ""; $v = 0; for($i=0;$i { if($v==1) { $hvalue .= $line[$i]; } if($line[$i]==":") { $v = 1; } if($v==0) { $hkey .= $line[$i]; } } $hkey = trim($hkey); if($hkey!="") { $this->m_httphead[strtolower($hkey)] = trim($hvalue); } } //如果连接被不正常关闭,重试 if(feof($this->m_fp)) { if($this->reTry > 10) { return FALSE; } $this->PrivateStartSession($requestType); } //判断是否是3xx开头的应答 if(preg_match("/^3/",$this->m_httphead["http-state"])) { if($this->JumpCount > 3) { return; } if(isset($this->m_httphead["location"])) { $newurl = $this->m_httphead["location"]; if(preg_match("/^http/i",$newurl)) { $this->JumpOpenUrl($newurl); } else { $newurl = $this->FillUrl($newurl); $this->JumpOpenUrl($newurl); } } else { $this->m_error = "无法识别的答复!"; } } } /** * 获得一个Http头的值 * * @access public * @param string $headname 头文件名称 * @return string */ function GetHead($headname) { $headname = strtolower($headname); return isset($this->m_httphead[$headname]) ? $this->m_httphead[$headname] : ''; } /** * 设置Http头的值 * * @access public * @param string $skey 键 * @param string $svalue 值 * @return string */ function SetHead($skey,$svalue) { $this->m_puthead[$skey] = $svalue; } /** * 打开连接 * * @access public * @return bool */ function PrivateOpenHost() { if($this->m_host=="") { return FALSE; } if(function_exists('checkdnsrr') && !checkdnsrr($this->m_host,'A') && !checkdnsrr($this->m_host,'CNAME')) { $this->m_error = '远程主机'.$this->m_host.'不存在!checkdnsrr !'; return FALSE; } $errno = ""; $errstr = ""; $this->m_fp = @fsockopen($this->m_host, $this->m_port, $errno, $errstr,10); if(!$this->m_fp) { $this->m_error = $errstr; return FALSE; } else { return TRUE; } } /** * 关闭连接 * * @access public * @return void */ function Close() { @fclose($this->m_fp); } /** * 补全相对网址 * * @access public * @param string $surl 需要不全的地址 * @return string */ function FillUrl($surl) { $i = 0; $dstr = ""; $pstr = ""; $okurl = ""; $pathStep = 0; $surl = trim($surl); if($surl=="") { return ""; } $pos = strpos($surl,"#"); if($pos>0) { $surl = substr($surl,0,$pos); } if($surl[0]=="/") { $okurl = "http://".$this->HomeUrl.$surl; } else if($surl[0]==".") { if(strlen($surl)<=1) { return ""; } else if($surl[1]=="/") { $okurl = "http://".$this->BaseUrlPath."/".substr($surl,2,strlen($surl)-2); } else { $urls = explode("/",$surl); foreach($urls as $u) { if($u=="..") { $pathStep++; } else if($i { $dstr .= $urls[$i]."/"; } else { $dstr .= $urls[$i]; } $i++; } $urls = explode("/",$this->BaseUrlPath); if(count($urls) <= $pathStep) { return ""; } else { $pstr = "http://"; for($i=0;$i { $pstr .= $urls[$i]."/"; } $okurl = $pstr.$dstr; } } } else { if(strlen($surl)<7) { $okurl = "http://".$this->BaseUrlPath."/".$surl; } else if(strtolower(substr($surl,0,7))=="http://") { $okurl = $surl; } else { $okurl = "http://".$this->BaseUrlPath."/".$surl; } } $okurl = preg_replace("/^(http:\/\/)/i","",$okurl); $okurl = preg_replace("/\/{1,}/", "/", $okurl); return "http://".$okurl; } function log_write($funcname,$message) { if(!(defined('DEBUG_LEVEL') && DEBUG_LEVEL == TRUE)) return ; $log = "\n".date("Y-M-d H:i:s ").get_current_user()."[".getmypid()."]"; $log.= "\n".$this->m_url."\n".str_repeat('------', 10)."\n".$message; $path = $funcname.' '.date('Y m d H i s ').preg_replace('/([\W]+|\s+)/i', ' ', $this->m_url); if(strlen($path) > 250) $path = substr($path,0,250); $dir = DEDEDATA.'/httpdownlog'; if(!is_dir($dir) && !mkdir($dir)) exit('Can not make dir '.$dir); $path = $dir.'/'.$path; if(!file_exists($path)) touch($path); $fp = fopen($path,'a+'); flock($fp, LOCK_EX); fputs($fp, "PATH:".$path."\nREAL:".realpath($path)."\nMSSG:".$log); fclose($fp); return TRUE; } }//End Class 使用方法: [php] $dhd = new DeDeHttpDown(); $dhd->OpenUrl($Rs['wurl']); $dhd->dataLimit = 5120; $dhd->m_puthead["Refer"] = $Rs['wurl']; $filecnt = trim($dhd->GetHtml()); 存在未解决的问题: (1)假如域名是绑定了A记录和CNAME,有ip指向,但是IP地址是不存在的或者虚假的,程序仍旧会继续获取。 (2)PHP的fsockopen 里面的time out貌似根本就没有起作用。设置了10s超时,但是根本就是执行到程序time out 为止。 如果好的方法建议,可以随时联系我本人。admin@zbphp.com

http://www.bkjia.com/PHPjc/477811.html
www.bkjia.com
true
http://www.bkjia.com/PHPjc/477811.html
TechArticle
1)新增远程主机判断,节约服务器资源。避免远程主机不存在的时候仍旧fsockopen,导致的死机占用服务器CPU (2)新增响应401的判断和支持...

  • 微信
  • 分享
  • 相关标签:DedeHttpDown PHP 远程 下载 网页 的 类 增强 版 2013-1-17 修改 新增 远程 主机 判断
  • 本文原创发布php教程网 ,转载请注明出处,感谢您的尊重!
    • 上一篇:iis6搭建php运行环境mysql连接问题_PHP教程
    • 下一篇:玩转php常量_PHP教程

    相关文章

    相关视频

    • PHP如何安装和配置?
    • php 和 python 语法(部分)上的区别
    • PHP 随机数 C扩展随机数
    • PHP查询附近的人及其距离的实现方法_php技巧
    • DedeHttpDown PHP远程下载网页的类,...
    • PHP开发基础教程之简介
    • PHP新手入门之简介
    • PHP开发基础教程之环境搭建
    • php学习路线介绍
    • php环境配置

    网友评论

    文明上网理性发言,请遵守 新闻评论服务协议

    我要评论

  • 立即提交

    专题推荐

    • 独孤九贱-php全栈开发教程

      全栈 100W+

      主讲:Peter-Zhu 轻松幽默、简短易学,非常适合PHP学习入门

    • 玉女心经-web前端开发教程

      入门 50W+

      主讲:灭绝师太 由浅入深、明快简洁,非常适合前端学习入门

    • 天龙八部-实战开发教程

      实战 80W+

      主讲:西门大官人 思路清晰、严谨规范,适合有一定web编程基础学习

    作者信息

    php教程网

    认证0级讲师

    最近文章

    发布技术文章

    • 最新文章
    • 热门排行

    • PHP面试踩过的坑
    • PHP中的进制转换
    • PHP 代码优化 技巧总结
    • PHP:微信支付服务商开发相关的那点事
    • 不要在循环体中使用array_push()
    • 详解正则表达式
    • PHP性能分析平台搭建
    • PHP实现Snowflake生成分布式唯一ID

    • 最全最详细的PHP面试题(带有答案)
    • VPN是什么
    • PHP四大主流框架的优缺点总结
    • php如何解决中文乱码问题?
    • php是什么文件?如何打开?四种打开php格式文件方法(图)
    • 详解PHPMyadmin的配置
    • PHP中使用CURL之php curl详细解析和常见大坑
    • PHPstorm破解方法

    推荐视频教程

  • javascript初级视频教程
  • jquery 基础视频教程
  • 视频教程分类

    • php视频教程
    • html视频教程
    • css视频教程
    • JS视频教程
    • jQuery视频教程
    • mysql视频教程
    • Linux视频教程
    • Python视频教程
    • 网站首页
    • PHP视频
    • PHP实战

    PHP中文网:独家原创,永久免费的在线php视频教程,php技术学习阵地!

    Copyright 2014-2019 http://www.php.cn/ All Rights Reserved | 皖B2-20150071-9 皖公网安备 34010402701654号 免责申明赞助与捐赠

    企鹅博客
    • 本文由 发表于 2020年6月21日 17:06:00
    • 转载请务必保留本文链接:https://www.qieseo.com/305597.html

    发表评论