总有一些美好,期待着我们去发现
RSS 图标 Email 图标 首页图标
  • php里为file_get_contents等的http请求设置默认超时时间

    发表于 2011年11月22日 黄良懿 没有评论

    由于file_get_contents($url)的抓取方式是如此的简单易上手,并通常表现良好,在php世界里受到了相当的好评,并被大量的……滥用。

    最常见的问题是,你要取的内容在一台不稳定的服务器上,或者是网络不稳定时,这个函数的响应时间从常规的100ms级跃升至秒级。悲催的是,这种情况可是能轻易的毁掉一个中型网站的。而且,除了连接数耗尽的可能外,还可能会导致CPU 100%占用,张宴的《PHP-CGI 进程 CPU 100% 与 file_get_contents 函数的关系》里提到过这个问题。

    设置$context参数确实是一个比较恶心的事,特别是维护一个到处都有这个破调用的系统时。好在,我们还是有简单的解决办法的,那就是通过PHP 5.1.0新引入的函数stream_context_get_default来设置stream_context的缺省值。这样的话只要在公共的include文件中放置以下代码就能解决问题了:

    define('HTTP_STREAM_TIMEOUT', 2);
    $old_context_opts = stream_context_get_default();
    stream_context_set_option($old_context_opts, 'http', 'timeout', HTTP_STREAM_TIMEOUT);
    stream_context_get_default($old_context_opts);
    

    其中HTTP_STREAM_TIMEOUT是超时的秒数,之所以没有用毫秒是因为stream_context本来就不能设置到这个级别的超时时间。

    另外,从PHP 5.3.0开始,stream_context_set_default可以直接做到以上效果,不再需要别扭的用get函数来设置缺省值了。同时,以上方法也适用于设置proxy等其他属性。

    相关日志:


  • 关于PHP性能的那些事

    发表于 2010年08月5日 黄良懿 3 条评论

    PHP之父Rasmus Lerdorf昨日刚发布了一个叫做《PHP Performance》的Online PPT,深入浅出,简单直白,以WordPress为例详细解说了优化的方法和相关的工具(strace, Callgrind, Xdebug, xhprof等),最后总结中有两点让我深有同感:一是说性能实际上是灵活性和成本之间的权衡取舍,另外一个则是真正的去看待性能问题,应该是面向架构(Real performance is architecture-driven)。

    我自己用过好几种编程语言进行企业项目开发,一直以为,对语言的选择应该基于应用场景和业务需求等,与是不是真的OO,性能高不高,代码结构是不是够敏捷等其实没有太多关系。比如频繁更新页面的推广活动,那自然是PHP/ASP之流合适,电子商务等需要事务、安全、稳定的Web应用使用Java,有较多自定义行为(略有差异于系统自身实现)的桌面应用使用VC等等。 而语言的性能差异,往往并不是我们所需要去关心的。 印度人做项目时满足用户性能指标的方式往往是告诉用户什么配置的机器能达到这个指标。这是因为重构算法让代码的性能翻倍往往远不如将CPU换成多核,内存加个几G来得简单、快捷和廉价。

    应该说,PHP从性能上来说是有一些先天劣势的(事实上PHP在语言性能排行榜当中确实不太靠前),每次运行必须重新编译就是一个巨大的成本,从Rasmus的第一个优化就是安装APC就可以看出来这一点。嗯,是的,十分庆幸,我们有APCeAcceleratorXCache等优秀的op-code缓存帮助我们解决了这个PHP最大的性能问题。紧跟其后的一个重要性能问题是由OOP引入的,事实上PHP 5直到PHP 5.2才得到了广泛的应用,因为PHP 5.2在面向对象的开发方面性能大为提高,已经逼近了函数式编程的性能水准。但时至今日,也依然有一些性能障碍难以解决,比如说由于动态语言的特性,PHP即使有op-code cache,也需要在每次请求的时候重新建立常量列表、可调用函数列表、可调用类列表。 这对于大型企业项目来说,简直是个噩梦。而PHP变量对内存利用的低下也是一个进行大数据量处理时会碰到的严肃问题,资深的PHPer能通过pack指令来解决它,但这真的很不优雅,充满着无奈。(你知道一个100万个数字的数组在PHP中占用多少个字节吗?如果是同样数据量的二维数组呢? 查过这个数字的Java程序员和C/C++程序员都用一种怜悯的眼神看着PHPer)

    但,世界上最大的SNS网站,正在挑战Google的Facebook正是用的PHP!而他们能用PHP做到这样的规模,恰恰就是和“Real performance is architecture-driven”相互呼应的“Languages's don't Scale, Architecture Scale”。所以说,“PHP is rarely the bottleneck”,性能的关键在于,你的项目是怎么架构的。

    相关日志:


  • PHP 5.3.3发布,内置FPM

    发表于 2010年07月28日 黄良懿 没有评论

    上周 php 官方发布了5.3.3和5.2.14,除了循例的多个bug fix外,一大亮点就是内置了之前我曾在《改用php-fpm+eAcclerator替代spawn-fcgi+xcache跑wordpress》中提到的FPM,这就是说以后再也无需去找合适的版本来patch了。

    相应的,php-fpm的安装、启动方式和设置方法都会有所区别,主要是改用信号来完成php-fpm {reload|stop|restart|start}等操作,以及改用ini的方式设置FPM而不是之前的XML。

    已经有同学写出了配置、使用方法(《php 5.3.3中的php-fpm》),这里直接摘录一下:

    php 5.3.3 源码中开始包含 php-fpm,不用专门再打补丁了,只需要解开源码直接configure,关于php-fpm的编译参数有 --enable-fpm --with-fpm-user=www --with-fpm-group=www --with-libevent-dir=libevent位置。

    这个php-fpm 不再支持 php-fpm 补丁具有的 /usr/local/php/sbin/php-fpm (start|stop|reload)等命令,需要使用信号控制:

    master进程可以理解以下信号

    SIGINT, SIGTERM 立刻终止
    SIGQUIT 平滑终止
    SIGUSR1 重新打开日志文件
    SIGUSR2 平滑重载所有worker进程并重新载入配置和二进制模块

    示例:
    php-fpm 关闭:
    kill -SIGINT `cat /usr/local/php/var/run/php-fpm.pid`
    php-fpm 重启:
    kill -SIGUSR2 `cat /usr/local/php/var/run/php-fpm.pid`

    其次配置文件不再使用的xml 格式,改为了INI,但是配置参数几乎和以前一样,可参照xml格式的格式配置。

    相关日志:


  • 修改PHP源代码解决Nginx下WebShell的问题

    发表于 2010年07月22日 黄良懿 没有评论

    Nginx / Lighttpd + PHP FastCGI的方式正在被越来越多的网站应用,其中让需要虚拟主机支持的用户最烦心的一件事情莫过于站点权限隔离。 目前无论是spawn-cgi或者是php-fpm的方式,都无法动态转变执行用户。尽管可以通过给不同网站以不同的用户身份执行FastCGI,但这也同样失去了FastCGI统一管理的优势,需要为每个网站保留足够的处理进程而不是整体规划。

    Google搜之有两个比较广为流传的方法,其中最完美的莫过于直接修改PHP源代码,对打开目录进行鉴权(搜出来的资料最早是anxsoft.com提供的代码)。 方法是在php源代码目录中执行vi main/fopen_wrappers.c,并找到php_check_open_basedir_ex方法,在char *end;和pathbuf = estrdup(PG(open_basedir));之间插入以下的代码:

            char path_copy[MAXPATHLEN];
            int path_len;
            path_len = strlen(path);
            if (path_len >= MAXPATHLEN) {
                errno = EPERM;
                return -1;
            }
            if (path_len > 0 && path[path_len-1] == PHP_DIR_SEPARATOR) {
                memcpy(path_copy, path, path_len+1);
                while (path_len > 1 && path_copy[path_len-1] == PHP_DIR_SEPARATOR) path_len--;
                path_copy[path_len] = '\0';
                path = (const char *)&path_copy;
            }
    
            char *env_doc_root;
            if (PG(doc_root)) {
                env_doc_root = estrdup(PG(doc_root));
            } else {
                env_doc_root = sapi_getenv("DOCUMENT_ROOT", sizeof("DOCUMENT_ROOT")-1 TSRMLS_CC);
            }
            if (env_doc_root) {
                int res_root = php_check_specific_open_basedir(env_doc_root, path TSRMLS_CC);
                efree(env_doc_root);
                if (res_root == 0) {
                    return 0;
                }
                if (res_root == -2) {
                    errno = EPERM;
                    return -1;
                }
            }
     

    以上是所有能找到的资料里代码最长也是考虑最完整的代码。 前段是用于去除传入的路径参数中最后的多个斜杠(/)对代码判断的影响。后段则是取得当前站点的文档根目录,并检查要打开的文件是否存在于这个目录下、是否有权限等。

    编译后测试发现确实的解决了WebShell对同级目录的跨站访问。但运行某个基于Zend Framework的项目时则遇到了阻碍,无法读取application目录下的config.ini。原因是root目录位于application的同级目录html下。 其他一些项目也可能会有类似需求,需要访问root同级的upload或其他不开放的目录。这个需求很容易就能解决,参考检查DOCUMENT_ROOT的方式,优先检查另外一个SITE_ROOT的环境变量是否存在且有权,并在nginx的php fastcgi配置里加上一行即可:

    fastcgi_param  SITE_ROOT /web/zend.hly1980.cn/;

    注:该网站的root为/web/zend.hly1980.cn/html。

    相关日志:


  • 改用php-fpm+eAcclerator替代spawn-fcgi+xcache跑wordpress

    发表于 2010年03月16日 黄良懿 没有评论

    VPS上一直用的是Nginx + PHP FastCGI,其中FastCGI是用Lighttpd的spawn-fcgi来做管理,稳定性上面倒没什么可挑剔的,一直很正常,就是有一点很不好,三到五天就会出现一次PHP把内存吃光的情况。 VPS是384M的内存,1G+的交换文件,理论上5个Nginx进程加上8个PHP FastCGI是不该超出的,但连虚拟内存都吃光的情况还真出现过。 每次都是ssh连上以后盲敲指令killall php-cgi解决。碰了两三次后索性写了段shell到crontab里缓解此问题,具体作用是每小时的13分和43分检查并杀掉内存占用过多的处于休眠状态的PHP FastCGI进程:

    13,43 * * * * ps aux|grep php-cgi|awk '(($5>150000||$6>60000)&&$8=="S"){print $2}'|xargs kill -9

    查了php.ini中内存限制的配置和xcache的相关配置,算下来的最大内存总占用应该是在500m内的,这还是因为XCache未能实现opcode的共享存储,导致重复占用的缘故。 这里要特别提一下,这个问题是因为内存地址映射关系在多进程中的复杂性所造成的,XCache和APC都没解决,最近刚发现最新版本的eAcclerator已解决了此问题,这次也一起更换了opcode cache模块。

    一开始怀疑是PHP自身的内存管理问题,但一来公司的mod_php同版本代码并未出现该问题,另外同VPS上另一个用户所启动的PHP FastCGI进程却也并未出现该问题。 经粗略的排查,发现当大量使用WordPress中后台的各类功能后内存占用会急剧狂飙,但未安装任何插件的干净的WordPress则无此问题。 由于机器上不止一份WordPress实例,而且插件众多,难以一一排查,只好从PHP自身来考虑解决此问题。

    首先尝试的是将PHP替换为5.2.13和5.3.2分别测试过,不过问题依旧。倒是用5.2.13换了php-fpm来启动后解决了该问题。
    安装方法很简单,在php源码目录下执行以下指令:

    wget http://php-fpm.org/downloads/php-5.2.13-fpm-0.5.13.diff.gz
    gzip -dc php-5.2.13-fpm-0.5.13.diff.gz | patch -p1

    随后在原来的配置参数后面加上--enable-fpm重新make && make install就可以了。

     

    更新php后也用eAccelerator替换掉了XCache,随后查看运行状况,问题确实得到了解决,虽然不确定到底是由于php-fpm还是eAccelerator,但可以确定的是eAccelerator在FastCGI的模式下,其opcode cache确实可以通过shm共享。

    更换php-fpm带来的也不仅仅是这样的好处,当你升级php或者是更改php.ini时,它可以平滑的关闭老进程并启动新进程使服务持续可用,此外还可以根据目前的服务压力,动态的增加或者减少PHP FastCGI进程的数量。 更多的信息可以猛击这里(php-fpm文档中文翻译),英文好的同学则建议猛击这里查看原文

     

    使用过程中多次刷新查看phpinfo,并利用空延迟脚本使执行落在不同的php-cgi进程上,证实其缓存确实是放在共享内存中。

    附上一张eAccelerator的使用情况截图:

    eaccelerator

     

    相关日志:


  • 解决Zend Optimizer无法加载及与eAccelerator的冲突

    发表于 2010年03月16日 黄良懿 没有评论

    在VPS上下载了3.3.9的Zend Optimizer,找说明安装后出现错误:

    cannot restore segment prot after reloc: Permission denied

    找了下,问题是出在SELinux上,关闭SELinux即可解决:

    1. 修改/etc/sysconfig/selinux,修改为SELINUX=disabled
    2. 执行/usr/sbin/setenforce 0立即关闭,且无需重启系统

    如果你不希望关闭SELinux的话,也可以

    chcon -t shlib_t ZendOptimizer.so

    chcon -t texrel_shlib_t ZendOptimizer.so

     

    操作后php-fpm start启动,一切正常。 但ShopEx网站返回502错误,修改php.ini输出错误日志查看后发现访问Zend Guard做了encode的php文件均无法正常执行,错误是Connection reset,但命令行查看php -v时显示Zend Optimizer已加载,phpinfo()也显示正常。
     反复尝试多次后发现是装载次序的问题,修改php.ini,使eAccelerator在Zend Optimizer之前装入即可

    相关日志:


  • 给某网站Windows主机下Discuz!论坛的一些优化建议

    发表于 2010年01月6日 黄良懿 2 条评论

    近期由于网络方面的问题,该网站双线之一被和谐,故此另外一条线路承受了过多的压力,时不时会出现以下的错误:

    Discuz出错信息

    看到之后第一反应是调整MySQL连接数,这个数字可以通过show variables like 'max_connections';获得,并在my.cnf中修改。(根据错误的出现频度,下面例子中的数字建议修改为服务器上当前设置的2倍为宜)

    [mysqld]
    set-variable=max_connections=500

     

     

     

    阅读全文 »

    相关日志:


  • PHP实现类似tail命令读取最后n行的方法

    发表于 2010年01月1日 黄良懿 没有评论

    需要分析日志时tail命令可是常需要用到的,可惜php内并没有提供类似的方法,所以自己实现了一个。 调用方式为tail($filename, $rows),每次默认读取1024字节作为缓冲,返回字符串数组,文件尾的行靠前(这里的行为和tail有所区别,如果需要以原序返回的请自行调用array_reverse)。 代码如下:

    /**
     * 读取文件最后若干行的数据
     *
     * @param string $filename
     * 文件名
     * @param string $rows
     * 行数
     * @param string $size
     * 内存缓冲区大小,默认为1024字节
     * @param string $ending
     * 行尾分隔符,默认为\n
     * @return array
     * 读取成功则返回字符串数组,文件尾的字符串靠前,读取失败则返回false
     */
    function tail($filename, $rows, $size = 1024, $ending = "\n") {
    	$ret = false;
    	if ($rows > 0 && $fp = fopen($filename, 'rb')) {
    		$pos = filesize($filename);
    		$ret = array();
    		flock($fp, LOCK_SH); 
    
    		$data = '';
    		$found = 0;
    		while ($found < $rows) {
    			$pos = $pos - $size;
    			if ($pos < 0) {
    				$size = 1024 + $pos;
    				$pos = 0;
    			}
    			fseek($fp, $pos, SEEK_SET);
    			$data = fread($fp, $size) . $data;
    			$tmp = explode($ending, $data);
    			$count = count($tmp);
    			for ($i = 1; $i < $count; $i++) {
    				$ret[] = $tmp[$count - $i];
    				$found++;
    				if ($found >= $rows) {
    					break;
    				}
    			}
    			$data = $tmp[0];
    			if ($pos <= 0) {
    				break;
    			}
    		}
    		flock($fp, LOCK_UN);
    		fclose($fp);
    	}
    	return $ret;
    }
    

    相关日志: