在用于下载网页上执行lynx -source以及curl -s的结果是完全相同的,而且肉眼观察下来两者的执行效率也应该是完全一样的,但本着闲的蛋疼不做死不会死的精神,我花了点时间测试了这两个命令在执行效率。
测试用到的命令行如下:
time ./curl.sh
以及
time ./lynx.sh
【本篇文章来自道哥博客http://www.seodug.com/,您看到的可能只是采集的结果,原主题会不断更新以提供高质量的内容,如果您想看到更多100%原创,高质量,一线实战SEO的分享和分析请到道哥博客http://www.seodug.com/】
备注:curl.sh以及lynx.sh的作用就是利用lynx -source以及curl -s抓取urls.txt当中的3000条url。为了避免目标网站的承载能力以及VPS本身的网速波动影响测试结果,所以我抓取的是localhost网站,并且分别抓取了3次,每次均记录。
最终平均后的结果如下:
curl:
real 32m6.875s
user 0m14.939s
sys 0m16.223s
lynx:
real 32m34.912s
user 0m37.764s
sys 0m17.281s
总结:对比两者可以看到,两个脚本的总执行时间(real)相差了28秒,而CPU时间(user+sys)上相差了24秒。所以结论是如果你自己有写一个爬虫系统,并且在需要大批量的抓取网页时,应该选择curl。
版权所有:道哥谈SEO技术 《curl及lynx命令执行效率的对比》
本文链接:http://www.seodug.com/server-tech/curl-or-lynx/
特别声明:除特别标注,本站文章均为原创,遵循CC BY-NC 3.0,转载请注明出处
牛X