爬虫框架pyspider - 快速上手

mac2024-01-29 42

爬虫框架pyspider - 快速上手

pyspider是国人开发的一款灵活便捷的爬虫框架, 相较于Scrapy框架来说, pyspider更适合被用于中小规模的爬取工作

了解更多: 爬虫框架pyspider个人总结（详细）熟悉

安装说明

pyspider

使用命令安装: pip install pyspider

使用 Ubuntu 安装时需要先装依赖包

(升级pip后执行命令) sudo apt-get install libssl-dev libcur14-openssl-dev python-dev sudo apt-get install libxml2-dev libxslt1-dev python-dev

安装报错或运行错误请参考文章: pyspider 收纳一些常见问题

如需使用国内的pip源请参考: 更换pip源到国内镜像

phantomjs

安装phantomjs请参考: phantomjs下载安装与使用

快速上手

安装之后先验证是否可以正常使用

打开控制台, cd到你要创建的项目路径

输入pyspider或pyspider all

当看到如下信息时说明pyspider启动成功

(base) D:\pyspider_test\test1>pyspider c:\users\zh\anaconda3\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not supported on your platform. warnings.warn("timeout is not supported on your platform.", Future Warning) [I 191030 19:27:06 result_worker:49] result_worker starting... [I 191030 19:27:06 processor:211] processor starting... [I 191030 19:27:06 tornado_fetcher:638] fetcher starting... [I 191030 19:27:06 scheduler:647] scheduler starting... [I 191030 19:27:06 scheduler:782] scheduler.xmlrpc listening on 127. 0.0.1:23333 [I 191030 19:27:06 scheduler:126] project douban_top250 updated, sta tus:TODO, paused:False, 0 tasks [I 191030 19:27:06 scheduler:586] in 5m: new:0,success:0,retry:0,fai led:0 [I 191030 19:27:07 app:76] webui running on 0.0.0.0:5000 phantomjs fetcher running on port 25555

如果失败请参考: https://blog.csdn.net/makesomethings/article/details/102787469

打开浏览器, 访问http://localhost:5000/, 进入pyspider控制台

点击Create, 输入项目名(Project Name)和要爬取的目标网站(Start URL(s))

你将会看到这样一个页面:

代码区没有自动补全功能, 你可以在pycharm上写好粘过来, 再进行调试, 以www.baidu.com为例

调试好之后, 回退到主页面, 将状态改为DEBUG就可以运行爬取工作了

你可以通过把鼠标放到progress中的4个进度条上以查看执行状态详情, 当all变成纯绿色, 就代表爬虫执行完毕

点击Results, 可以查看你爬取到的内容

删除项目

第一种方法，将目标项目的status改成STOP，然后点击[group]，输入delete，如图， pyspider会在24H后自动删掉这个项目

第二种方法，到你创建项目的文件夹，删除data文件夹，就会删除当前文件夹中所有的项目

参考文章

pyspider英语手册：http://docs.pyspider.org/

最新回复(0)