Pyspider框架

mac2022-06-30  114

1,

2,在ubuntu安装pyspider如果出现pycul的问题

首先执行命令:sudo apt-get install libssl-dev libcurl4-openssl-dev python-dev

然后执行:apt-get install libxml2-dev libxslt1-dev python-dev 

 

异常:VauleError: Invalid configuration

解决方法:

pip uninstall wsgidav

pip install wsgidav==2.4.1

 

widows:

  phantomjs  解压出phantomjs.exe 之后复制到python根目录

Ubuntu:  直接通过 sudo apt-get install phantomjs

 

requests库

scrapy框架

pyspider框架  有界面的

删除pyspider项目?

第一种:status  改成stop;group 改成 delete 24小时后删除。

第二种:强制删除,找到data目录,直接删除。

 

创建项目  create按钮创建  

DEBUG/RUNNING 状态下爬虫才能运行

调试页面

方法:

on_start  入口方法  点击run的时候默认会调用

crawl  生成一个新的爬取请求类似于scrapy.Request 接受的参数是url和回调函数

@every(minutes=24 * 60)告诉调度器 每天只需一次这个方法 @config(age=10 * 24 * 60 * 60)告诉调度器 这个请求过期时间是10天

 

def __init__(self): """ 和数据库建立连接 mongo mysql """ connection = pymongo.MongoClient(host='',post=27017) client = connection['v2ex'] self.db = client['items']

 

on_result  默认会调用的存储数据的方法   可以自己重写

phantomjs  浏览器

phantomjs.exe放到python的根目录下

 

转载于:https://www.cnblogs.com/wdty/p/10554560.html

最新回复(0)