6miu盘搜

爬虫引出的问题

mac2026-05-28 15

一、爬虫尺寸的大小

1.主要以爬取网页，玩转网页为主

特点是小规模，数据量小，爬取速度不敏感

通常使用Requests库就行比例非常高

对于Robots协议来说：

访问量很小，可以遵守

访问量较大：建议遵守

2.爬取网站，爬取系列网站

特点：中规模，规模数据较大，爬取速度敏感

通常需要使用Scrapy库

Scrapy库是专门用来Python专门用来爬取网站级别的库

对于Robots协议来说：

非商业且偶尔：建议遵守

商业利益：必须遵守

3.爬取全网

特点：大规模，搜索引擎，爬取速度关键

像百度等等，需要定制开发

对于Robots协议来说：

必须遵守

出现的问题有： 1.对网站的骚然问题，对于网站的维护带来不利

2法律风险，主要是爬取到的数据不能用来盈利

3.隐私泄露，主要是爬虫可以较为简单的突破封锁

网络爬虫的限制：

1.来源审查：User-Agent进行限制

检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问

2.、Robots协议 Robots Exclusion Standard 网络爬虫排除标准

告知所有爬虫网站的爬取策略，要求爬虫遵守

遵不遵守看个人。总体来说，类人行为可不参考Pobots协议

Robots协议

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行

形式：在网站根目录下的robots.txt文件

Robot协议基本语法： User-agent：*

Disallow：/

*代表所有，/代表根目录

Robots协议的使用：

网络爬虫：自动或人工识别robots.txt，再进行内容爬取

约束性：Robots协议是建议但不是约束性，网络爬虫可以不遵守，但存在法律风险

最新回复(0)