如何进行规范性爬虫（笔记）

mac2025-07-09 350

最近多家第三方大数据机构被查，起因是非法爬取并出售客户金融隐私数据。主要是为了整治套路贷和暴力催收的数据源头。

基于法律规定和近期执法背景，理清大数据爬虫的合规边界和红线。

数据爬取行为分为“企业与用户、企业与第三方平台”两个场景，数据交易行为分为“数据提供方企业忽和数据接收方企业”；两个维度。

在数据产业链上下游中，企业咋爱恋孤单，从参与角色分既可以是数据提供方也可以是数据接收方。

一、数据爬取行为

合规误区：公开网站信息是公开的，不需要用户授权同意。已经获得用户的同意，爬取用户通讯录的第三人联系信息并进行后续使用。

风险分析：通过公开网站中爬取的个人信息，如果不是个人呢信息主题自行向社会公众公开或者公共机构主动明示公开的信息，则仍需要获得个人信息主体的授权，用户通讯录中的第三人联系信息直接手机也是缺乏第三人授权。

场景2：模糊收集措辞，概括性授权收集

合规误区：

意在收集的个人信息范围和类型难以穷尽列举，所以使用“等个人信息”等表述来模糊处理。

风险分析：

爬虫采集协议文本不允许用：等个人信息“表述

1.因为该项举措违反了相关规定的透明度要求。

2.这种描述常常伴随着超出使用目的范围的过度收集的嫌疑。

场景三：内部数据融合，进行超出范围使用

将授权爬取的数据和从其他数据源公司获取的爬取数据与自身数据库进行内部数据融合，但是注意不能进行超出原有授权采集目的进行使用。

场景四：未经爬取平台授权进行爬取

爬取平台数据需要的是用户授权和平台的授权。

二、数据交易行为

场景五：

作为数据提供方企业：不允许提供具有授权瑕疵的数据个下游数据使用企业。下游企业使用了授权下次数据也有可能面临相应的刑事责任。

总结：作为数据上游公司：

1.在爬取数据时

应当对自身爬取的合规下次进行评估并跟新授权文本、与被爬取平台进行合作等措施降低风险；爬虫手段需要克制，充遵守robots协议及使用协议，应当充分衡量网站承受能力们不能影响其正常运营。爬虫的数据存储传输使用都应满足法规要求。

2.内部数据融合时

如果融合后的数据仍具有个人识别能力，应该仍然作为个人信息对待，对其处理不能超出当时得到授权的目的范围。如果融合后的数据是个人敏感信息。，新应当主动保护如果想要使用超出授权范围的用途，需要重新征得授权同意。非获得授权业务必要

3.作为数据输出方

在提供数据给下游合作方使用过程中，需要对其用途进行严格的审查。而且要通知用户情况，取得用户同意。

作为数据下游公司

严格审查数据提供方的数据来源是否合法合规遵循三重授权原则，如果相对获得数据进行超出原有授权目的，要再次获得用户授权，保证数据的正当合法。

最新回复(0)