携程问答,马蜂窝,百度知道基于每周四爬取数据量分析

mac2025-10-10  1

由于业务需求,10月份上线了新的爬虫业务需求,爬取链接如下:

https://zhidao.baidu.com/http://www.mafengwo.cn/wenda/https://you.ctrip.com/asks/

输入相关业务相关热词,抓取对应的问题和答案,问题和答案的内容分析,因涉及公司业务不便分享,现就数据量的分析。 百度知道数据需求:若该热词搜素的结果大于5页,则爬取前5页数据,否则爬取所有数据; 马蜂窝数据需求:若该热词搜素的结果大于60条,则爬取前60条数据,否则爬取所有数据; 携程问答数据需求:同百度知道数据需求; 爬取周期:每周四;

每周不同站点爬取数据量均值分析图如下
结论:马蜂窝第一次爬取数据可能存在误差,数据结果集的数量在最后趋于稳定,整体热词得到的搜素结果前100条数据得到保障。
每周四爬取数据差异数据统计分析图
结论:携程问答和马蜂窝的差异数据最后渐渐趋于0,得到的数据绝大多数是重复数据,网站针对业务热词的更新率不是很高,百度知道最后数据量趋于平缓,差异数据占总数据的30%左右,这样的网站对我们的业务分析来说是相对有价值的网站。
爬取数据发布时间是近三年的数据量分析图
结论:百度知道每年发布问题的用户波动平缓,波动幅度最大的站点是携程问答,业务相关的热词在百度知道站点有稳定的答案需求者。

总结:

就提升业务而言,优先选择的站点可能是百度知道这个站点,当有越来越多的用户提出问题,需要得到这个行业正确的解答时,这个业务的开展是有更大意义的;就业务热词数据量分析来看,当用户有问题需要得到解答时,在携程问答发布问题的用户逐渐减少,在百度知道有一部分相对稳定的用户,是否这部分用户可能成为高价值的客户,还需要建立在不同维度的数据层面进行分析。

最新回复(0)