由于业务需求,10月份上线了新的爬虫业务需求,爬取链接如下:
https://zhidao.baidu.com/http://www.mafengwo.cn/wenda/https://you.ctrip.com/asks/输入相关业务相关热词,抓取对应的问题和答案,问题和答案的内容分析,因涉及公司业务不便分享,现就数据量的分析。 百度知道数据需求:若该热词搜素的结果大于5页,则爬取前5页数据,否则爬取所有数据; 马蜂窝数据需求:若该热词搜素的结果大于60条,则爬取前60条数据,否则爬取所有数据; 携程问答数据需求:同百度知道数据需求; 爬取周期:每周四;
每周不同站点爬取数据量均值分析图如下就提升业务而言,优先选择的站点可能是百度知道这个站点,当有越来越多的用户提出问题,需要得到这个行业正确的解答时,这个业务的开展是有更大意义的;就业务热词数据量分析来看,当用户有问题需要得到解答时,在携程问答发布问题的用户逐渐减少,在百度知道有一部分相对稳定的用户,是否这部分用户可能成为高价值的客户,还需要建立在不同维度的数据层面进行分析。