Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息,并保存至本地csv文件

mac2022-06-30  26

 Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息

 ---------------readme---------------

 简介:本人产品汪一枚,Python自学数月,对于小白,本文会是一篇比较容易上手的经验贴。当然毕竟是新手,欢迎大牛拍砖、狂喷~

 致谢:

  本着了解招聘行情,以备不时之需;之所以选择拉勾网下手,是因为对于互联网相关行业,拉勾属于相对专业的网站,至少个人观点是比某联招聘要好很多;同时也感谢拉勾网的权威招聘信息,也使我对Requests方法更为熟悉。

  爬取拉勾官网(www.lagou.com)期间,若对拉勾造成或小或大的影响,本人深感歉意。本文只为获取招聘信息和交流学习,并无恶意,再次鸣谢。

 

  ---------------正文分隔符---------------

 开发环境

MacBook Air (13-inch, Early 2015) macOS High Sierra 10.13.61.6GHZ Inter Core i5Python:V 3.7.0 

  一、需求

  因本人产品汪一枚,所以首要需求就是爬取拉勾网北京地区、产品经理职位的招聘信息。

  二、拉勾网Html页面分析

  1、拉钩网页面分析

  首先,使用自己账号登陆拉勾网,这个在分析header中会带有cookies等信息,在spider模拟访问请求的url时,被反爬虫的概率更小些(ps:拉勾网总不至于不让用户查询招聘信息吧...)

  当然,也可以不用账号的信息进行爬取,代码应该大体相同,不同的只会在header的参数略微有区别。

  登陆完成后,在拉勾网的首页(https://www.lagou.com/)检索栏输入“产品经理”,点击搜索Butten,招聘信息列表页面如下图所示:

  

  

  每1页展示15个招聘职位,总展示30页的招聘信息。

  结论:所以单次职位的检索,仅可以spider的职位数量为450个招聘职位。

  2、我们再看下Html

   关于页面的Html分析如下:

  (1)Request URL:https://www.lagou.com/jobs/positionAjax.json?city=北京&needAddtionalResult=false  

  这个url会是我们本次模拟的Request的url,其中"city=北京"在Query String Parameters(请求参数)中有对应的参数,对应:北京

  所以我们本次Request的url可以这样定义:

  

  (2)、Form Data的参数

  拉勾网将是否是第一次请求、当前的页码,以及输入的招聘职位信息全部包含在Form Data中

  从截图看,当前页面是第一页,所以肯定是第一次请求。

  我们在看下第二页的参数信息。

  当我们点击第二页的时候,请求记录中会多出现一条请求记录,请求的url链接依然是我们上面分析的url,但是Form Data的参数调整为第二页对应的参数,见截图。

  所以,在Request请求时,我们就可以按照这个规律拼装Form Data参数。

  (3)、result中的惊喜

  在url->Preview->content->positionResult->result中(见Html的第三张截图),竟然可以找到页面招聘列表页,我们需要的15个招聘职位信息...这也是拉勾网最让我吃惊的地方,这样让爬取招聘信息变得如此简单。

  三、爬取拉钩网实战

  先上全部代码,如下:

1 import requests 2 import pandas 3 import time 4 import random 5 6 #用于获取页面信息 7 def getWebResult(url,cookies,form,header): 8 html = requests.post(url=url,cookies=cookies,data=form, headers=header) 9 result = html.json() 10 #找到html中result包含的招聘职位信息 11 data = result['content']['positionResult']['result'] # 返回结果在preview中的具体返回值 12 return data 13 14 #将招聘信息按照对应的参数,组装成字典 15 def getGoalData(data): 16 for i in range(15):#每页默认15个职位 17 info={ 18 'positionName': data[i]['positionName'], #职位简称 19 'companyShortName': data[i]['companyShortName'], #平台简称 20 'salary': data[i]['salary'], #职位薪水 21 'createTime': data[i]['createTime'], #发布时间 22 'companyId':data[i]['companyId'], #公司ID 23 'companyFullName':data[i]['companyFullName'], #公司全称 24 'companySize': data[i]['companySize'], #公司规模 25 'financeStage': data[i]['financeStage'], #融资情况 26 'industryField': data[i]['industryField'], #所在行业 27 'education': data[i]['education'], #教育背景 28 'district': data[i]['district'], #公司所在区域 29 'businessZones':data[i]['businessZones'] #区域详细地 30 } 31 data[i]=info 32 return data 33 34 #保存data至笨死csv文件 35 def saveData(data,stage): 36 table = pandas.DataFrame(data) 37 table.to_csv(r'/Users/shang/Desktop/myself/LaGou1.csv', header=stage, index=False, mode='a+') 38 39 def main(): 40 # 拼装header信息 41 header = { 42 'Host': 'www.lagou.com', 43 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36', 44 'Accept': 'application/json, text/javascript, */*; q=0.01', 45 'Accept-Language': 'zh-CN,en-US;q=0.9,en;q=0.8', 46 'Accept-Encoding': 'gzip, deflate, br', 47 'Referer': 'https://www.lagou.com/jobs/list_产品经理?px=default&city=北京', 48 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 49 'X-Requested-With': 'XMLHttpRequest', 50 'X-Anit-Forge-Token': 'None', 51 'X-Anit-Forge-Code': '0', 52 'Content-Length': '55', 53 'Connection': 'keep-alive', 54 'Pragma': 'no-cache', 55 'Cache-Control': 'no-cache, no-store, max-age=0' 56 } 57 cookies = { 58 'Cookie':' _ga=GA1.2.1499991452.1534085805; user_trace_token=20180812225645-ee28a588-9e3f-11e8-a37b-5254005c3644; LGUID=20180812225645-ee28aac6-9e3f-11e8-a37b-5254005c3644; WEBTJ-ID=20180927222225-1661b68d0a37-0b11bfd97d0f95-346a7809-1296000-1661b68d0a47da; _gid=GA1.2.150811619.1538058146; X_HTTP_TOKEN=7ef120203302eaa5cd2d6f14f01d94b8; LG_LOGIN_USER_ID=210fc6122b83eb29927899e722463f91536920a7b853cd6c; _putrc=C259D6000DA09FDE; JSESSIONID=ABAAABAAAGFABEF00AF5692AF9B9D2C66B07270E514B7A9; login=true; unick=尚全鑫; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=26; index_location_city=北京; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1538058189,1538137263,1538231886,1538298276; gate_login_token=e052ef59f765dd0dc8e68637d17b953008d587077d8a7f78; TG-TRACK-CODE=search_code; LGSID=20180930224915-006ea101-c4c0-11e8-bb68-5254005c3644; PRE_UTM=; PRE_HOST=; PRE_SITE=https://www.lagou.com/; PRE_LAND=https://www.lagou.com/jobs/list_%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%86?labelWords=&fromSearch=true&suginput=; SEARCH_ID=3dd73994b82a47be86797e1f001db6c6; _gat=1; LGRID=20180930231820-109f3a78-c4c4-11e8-bb68-5254005c3644; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1538320700' 59 } 60 61 62 # 职位关键字 63 job='产品经理' 64 65 # 职位所属地 66 city = '北京' 67 # 模拟请求的url 68 url = 'https://www.lagou.com/jobs/positionAjax.json?city=' + city + '&needAddtionalResult=false' 69 70 #用于定义开始爬取的起始页码 71 startPage=1 72 73 #拉勾网有个限制,单次只能连续爬取5页,所以使用一个以5页为轮循的小策略 74 while startPage<26: 75 for i in range(startPage, startPage+5): 76 #拼装Form Data信息 77 if i == 1: 78 flag = 'true' #当是首次请求时,使用flag=true标志 79 stage = True #stage是用来标示csv是否创建表头的参数,仅在第一次保存数据时创建 80 else: 81 flag = 'false' 82 stage = False 83 num = i 84 form = {'first': flag, # 标示是否是首次请求标示,第二页以后则为false 85 'kd': job, 86 'pn': str(num)} 87 print('------page %s-------' % i) #打印当面爬取的页码 88 89 #调用函数,获取相应的招聘信息 90 data = getWebResult(url,cookies,form, header) 91 #调用函数,拼装招聘信息 92 data_goal = getGoalData(data) 93 #调用函数,保存info数据 94 saveData(data_goal, stage) 95 96 #以5页为单次,依次轮循 97 startPage+=5 98 99 #休眠一定时间 100 time.sleep(20+random.randint(10,30)) 101 102 if __name__ == '__main__': 103 main() lagou_spider.py

  代码比较简单,其实主要分为一下几个步骤:

定义url、header、cookie、city、job等基础参数定义Form Data中的参数request相应的url,获取相应的招聘职位data信息将data拼装转化成json格式的字典将data保存至本地的csv文件

  代码比较简单,并且在代码中已经添加相应的标注说明,所以就不整体介绍了。

  有几个踩过的坑在这简单说明下:

  (1)、反爬虫

  我们在爬取数据的时候,触碰了拉勾网制定的一个简单的反爬虫策略:一次只能连续获取5页的招聘信息。

  刚开始爬取的时候,不管从第几页开始,都会在爬取了5页之后,报请求超时...

  所以,在程序中设计了一个小小的策略,每次只连续爬取5页,然后暂停几十秒,然后在再从开始下一轮的5页的爬取,直到爬完30页的招聘信息。

  (2)、pandas库

  本次的数据保存使用的是pandas库,关于该库之强大,是我短时间内无法全部掌握的,所以参考网上经验,仅使用其Dataframe方法中的to_csv()。

  另外,需安装pandas库,在终端输入命令:pip install pandas,一步到位

  当然前提是需安装pip,Mac安装pip的教程,参见我的另一篇博客:Python自学,番外篇之三 Mac的pip3的安装

  pandas参考链接:

  1、http://wiki.jikexueyuan.com/project/start-learning-python/312.html  

  2、https://www.cnblogs.com/misswangxing/p/7903595.html

  (3)、Mac对于csv的痛

  高高兴兴的下载完招聘信息的csv文件,却发现打开是乱码,顿时慌的一匹...

  莫慌,是mac的的默认字符格式不兼容csv,所以,参考下面中方法即可。

  亲测好使:

  教程链接:https://www.168seo.cn/mac-os/23944.html

  打开后的csv文件内容截图如下:  

  表头的顺序,并不是我设定的顺序,因为字典是无序的...所以,看着很不爽,只能认为的调整列了。

  四、总结

  9.28开始爬取拉勾网招聘信息,10.1完成450条信息的爬取,拉勾网算是自己实战爬取的比较正规的第一网站,相对来说比较简单。

  另外,该方法中,还有很多不足之处,待后续慢慢提升。

  最后,再次鸣谢拉勾网,感谢为我提供一个难度适中的实战练手的机会~

转载于:https://www.cnblogs.com/ace722/p/9736002.html

相关资源:JAVA上百实例源码以及开源项目
最新回复(0)