Hello,我是普通Gopher,00后男孩,极致的共享主义者,想要成为一个终身学习者。专注于做最通俗易懂的计算机基础知识类公众号。每天推送Golang技术干货,内容起于K8S而不止于K8S,涉及Docker、微服务、DevOps、数据库、虚拟化等云计算内容及SRE经验总结 ======================= 初次见面,我为你准备了100G学习大礼包: 1、《百余本最新计算机电子图书》 2、《30G Golang学习视频》 3、《20G Java学习视频》 4、《90G Liunx高级学习视频》 5、《10G 算法(含蓝桥杯真题)学习视频》 6、《英语四级,周杰伦歌曲免费送!》 路过麻烦动动小手,点个关注,持续更新技术文章与资料!
数据采集(Date Capture),又叫做数据获取,数据采集是将系统需要管理的所有对象的原始数据(外部数据)进行一系列的操作并输入到系统内部的一个接口。像摄像头、麦克风等等,都是数据采集工具,而在计算机世界,相应的数据采集工具就更多了,简单的采集工具有Hawk、八爪鱼等。在计算机广泛应用的今天,数据采集在多个领域具有非常重要的意义。它是计算机与外部物理世界连接的桥梁。
前几个月做了一个互联网加项目,是基于机器学习的一个简历招聘推荐系统
今天就分享一下当时爬取Boss直聘时的爬虫代码
可以看到所有的子网页与招聘职位便签都是有规律的,所以咱们可以从这里下手
代码
import io import os import re import time from bs4 import BeautifulSoup from selenium.webdriver import Chrome #寻找网站 def find_boss(): main_html = BeautifulSoup(browser.page_source, "lxml") htmls_two = main_html.find_all("a", href=re.compile('\w.*?-\w.*?')) #寻找职位href for html_two in htmls_two: #遍历 for i in range(1,100): #寻找下一页 browser.get(base_url+html_two['href']+'?page='+str(i)+'&ka=page-'+str(i)) print("第{}页".format(str(i))) #输出下一页 soup_one = BeautifulSoup(browser.page_source, 'lxml') link_lists_nexts = soup_one.find_all('a', href=re.compile('job_detail/.*?~.html')) #寻找需要爬取的职位网站 for link_lists_next in link_lists_nexts: #遍历 html_end=base_url+link_lists_next['href'] browser.get(html_end) reptilian() #执行爬虫函数 time.sleep(1) #主函数 if __name__=='__main__': #获取目标网站url 与 创建招聘信息文件 url='https://www.zhipin.com/?ka=header-home-logo' base_url='https://www.zhipin.com' #打开浏览器 browser=Chrome() browser.get(url) #主函数 find_boss() #关闭浏览器 browser.close()构造函数的时候使用了正则表达式匹配了第一页所有的招聘岗位网站
构造成功后可以爬虫就可以定位到想要爬取的具体招聘岗位网页了
现在我们要根据要爬取的具体信息来分析标签了
#构造爬虫函数 def reptilian(): page_source=browser.page_source soup=BeautifulSoup(page_source, 'html.parser') #工作名称 学历 福利 工资 company_info=soup.find('div', class_='info-primary') job_name = company_info.find('div', class_='name') study_infor=company_info.find('p',) job_tags=company_info.find('div',class_='job-tags') describe=soup.find('div',class_='text') #工作地址 公司名称 detail_content=soup.find('div', class_='detail-content') company_name=detail_content.find('div', class_='name') company_addr=detail_content.find('div',class_='location-address') #去标签 job_name = ' '.join('%s' % id for id in job_name) study_infor = ' '.join('%s' % id for id in study_infor) job_tags = ' '.join('%s' % id for id in job_tags) describe=' '.join('%s' % id for id in describe) company_name = ' '.join('%s' % id for id in company_name) company_addr = ' '.join('%s' % id for id in company_addr) cut = re.compile(r'<[^>]+>', re.S) job_name= cut.sub('', job_name) study_infor= cut.sub('', study_infor) job_tags= cut.sub('', job_tags) company_name= cut.sub('', company_name) company_addr= cut.sub('', company_addr) describe = cut.sub('', describe) f="-------------------------------------------------------------------------------------" infors=str(job_name)+str(study_infor)+str(job_tags)+str(company_name)+str(company_addr)+'\n'+"职位描述 : "+'\n'+str(describe)+'\n'+str(f)+'\n' write_data(file_path=file_path, file_name=file_name, data=infors)可以添加个写入txt文件的函数,便于保存
# 创建文件函数(文件路径,文件名) def establish_file(file_path, file_name): # 文件路径 path = file_path + file_name # 判断文件是否存在 if os.path.exists(path): print(file_name + "文件已经存在,正在删除~~~~~") # 删除原有的文件 os.remove(path) print("原有文件已经删除,正在重新创建文件~~~~") # 创建文件(文件路径, 打开方式‘w’只写, 编码格式) f = io.open(path, 'w', encoding='utf-8') # 关闭文件 f.close() print("文件创建成功!") # 将获取数据写入文件中(文件路径,文件名,数据) def write_data(file_path, file_name, data): # 文件路径 path = file_path + file_name # 打开创建文件(文件路径,打开方式'a'追加, 编码格式) f = io.open(path, 'a', encoding='utf-8') print("正在写入" + file_name + "...") # 数据写入文件 f.write(data) print("写入成功") # 关闭文件 f.close()这样就成功将该招聘岗位的基本信息就爬取到了
接下来就考虑将所有页数的与所有在招聘岗位自动化爬取了
import io import os import re import time from bs4 import BeautifulSoup from selenium.webdriver import Chrome # 创建文件函数(文件路径,文件名) def establish_file(file_path, file_name): # 文件路径 path = file_path + file_name # 判断文件是否存在 if os.path.exists(path): print(file_name + "文件已经存在") else: f = io.open(path, 'w', encoding='utf-8') # 关闭文件 f.close() print("文件创建成功!") # 主函数 find_boss() # 将获取数据写入文件中(文件路径,文件名,数据) def write_data(file_path, file_name, data): # 文件路径 path = file_path + file_name # 打开创建文件(文件路径,打开方式'a'追加, 编码格式) f = io.open(path, 'a', encoding='utf-8') print("正在写入" +file_name + "...") # 数据写入文件 f.write(data) print("写入成功") # 关闭文件 f.close() #构造爬虫函数 # 构造爬虫函数 def reptilian(): page_source = browser.page_source soup = BeautifulSoup(page_source, 'html.parser') try: # 工作名称 学历 福利 工资 company_info = soup.find('div', class_='info-primary') job_name = company_info.find('div', class_='name') study_infor = company_info.find('p') job_tags = company_info.find('div', class_='job-tags') describe = soup.find('div', class_='text') # 工作地址 公司名称 detail_content = soup.find('div', class_='detail-content') company_name = detail_content.find('div', class_='name') company_addr = detail_content.find('div', class_='location-address') # 剔除标签 job_name = job_name.get_text("", strip=True) study_infor = study_infor.get_text("", strip=True) job_tags = job_tags.get_text("", strip=True) describe = describe.get_text("", strip=True) company_name = company_name.get_text("", strip=True) company_addr = company_addr.get_text("", strip=True) except AttributeError: print("该页面不存在,请跳过本次页面") else: f = "-------------------------------------------------------------------------------------" infors = "工作名称 工资:" + job_name + '\n' + "工作地点 工作经验 学历:" + study_infor + '\n' + "公司福利:" + job_tags + '\n' + "职位描述:" + describe + '\n' + "公司名称:" + company_name + '\n' + "工作地址:" + company_addr + '\n' + f + '\n' write_data(file_path=file_path, file_name=file_name, data=infors) #寻找网站 def find_boss(): main_html = BeautifulSoup(browser.page_source, "lxml") job_list=main_html.find('div',class_="menu-sub") htmls_two = job_list.find_all("a", href=re.compile('\w.*?-\w.*?')) #寻找职位href for html_two in htmls_two: #遍历 for i in range(1,11): #寻找下一页 browser.get(base_url+html_two['href']+'?page='+str(i)+'&ka=page-'+str(i)) print("第{}页".format(str(i))) #输出下一页 soup_one = BeautifulSoup(browser.page_source, 'lxml') link_lists_nexts = soup_one.find_all('a', href=re.compile('job_detail/.*?~.html')) #寻找需要爬取的职位网站 for link_lists_next in link_lists_nexts: #遍历 html_end=base_url+link_lists_next['href'] browser.get(html_end) reptilian() #执行爬虫函数 time.sleep(1) #主函数 if __name__=='__main__': #获取目标网站url 与 创建招聘信息文件 url='https://www.zhipin.com/?ka=header-home-logo' base_url='https://www.zhipin.com' file_path='E:\\' #路径 file_name=str(input("请输入要创建的文件名称:")) #打开浏览器 browser=Chrome() browser.get(url) #创建文件 establish_file(file_path=file_path, file_name=file_name) #关闭浏览器 browser.close()注意
在设计代码的时候一定要考虑到404网站的存在,及时抛出异常,考虑周到
这样,一个简单的python爬虫就实现了