让大家久等了,萌萌小编又带来干货给大家了,大家准备双手接住了!这一次,我要介绍python中的re模块,还要隆重介绍正则表达式怎么在爬虫中使用,最后介绍一个爬虫小实战,具体是什么实战,请大家往下翻阅吧。
世界上的信息非常多,而我们关注的信息有限。假如我们希望只提取关注的数据,此时可以通过一些表达式进行提取,正则表达式就是其中一种进行数据筛选的表达式。当然正则表达式也有缺点,正则表达式只适合匹配文本字面,不适合匹配文本意义:像匹配url,email这种纯文本的字符就很好,但比如匹配多少范围到多少范围的数字,如果你这个范围很复杂的话用正则就很麻烦。或者匹配html,这个是很多人经常遇到的,写一个复杂匹配html的正则很麻烦,不如使用针对特定意义的处理器来处理(比如写语法分析器,dom分析器等);但是,使用正则表达式还是有好处的,比如说方便。
原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子 原子类型:所有打印字符(a-z,A-Z,0-9,-,*,&@!()等)和非打印字符(换行、Tab键等)都可以作为原子;还有通用字符作为原和原子表。
import re #首先要导入re包 # 普通字符作为原子 string = 'feng yun xiong ba tian xia' pat = 'yun' rst = re.search(pat,string) print(rst) #使用re.search()函数寻找rst位于字符串的位置 # # # pat1 = 'shuang' rst1 = re.search(pat1,string) print(rst1) #使用re.search()函数寻找pat1位于字符串的位置<re.Match object; span=(5, 8), match=‘yun’> None
# 非打印字符作为原子 # 最常见的有:\n换行符,\t 制表符(就是我们的tab) string = '''feng yun xiong ba tian xia''' # 三引号可以注释,同时也表示换行的字符串 pat = '\n' rst = re.search(pat,string) # 使用re.search()函数寻找\n位于字符串的位置 print(rst)<re.Match object; span=(8, 9), match=’\n’>
# 通用字符作为原子 ''' \w 匹配任意一个字母、数字或下划线 \W 除字母、数字或下划线以外的任意一个字符 \d 匹配十进制数 \D 除十进制数以外的任意一个字符 \s 匹配任意一个空白字符 \S 除空白字符以外的任意一个字符 ''' string = 'feng yun xiong ba tian xia di 2 bu di 13 ji' pat = '\w\w\s\d' #找到一个前两个为字母或数字第三位为空格第四位为数字的字符串 rst = re.search(pat,string) print(rst)<re.Match object; span=(27, 31), match=‘di 2’>
# 原子表[] string = 'feng yun xiong ba tian xia di 2 bu di 13 ji' pat = 'y[vuw]n' #自定义原子表 rst = re.search(pat,string) print(rst) # # pat1 = '[yun]' #自定义原子表 rst1 = re.search(pat1,string) print(rst1) # # pat2 = '[^yun]' #自定义原子表 rst2 = re.search(pat2,string) print(rst2)<re.Match object; span=(5, 8), match=‘yun’> <re.Match object; span=(2, 3), match=‘n’> <re.Match object; span=(0, 1), match=‘f’>
转义字符在正则中使用: 1.可以将有意义的字符转义成没有意义的(将有意义的变成原子),例如’.’; 2.可以将没有意义的字符转义成有意义的,例如n、t等; 3.所有没有意义的字符加上转义也没有意义的,都是可以自由选择加不加转义字符。例如:数字或$等; 正则表达式的基本符号:
转义字符意义\n换行符\t制表符\普通的反斜杠\’单引号\’’双引号\ d数字常用的元字符
. 点,匹配除换行符以外的任意一个字符,如果用了后面讲的模式修正符,换行符它也可以匹配^ 如果该符号不在我们的原子表里面,它表示匹配字符串开始的位置;在原子表里表示非$ 匹配结束位置* 代表的是前面的这个原子出现0次、一次或多次?代表的是前面的这个原子出现0次或1次 (yes/no)+代表的是前面的这个原子出现1次或多次$匹配字符串结尾{n} 代表的是前面的这个原子恰好出现n次,用的时候n会用数字代替{n,} 代表的是前面的这个原子至少出现n次{n,m} 代表的是前面的这个原子至少出现n次,至多出现m次| 竖线,代表的是模式选择符或() 小括号代表我们的模式单元 string = 'fengyunxiongbatianxiadi2budi13ji' pat = 'feng.un' #<re.Match object; span=(0, 7), match='fengyun'> pat = 'feng...' #<re.Match object; span=(0, 7), match='fengyun'> pat = '^feng...' #<re.Match object; span=(0, 7), match='fengyun'> pat = '^eng...' #None pat = 'feng...$' #None pat = 'feng*' #<re.Match object; span=(0, 4), match='feng'> pat = 'feng.*' #<re.Match object; span=(0, 32), # match='fengyunxiongbatianxiadi2budi13ji'> # 这个和一会儿我要讲的贪婪模式有关 pat = 'feng.+' # <re.Match object; span=(0, 32), # match='fengyunxiongbatianxiadi2budi13ji'> pat = 'feng+' #<re.Match object; span=(0, 4), match='feng'> pat = 'feng.?' #<re.Match object; span=(0, 5), match='fengy'> pat = 'feng?' #<re.Match object; span=(0, 4), match='feng'> rst = re.search(pat,string) print(rst)<re.Match object; span=(0, 4), match=‘feng’>
I : 表示匹配时忽略大小写,因为默认是不忽略大小写的 M : 表示多行匹配 L : 本地化识别 U : unicode编码解析 S : 让点匹配包括换行符
string = 'Python' pat = 'pyt' rst = re.search(pat,string) rst1 = re.search(pat,string,re.I) # 忽略大小写,这样更容易找到需要的字符串 print(rst) print(rst1)None <re.Match object; span=(0, 3), match=‘Pyt’>
贪婪模式的核心点就是尽可能多的匹配,而懒惰模式的核心点就是尽可能少的匹配
#贪婪模式与懒惰模式 string = 'fenn55n5566n666jncdnj' pat = 'fen.*6' # 贪婪模式 rst = re.search(pat,string) print(rst) pat1 = 'fen.*?6' # 懒惰模式——精准 rst1 = re.search(pat1,string) print(rst1)<re.Match object; span=(0, 15), match=‘fenn55n5566n666’> <re.Match object; span=(0, 10), match=‘fenn55n556’>
re.match()函数——只能从头开始匹配,返回的是match对象 re.search()函数——可以从任意一个地方开始匹配,返回的是match对象
string = 'fengyunxiongbatianxiadi2budi13ji' pat = 'feng.?' rst = re.match(pat,string) #从以feng打头的地方开始寻找 print(rst) pat1 = 'eng.?' rst1 = re.match(pat1,string) #从以eng打头的地方开始寻找 print(rst1) pat2 = 'eng.?' rst2 = re.search(pat2,string) #从任意地方开始寻找eng+一个匹配到的字母 print(rst2)<re.Match object; span=(0, 5), match=‘fengy’> None <re.Match object; span=(1, 5), match=‘engy’>
re.findall() —— 搜索所有满足正则表达式的字符串,然后返回列表类型
string = 'dpxyfjpvysfnnjptysdspjyfdc' pat = 'p.?y' rst = re.match(pat,string) print(rst) rst1 = re.search(pat,string) print(rst1) rst2 = re.findall(pat,string) print(rst2)None <re.Match object; span=(1, 4), match=‘pxy’> [‘pxy’, ‘pvy’, ‘pty’, ‘pjy’]
re.split()函数 ——将一个字符串按照正则表达式匹配的结果进行 (分割,同样返回一个列表类型)
string = 'dpxyfjpvysfnnjptysdspjyfdc' pat = 'p.?y' rst = re.split(pat,string) #把所有pat分走 print(rst)[‘d’, ‘fj’, ‘sfnnj’, ‘sds’, ‘fdc’]
re.finditer—— 迭代的获得每一次正则表达式匹配的结果,并返回一个匹配结果的迭代类型,每个迭代元素是一个match对象,因此它可以通过循环方式对每一个匹配进行循环操作
string = 'dpxyfjpvysfnnjptysdspjyfdc' pat = 'p.?y' rst = re.finditer(pat,string) print(rst) for i in re.finditer(pat,string): if i: print(i) print(i.group(0))<callable_iterator object at 0x000002256E46EE10> <re.Match object; span=(1, 4), match=‘pxy’> pxy <re.Match object; span=(6, 9), match=‘pvy’> pvy <re.Match object; span=(14, 17), match=‘pty’> pty <re.Match object; span=(20, 23), match=‘pjy’> pjy
实战内容:获取“Top250电影”的中文名称、英文名、港台名、导演、主演、上映年份、电影分类以及评分信息并格式化输出到本地文本文件中
import requests from bs4 import BeautifulSoup import csv #提取电影英文名,港台名,导演,主演,上映年份,电影分类和评分¶ def get_movies(): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36', 'Host': 'movie.douban.com' } movie_list = [] for i in range(0, 10): link = 'https://movie.douban.com/top250?start=' + str(i * 25) r = requests.get(link, headers=headers, timeout=10) soup = BeautifulSoup(r.text, "lxml") div_list = soup.find_all('div', class_='info') for each in div_list: title = each.find('div', class_='hd').a.span.text.strip() info = each.find('div', class_='bd').p.text.strip() info = info.replace("\n", " ").replace("\xa0", " ") info = ' '.join(info.split()) rating = each.find('span', class_='rating_num').text.strip() num_rating = each.find('div', class_='star').contents[7].text.strip() try: quote = each.find('span', class_='inq').text.strip() except: quote = "" movie_list.append([title, info, rating, num_rating, quote]) csvFile = open('Top250.csv', 'a+', encoding='utf-8') writer = csv.writer(csvFile) writer.writerow(('电影英文名', '港台名', '导演', '主演', '上映年份', '电影分类和评分')) for i in range(100): writer.writerow(movie_list[i]) csvFile.close() return movie_list movies = get_movies() print(movies)这个实战是我对书中的代码做的小小改进,使得代码不光能获取信息,还能把信息存入csv文件中,具体实战的详解我现在还没有时间讲,容我日后详解。
