BeautifulSoup4 提取数据爬虫用法详解

mac2022-06-30 25

Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于 HTML DOM 的，会载入整个文档，解析整个 DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。 BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。虽然说BeautifulSoup4 简单容易比较上手，但是匹配效率还是远远不如正则以及xpath的，一般不推荐使用，推荐正则的使用。

第一步：pip install beautifulsoup4 ，万事开头难，先安装 beautifulsoup4，安装成功后就完成了第一步。

第二步：导入from bs4 import BeautifulSoup 这个模块

第三步：创建 Beautiful Soup 对象 soup = BeautifulSoup(html)

开始使用：

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为 4种: （1）Tag （2） NavigableString （3） BeautifulSoup （4） Comment

（1）用BeautifulSoup来获取Tags ：Tag 通俗点讲就是 HTML 中的一个个标签，直接用BeautifulSoup来调用

soup = BeautifulSoup(html,’lxml’) print(soup.title) print(soup.head) print(soup.a) print(soup.p) print(type(soup.p))这样就可以得到你想要的标签内容了。

tag还可以进行增删改查的操作：

#soup 对象本身比较特殊，它的 name 即为 [document] print(soup.name) print(soup.head.name) #把 p 标签的所有属性打印输出了出来，得到的类型是一个字典。 print(soup.p.attrs) #根据名称获取对应的属性值，类型为列表 print(soup.p['class']) print(soup.p.get('class')) # 可以对这些属性和内容等等进行修改 soup.p['class'] = "newClass" print(soup.p) # 删除属性 del soup.p['class'] print(soup.p)（2） NavigableString

获取标签内部的文字用 .string 即可

print(soup.p.string) # The Dormouse's story print(type(soup.p.string)) # In [13]: <class 'bs4.element.NavigableString'(3) BeautifulSoup

BeautifulSoup 对象表示的是一个文档的内容。大部分时候,可以把它当作 Tag对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称，以及属性

print(type(soup.name)) # <type 'unicode'> print(soup.name) # [document] print(soup.attrs) # 文档本身的属性为空 # {} (4) Comment

Comment对象是一个特殊类型的NavigableString 对象，其输出注释但不包含注释符号。

print(soup.a) # <a class="sister" href="http://example.com/elsie" id="link1"></a> print(soup.a.string) # Elsie print(type(soup.a.string)) # <class 'bs4.element.Comment'> a 标签里的内容实际上是注释，但是如果我们利用 .string 来输出它的内容时，注释符号已经去掉了

一开始搜索文档树：.find_all(name, attrs, recursive, text, **kwargs)

1）name 参数 name 参数可以查找所有名字为 name 的 tag,字符串对象会被自动忽略掉 A.传字符串 Beautiful Soup会查找与字符串完整匹配的内容范例：用于查找文档中所有的<b>标签: print(soup.find_all('b')) print(soup.find_all('a')) B.传正则表达式 Beautiful Soup会通过正则表达式的 match()来匹配内容. 范例：找出所有以 b开头的标签,这表示<body>和<b>标签都应该被找到 import re for tag in soup.find_all(re.compile("^b")): print(tag.name) C.传列表 Beautiful Soup会将与列表中任一元素匹配的内容返回. 范例：找到文档中所有<a>标签和<b>标签: print(soup.find_all(["a", "b"])) 2）keyword 参数 print(soup.find_all(id='link2')) 3）text 参数 text 参数接受字符串,正则表达式,列表, 可以搜搜文档中的字符串内容 print(soup.find_all(text="Elsie")) print(soup.find_all(text=["Tillie", "Elsie", "Lacie"])) print(soup.find_all(text=re.compile("Dormouse")))

二 CSS选择器（重点！！！！！！）

写 CSS时，标签名不加任何修饰，类名前加.，id名前加# 可以利用类似的 soup.select()方法来筛选元素，返回结果是 list soup.select_one() 返回值是list的首个。（1）通过标签名查找 print(soup.select('title')) print(soup.select('a')) print(soup.select('b')) （2）通过类名查找 print(soup.select('.sister')) （3）通过 id 名查找 print(soup.select('#link1')) （4）组合查找组合查找即和写 class文件时，标签名与类名、id名进行的组合原理是一样的，例如查找 p 标签中，id 等于 link1的内容，二者需要用空格分开 print(soup.select('p #link1')) 直接子标签查找，则使用 > 分隔 print(soup.select("head > title")) （5）属性查找查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。 print(soup.select('a[class="sister"]')) print(soup.select('a[href="http://example.com/elsie"]')) 同样，属性仍然可以与上述查找方式组合，不在同一节点的空格隔开，同一节点的不加空格 print(soup.select('p a[href="http://example.com/elsie"]')) （6）获取内容可以遍历 select 方法返回的结果，然后用 get_text() 方法来获取它的内容。 soup = BeautifulSoup(html, 'lxml') print(type(soup.select('title'))) print(soup.select('title')[0].get_text()) for title in soup.select('title'): print(title.get_text())

转载于:https://www.cnblogs.com/valorchang/p/11468171.html

相关资源：python爬虫学习笔记之Beautifulsoup模块用法详解

最新回复(0)