-1.下载:pip install lxml -2.导包:from lxml import etree -3.创建etree对象进行指定对象的解析 -本地:etree=etree.parse('本地文件路径') etree.xpath('xpath表达式') -网络:etree=etree.parse('网络请求到的页面数据') etree.xpath('xpath表达式')
- 属性定位: 找到class属性为song的div标签 //div[@class="song"]- 层级&索引定位 找到class为tang的div直系子标签下的ul下的第二个li下的a //div[class="tang"]/ul/li[2]/a- 逻辑定位 找到href属性为空且class属性为do的a标签 //a[@href="" and @class="du"]- 模糊匹配 //div[contains(@class, "ng")] 包含 //div[starts-with(@class,"ta")] 以。。。开头- 取文本 /text() 表示获取某个标签下的文本内容 //text() 表示获取某个标签下的文本内容和所有子标签的文本内容 //div[@class="song"]/p[1]/text() //div[@class="tang"]//text()- 取属性 //div[@class="tang"]//li[2]/a/@href注意: 返回值都是列表
可以直接将表达式作用于浏览器当中,测试通过再用到代码中。
- 安装:更多工具》》拓展程序》》开启开发者模式》》将网上下载的xpath插件拖动到页面 -打开关闭的快捷键:ctrl+shift+x转载于:https://www.cnblogs.com/yuliangkaiyue/p/10001701.html
相关资源:XPath-Helper 爬虫 网络