python爬虫解析库学习

开发者艺硕技术 2022年11月9日

0 收藏 929 点赞 4,528 浏览 962 个字

一、xpath库使用：

　　1、基本规则：

　　　2、将文件转为HTML对象：

 html = etree.parse('./test.html', etree.HTMLParser())
 result = etree.tostring(html)
 print(result.decode('utf-8'))

　　　　3、属性多值匹配：

　　　　//a[contains(@class,’li’)]

　　　4、多属性匹配：

　　　　　　//a[@class=”a” and @font=”red”]

　　　5、按序选择：

二、beautifulsoup库学习：

　　1、基本初始化：

　　　　将HTML字符串用lxml格式来解析，并补全标签，创建html处理对象。

　　2、获取信息：

　　　　（1）获取title的name属性：

　　　　　　soup.title.name

　　　　（2）获取多属性：

　　　　（3）children返回孩子节点：

　　　　（4）find_all函数：查找所有的节点。

　　　　　　·通过节点名称来查找：

　　　　　　　　soup.find_all(name=’li’)

　　　　　　·通过属性名来查找：

　　　　　　　　soup.find_all(attrs={‘id’:’link1′})

　　　　　　　　··通过文本来查找：

　　　　　　　　soup.find_all(text=”) 用来匹配网页节点中的文本内容。

　　3、css选择器：

　　　　.select() 方法。参数内容和jquery相似。

　　　　返回内容为列表，类型是tag类型。

三、pyquery库：

　　1、初始化：

　　　　·通过HTML字符串

　　　　·通过url

　　　　·通过文件名。需要指出文件名。

　　2、常用函数：

　　　　（1）find() 方法

　　　　（2）children（）查找子结点

　　　　（3）查找父节点： parent()

　　　　（4）查找祖先节点：

　　　　　　parents()

　　　　（5）兄弟节点：

　　　　　　　　siblings() 方法

　　　　（6）对查找结果进行遍历：

　　　　　　　　.items()返回每一个节点。

　　　　（7）获取节点信息：

　　　　　　　　·获取属性：

　　　　　　　　　　.attrs（‘属性名’）

内容初始化属性方法节点

开发者艺硕

贡献者

上一篇： photoshop学习3

下一篇： bzoj3467: Crash和陶陶的游戏

相关推荐

python开发_常用的python模块及安装方法

adodb：我们领导推荐的数据库连接组件bsddb3：BerkeleyDB的连接组件Cheetah-1.0：我比较喜欢这个版本的cheeta…

程序员润宾技术

日期：2022-11-24 点赞：878 阅读：9,493

Educational Codeforces Round 11 C. Hard Process 二分

C. Hard Process题目连接：http://www.codeforces.com/contest/660/problem/CDes…

程序员春广技术

日期：2022-11-24 点赞：807 阅读：5,907

下载Ubuntn 17.04 内核源代码

zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…

程序员峰军技术

日期：2022-11-24 点赞：569 阅读：6,740

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…

程序员天赐技术

日期：2022-11-24 点赞：733 阅读：6,495

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式，并且由于涉及到要把拍到的照片显…

程序员爱鹏技术

日期：2022-11-24 点赞：512 阅读：8,133

Struts的使用

一、Struts2的获取　　Struts的官方网站为：http://struts.apache.org/　　下载完Struts2的jar包,…

程序员红卫技术

日期：2022-11-24 点赞：671 阅读：5,297

个人收藏笔记记录

开通VIP