1.引入requests包与lxml
import requests
from lxml import etree
2.请求,使用requests包请求一个网址得到html文档,如:
url='www.baidu.com'
html = requests.get(url).content
3.解析,使用xpath语法解析,使用到lxml包里的方法
page = etree.HTML(html.lower().decode('utf-8'))
b = page.xpath(u"//div[@class='info']/h4/b")[0].text
print(b)
注: xpath语法可以参考:https://www.w3school.com.cn/xpath/index.asp
一般文档解析有三种方法,包括(BeautifulSoup,xpath, 正则表达式)这三种方法解析性能由慢到快
评论