原创

爬虫三步走


一个简单完整的爬虫流程

1.引入requests包与lxml

import requests
from lxml import etree

2.请求,使用requests包请求一个网址得到html文档,如:

url='www.baidu.com'
html = requests.get(url).content

3.解析,使用xpath语法解析,使用到lxml包里的方法

page = etree.HTML(html.lower().decode('utf-8'))
b = page.xpath(u"//div[@class='info']/h4/b")[0].text  
print(b)

注: xpath语法可以参考:https://www.w3school.com.cn/xpath/index.asp

一般文档解析有三种方法,包括(BeautifulSoup,xpath, 正则表达式)这三种方法解析性能由慢到快

python
  • 作者:黄伟明
  • 发表时间:2020-12-18 11:03
  • 版权声明:非商业自由转载

评论



留言