一个简单完整的爬虫流程

1.引入requests包与lxml

import requests
from lxml import etree

2.请求，使用requests包请求一个网址得到html文档，如：

url='www.baidu.com'
html = requests.get(url).content

3.解析，使用xpath语法解析，使用到lxml包里的方法

page = etree.HTML(html.lower().decode('utf-8'))
b = page.xpath(u"//div[@class='info']/h4/b")[0].text  
print(b)

一般文档解析有三种方法，包括（BeautifulSoup，xpath，正则表达式）这三种方法解析性能由慢到快

python

爬虫三步走