黑板客第一关,也就是在响应页面中提取需要的信息,没啥难度,需要以下库。
1.requests 我推荐快速上手
2.xpath 我推荐w3school
3.re 我推荐 这个
废话不多说,下面是代码。
#! /user/bin/env python
# -*- coding: utf-8 -*-
import requests
from lxml import etree
import re
def findText(url):
try:
req=requests.get(url).text
tree=etree.HTML(req)
content=tree.xpath("//h3/text()")
content=str(content)
print(content)
match=re.search(r'\d+',content).group()
return match
except:
return None
def main():
num=''
while True:
url="http://www.heibanke.com/lesson/crawler_ex00/"
url=url+num
print(url)
num=findText(url)
if num==None:
break
if __name__ == '__main__':
main()
Comments NOTHING