Python

黑板客爬虫闯关1

黑板客第一关,也就是在响应页面中提取需要的信息,没啥难度,需要以下库。

1.requests  我推荐快速上手

2.xpath 我推荐w3school

3.re       我推荐 这个

废话不多说,下面是代码。

#! /user/bin/env python
# -*- coding: utf-8 -*-
import requests
from lxml import etree
import re
def findText(url):
  try:
    req=requests.get(url).text
    tree=etree.HTML(req)
    content=tree.xpath("//h3/text()")
    content=str(content)
    print(content)
    match=re.search(r'\d+',content).group()
    return match
  except:
    return None
def main():
    num=''
    while True:
        url="http://www.heibanke.com/lesson/crawler_ex00/"
        url=url+num
        print(url)
        num=findText(url)
        if num==None:
           break
if __name__ == '__main__':
    main()

 

 

留言

您的电子邮箱地址不会被公开。 必填项已用 * 标注