黑板客爬虫闯关1

youncyb 发布于 2017-08-11 2547 次阅读 Python

黑板客第一关，也就是在响应页面中提取需要的信息，没啥难度，需要以下库。

1.requests 我推荐快速上手

2.xpath 我推荐w3school

3.re 我推荐这个

废话不多说，下面是代码。

#! /user/bin/env python
# -*- coding: utf-8 -*-
import requests
from lxml import etree
import re
def findText(url):
  try:
    req=requests.get(url).text
    tree=etree.HTML(req)
    content=tree.xpath("//h3/text()")
    content=str(content)
    print(content)
    match=re.search(r'\d+',content).group()
    return match
  except:
    return None
def main():
    num=''
    while True:
        url="http://www.heibanke.com/lesson/crawler_ex00/"
        url=url+num
        print(url)
        num=findText(url)
        if num==None:
           break
if __name__ == '__main__':
    main()

上一篇文章

sql注入学习笔记1

下一篇文章

黑板客爬虫闯关2

查看评论 - 无~

Comments NOTHING

暂无评论

发表评论取消回复