小醉寒i

【原创】关于Python爬虫urllib库的学习(三)
request.Request类:如果想爬取一个有着反爬虫机制的网站(例如拉勾网),只使用urlopen()模块来...
扫描右侧二维码阅读全文
27
2019/01

【原创】关于Python爬虫urllib库的学习(三)

request.Request类:
如果想爬取一个有着反爬虫机制的网站(例如拉勾网),只使用urlopen()模块来爬取一个拥有反爬虫机制的网站信息就显得没用了,这时候就需要用上request.Request类来进行添加一些headers或者是Refereruser-Agent,cookies等等或更多的信息来进行更真实的人为操作的模仿躲避请求网站的服务器的反爬虫检测。下面是爬取拉勾网的实践代码,如下:

from urllib import request
from urllib import parse
    
url = "需要爬取的地址链接"
headers = {"user Agent":"浏览器的user Agent"           #根据浏览器审查的信息加入模仿人为操作
        
           "Referer":"浏览器的Referer"           #根据浏览器审查的信息加入模仿人为操作
}           #添加更多真实信息模仿人为操作
data = {
        "first" : "true",           #根据浏览器审查的信息加入模仿人为操作
        "pn" : 1,           #根据浏览器审查的信息加入模仿人为操作
        "kd" : "Python"           #根据浏览器审查的信息加入模仿人为操作
}           #添加更多真实信息模仿人为操作
request = request.Request(url,headers = headers,data = parse.urlencode(data).encode("utf-8"),method = "POST")
resp = parse.urlencode(request)
        
print(resp.read().decode("utf-8"))

扫描二维码,在手机上阅读!
Last modification:February 8th, 2019 at 06:07 pm
果觉得我的文章对你有用,请随意赞赏瓶饮料

Leave a Comment