说明:这是一个非常简单的Pyhton
爬虫程序,一般站点数据都可以爬取。运行Pyhton
程序的时候会提示输入一个URL
:就是需要爬取的地址例如:http://www.baidu.com
。URL
必须加上http
或者https
协议(当然也有少部分ftp
或者ftps
等等,一般都不常用)否侧程序会无法识别需要爬取的地址无法进行下一步操作。第二个输入的是filename
:这是爬取的数据保存在本地的文件的名称,例如:baidu.html
,baidu.jpg
,baidu.txt
等等。
下面代码:
from urllib import request
print('----第一个爬虫程序开始----')
url = input("输入需要爬取的地址,格式http://www.baidu.com按回车结束:")
filename = input("输入需要保存的文件格式,格式baidu.html,baidu.jpg,baidu.txt按回车执行程序:")
request.urlretrieve(url,filename)
print("程序执行完成,文件已下载到此程序父类目录的下面")
小白写文,大牛勿喷。