最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

python模拟浏览器访问网站

业界 admin 2浏览 0评论
import os  
import urllib  
class AppURLopener(urllib.FancyURLopener):  
    version = "Mozilla/5.0"  
urllib._urlopener = AppURLopener()  
url = "http://blog.csdn/eastmount/article/details/44492787"  
content = urllib.urlopen(url).read()
open('test.html','w+').write(content) 


伪装成浏览器访问
某些网站反感爬虫的到访,于是对爬虫一律拒绝请求
这时候我们需要伪装成浏览器,这可以通过修改http包中的header来实现

#…  
  
headers = {  
	'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'  
}  
req = urllib2.Request(  
	url = 'http://www.csdn',  
	data = postdata,  
	headers = headers  
)  
#...  
对付"反盗链"
某些站点有所谓的反盗链设置,其实说穿了很简单,

就是检查你发送请求的header里面,referer站点是不是他自己,

所以我们只需要像把headers的referer改成该网站即可,以cnbeta为例:

#...
headers = {
    'Referer':'http://wwwbeta/articles'
}
#...




import os  
import urllib  
class AppURLopener(urllib.FancyURLopener):  
    version = "Mozilla/5.0"  
urllib._urlopener = AppURLopener()  
url = "http://blog.csdn/eastmount/article/details/44492787"  
content = urllib.urlopen(url).read()
open('test.html','w+').write(content) 


伪装成浏览器访问
某些网站反感爬虫的到访,于是对爬虫一律拒绝请求
这时候我们需要伪装成浏览器,这可以通过修改http包中的header来实现

#…  
  
headers = {  
	'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'  
}  
req = urllib2.Request(  
	url = 'http://www.csdn',  
	data = postdata,  
	headers = headers  
)  
#...  
对付"反盗链"
某些站点有所谓的反盗链设置,其实说穿了很简单,

就是检查你发送请求的header里面,referer站点是不是他自己,

所以我们只需要像把headers的referer改成该网站即可,以cnbeta为例:

#...
headers = {
    'Referer':'http://wwwbeta/articles'
}
#...




发布评论

评论列表 (0)

  1. 暂无评论