python學(xué)習(xí)筆記 UA_代理IP
User Agent的方法
先看下urllib.request.Request()
????從上圖可以看出,在創(chuàng)建Request對象的時候,可以傳入headers參數(shù)。?
????因此,想要設(shè)置User Agent,有兩種方法:
????1.在創(chuàng)建Request對象的時候,填入headers參數(shù)(包含User Agent信息),這個Headers參數(shù)要求為字典;
????2.在創(chuàng)建Request對象的時候不添加headers參數(shù),在創(chuàng)建完成之后,使用add_header()的方法,添加headers。
方法一:
????創(chuàng)建文件urllib_test09.py,使用上面提到的Android的第一個User Agent,在創(chuàng)建Request對象的時候傳入headers參數(shù),編寫代碼如下:
#?-*-?coding:?UTF-8?-*-
from?urllib?import?request
if?__name__?==?"__main__":
????#以CSDN為例,CSDN不更改User?Agent是無法訪問的
????url?=?'http://www.csdn.net/'
????head?=?{}
????#寫入User?Agent信息
????head['User-Agent']?=?'Mozilla/5.0?(Linux;?Android?4.1.1;?Nexus?7?Build/JRO03D)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.166??Safari/535.19'
?#創(chuàng)建Request對象
????req?=?request.Request(url,?headers=head)
????#傳入創(chuàng)建好的Request對象
????response?=?request.urlopen(req)
????#讀取響應(yīng)信息并解碼
????html?=?response.read().decode('utf-8')
????#打印信息
????print(html)????運行結(jié)果如下:
方法二:
????創(chuàng)建文件urllib_test10.py,使用上面提到的Android的第一個User Agent,在創(chuàng)建Request對象時不傳入headers參數(shù),創(chuàng)建之后使用add_header()方法,添加headers,編寫代碼如下:
#?-*-?coding:?UTF-8?-*-
from?urllib?import?request
if?__name__?==?"__main__":
????#以CSDN為例,CSDN不更改User?Agent是無法訪問的
????url?=?'http://www.csdn.net/'
????#創(chuàng)建Request對象
????req?=?request.Request(url)
????#傳入headers
????req.add_header('User-Agent',?'Mozilla/5.0?(Linux;?Android?4.1.1;?Nexus?7?Build/JRO03D)?AppleWebKit/535.19?(KHTML,?like?Gecko)?Chrome/18.0.1025.166??Safari/535.19')
????#傳入創(chuàng)建好的Request對象
????response?=?request.urlopen(req)
????#讀取響應(yīng)信息并解碼
????html?=?response.read().decode('utf-8')
????#打印信息
????print(html)????運行結(jié)果和上一個方法是一樣的。
IP代理的使用
1.為何使用IP代理
????User Agent已經(jīng)設(shè)置好了,但是還應(yīng)該考慮一個問題,程序的運行速度是很快的,如果我們利用一個爬蟲程序在網(wǎng)站爬取東西,一個固定IP的訪問頻率就會很高,這不符合人為操作的標(biāo)準(zhǔn),因為人操作不可能在幾ms內(nèi),進行如此頻繁的訪問。所以一些網(wǎng)站會設(shè)置一個IP訪問頻率的閾值,如果一個IP訪問頻率超過這個閾值,說明這個不是人在訪問,而是一個爬蟲程序。
2.一般步驟說明
????一個很簡單的解決辦法就是設(shè)置延時,但是這顯然不符合爬蟲快速爬取信息的目的,所以另一種更好的方法就是使用IP代理。使用代理的步驟:
????(1)調(diào)用urlib.request.ProxyHandler(),proxies參數(shù)為一個字典。
????(2)創(chuàng)建Opener(類似于urlopen,這個代開方式是我們自己定制的)
????(3)安裝Opener
????使用install_opener方法之后,會將程序默認(rèn)的urlopen方法替換掉。也就是說,如果使用install_opener之后,在該文件中,再次調(diào)用urlopen會使用自己創(chuàng)建好的opener。如果不想替換掉,只是想臨時使用一下,可以使用opener.open(url),這樣就不會對程序默認(rèn)的urlopen有影響。
3.代理IP選取
????在寫代碼之前,先在代理IP網(wǎng)站選好一個IP地址,推薦西刺代理IP。
????URL:http://www.xicidaili.com/
????注意:當(dāng)然也可以寫個正則表達式從網(wǎng)站直接爬取IP,但是要記住不要太頻繁爬取,加個延時什么的,太頻繁給服務(wù)器帶來壓力了,服務(wù)器會直接把你block,不讓你訪問的,我就被封了兩天。
????從西刺網(wǎng)站選出信號好的IP,我的選擇如下:(106.46.136.112:808)
????編寫代碼訪問http://www.whatismyip.com.tw/,該網(wǎng)站是測試自己IP為多少的網(wǎng)址,服務(wù)器會返回訪問者的IP。
4.代碼實例
????創(chuàng)建文件urllib_test11.py,編寫代碼如下:
#?-*-?coding:?UTF-8?-*-
from?urllib?import?request
if?__name__?==?"__main__":
????#訪問網(wǎng)址
????url?=?'http://www.whatismyip.com.tw/'
????#這是代理IP
????proxy?=?{'http':'106.46.136.112:808'}
????#創(chuàng)建ProxyHandler
????proxy_support?=?request.ProxyHandler(proxy)
????#創(chuàng)建Opener
????opener?=?request.build_opener(proxy_support)
????#添加User?Angent
????opener.addheaders?=?[('User-Agent','Mozilla/5.0?(Windows?NT?6.1;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/56.0.2924.87?Safari/537.36')]
????#安裝OPener
????request.install_opener(opener)
????#使用自己安裝好的Opener
????response?=?request.urlopen(url)
????#讀取相應(yīng)信息并解碼
????html?=?response.read().decode("utf-8")
????#打印信息
????print(html)????運行結(jié)果如下:
????從上圖可以看出,訪問的IP已經(jīng)偽裝成了106.46.136.112。





