我們?cè)谧雠老x(chóng)的時(shí)候經(jīng)常會(huì)遇到這樣的情況。剛開(kāi)始的時(shí)候,爬蟲(chóng)正常運(yùn)行,正常捕獲數(shù)據(jù),一切看起來(lái)都那么美好。但在喝茶的時(shí)候可能會(huì)有誤區(qū),比如403禁。此時(shí)打開(kāi)網(wǎng)頁(yè),可能會(huì)看到提示“您的IP訪問(wèn)頻率過(guò)高”,造成這種現(xiàn)象的原因是網(wǎng)站采取了一些防爬蟲(chóng)措施。例如,服務(wù)器將檢測(cè)單位時(shí)間內(nèi)對(duì)一個(gè)IP的請(qǐng)求數(shù),如果超過(guò)這個(gè)閾值,它將直接拒絕服務(wù),并返回一些錯(cuò)誤消息,這種情況可以稱為IP被封。
由于服務(wù)器檢測(cè)到某個(gè)IP的單位時(shí)間內(nèi)的請(qǐng)求數(shù),我們可以以某種方式偽裝我們的IP,使服務(wù)器無(wú)法識(shí)別由我們的本地機(jī)器發(fā)起的請(qǐng)求,從而成功地防止IP被封。一個(gè)有效的方法是使用IP模擬器來(lái)代理最大的爬蟲(chóng)代理服務(wù)提供商的IP。代理的用法將在后面詳細(xì)解釋。
我們可以看到官網(wǎng)提供了這種代理方式,就是IP代理。IP代理只給你IP和端口號(hào),你可以使用它。一般可以根據(jù)自己的需要設(shè)置有效期。
首先,代理提供商將為您提供一個(gè)ip接口,通過(guò)它您可以獲得ip和端口號(hào)。但是這些IP的有效期是3分鐘,所以我設(shè)置了一個(gè)IP池,每?jī)煞昼姼乱淮蜪P池,以確保這些IP每次使用都是有效的(當(dāng)然官網(wǎng)上說(shuō)IP可用率大于99%)。