沒有代理IP,網(wǎng)絡(luò)爬蟲會(huì)受到限制嗎?很多人認(rèn)為爬蟲必須使用代理IP,沒有代理IP是很困難的。也有人說代理IP沒有必要,那么他們?yōu)槭裁磿?huì)這樣想呢
有朋友說,他用的摩托車收集器是用來收集一些物品,然后按照自己的要求進(jìn)行加工的。他從不使用代理IP,每天收集大約1萬篇文章。他覺得不用代理就能抓取IP照片。
一個(gè)朋友說,他自己寫了一個(gè)爬蟲程序。該公司的任務(wù)是每天抓取成千上萬的網(wǎng)頁。有時(shí)候,當(dāng)有很多任務(wù)的時(shí)候,一天可以花費(fèi)數(shù)百萬。在抓取ip時(shí),它被阻塞。沒有代理IP是不可能的。他認(rèn)為,沒有代理IP爬蟲,這是不可能的。顯然,他們說的很有道理,他們都用親身經(jīng)歷來證明自己的觀點(diǎn)。實(shí)上,爬蟲本質(zhì)上只是一個(gè)訪問網(wǎng)頁的用戶。只是一個(gè)不遵守規(guī)則的特殊用戶。服務(wù)器一般不歡迎這類總是被發(fā)現(xiàn)并通過各種手段被禁止的特殊用戶。最常用的方法是確定你的訪問頻率,因?yàn)槠胀ㄈ嗽L問網(wǎng)頁的速度不會(huì)很快。如果發(fā)現(xiàn)某個(gè)IP訪問速度過快,它將被禁止。
當(dāng)工作量不是很大的時(shí)候,也就是像第一個(gè)朋友一樣,可以慢慢爬,但頻率不是很快。這對(duì)目標(biāo)服務(wù)器來說似乎是可以承受的,并且不會(huì)影響正常的操作,所以它不會(huì)阻止IP,這樣就可以在沒有代理IP的情況下完成日常工作負(fù)載。當(dāng)任務(wù)量比較大的時(shí)候,比如第二個(gè)朋友,一天有幾十萬幾百萬的數(shù)據(jù)量,就無法慢慢完成任務(wù)。如果你加速爬升,目標(biāo)服務(wù)器會(huì)因壓力過大而被IP阻塞,你將無法完成任務(wù)。能怎么辦,必須使用代理IP來解決它。
例如,如果一個(gè)IP在短時(shí)間內(nèi)被訪問100次,目標(biāo)服務(wù)器會(huì)認(rèn)為訪問速度太快,導(dǎo)致IP被阻塞。但是,如果10個(gè)代理IP在短時(shí)間內(nèi)被訪問10次,也不會(huì)被認(rèn)為速度太快而被封鎖。在工作量巨大的時(shí)候,使用代理IP往往可以事半功倍,這也是為什么有人認(rèn)為沒有代理IP就沒有網(wǎng)絡(luò)爬蟲的原因。