久草在线高清视频_成人午夜毛片_美女毛片儿_国产精品v片在线观看不卡_成人一区久久_国产一精品久久99无吗一高潮

爬蟲速度怎么限制?優(yōu)化爬蟲速度方法

爬蟲的速度會影響目標(biāo)網(wǎng)站的服務(wù)器。 所以,為了不給目標(biāo)網(wǎng)站造成不必要的損失,爬蟲的速度一定要控制好,不能太快,也不能太慢,沒有耐心,那么如何限制爬蟲速度呢? 我們來看看用IP模擬器代理優(yōu)化爬蟲速度的問題。  

 
1. 控制爬蟲速度 
 
1) 初始化:設(shè)置初始延遲時間 T0 和比例系數(shù) Kp(典型值 -0.05);  [ h]
2)目標(biāo)設(shè)定:設(shè)置爬蟲速度S,如每分鐘40頁;  
 
3)測量:統(tǒng)計每分鐘n個爬蟲爬取的網(wǎng)頁數(shù),可能是32,也可能是100;  
 
4)Compare:比較n和S的大小;  
 
5) Execute:如果n大于S,則表示速度太快,所以增加延遲; 如果 n 大于 S 如果它很小,則表示太慢,因此減少延遲。  
 
該方案的公式如下: 
 
Tk=Tk-1+Kp*(Sn) (3.1)
 
其中k=1, 2, 3 。  .. , Tk 是為第 k 次設(shè)置的延遲時間。  
 
不要被表達式嚇到了,其實意思就是步驟5)中描述的執(zhí)行過程:速度太快(Sn小于0,則Kp*(Sn)為正)  , 增加延遲時的速度(Tk 大于Tk-1); 速度太慢(Sn大于0,Kp*(Sn)為負(fù)),減小延遲(Tk小于Tk-1)。  
 
假設(shè)初始延遲時間T0為1.0s,比例系數(shù)Kp為-0.05,爬行速度S設(shè)置為40頁/分鐘。 如果一個爬蟲爬取的網(wǎng)頁數(shù)為n=100,根據(jù)公式3.1計算的延遲值為T1=T0+Kp*(Sn)=1.0+(-0.05)*(40-100)=4.0; 下一次可能的測量值n=30,計算出的延遲值T2=4.0-0.05*10=3.5。  
 
合理控制履帶速度非常有必要。 如果爬行速度快,增加延遲時間; 如果履帶速度較慢,則減少延遲時間。  
 
二、提高爬坡蠕蟲速度
 
首先要確定當(dāng)前的瓶頸在哪里,網(wǎng)絡(luò)io,磁盤io,還是cpu。 只有這樣,才能詳細分析具體問題。  
 
如果編程能力是瓶頸,添加多線程特性是最劃算的,而且不需要太多開發(fā)時間。 不過后續(xù)的問題可能比較多,幾行代碼也解決不了。  
 
分布式解決cpu瓶頸,更多節(jié)點可以處理分布式任務(wù)。  
 
云服務(wù)器解決本地帶寬瓶頸(一般100MB計劃提供),定期定量購買可以節(jié)省成本(畢竟搜索引擎不常開),目標(biāo)服務(wù)器帶寬限制 (基于IP)由跨區(qū)域服務(wù)器解決。 云服務(wù)器提供商有多個機房。 分布式節(jié)點所在的機房可以緩解這個問題。 最好提供動態(tài)IP。  
 
以上介紹了控制爬行速度和提高爬行速度的方法,僅供參考! 建議在抓取數(shù)據(jù)的時候注意不要給目標(biāo)網(wǎng)站施加太大的壓力。 在爬取過程中,如果遇到IP限制問題,可以使用代理IP突破限制,提高采集速度。 使用代理IP,選擇IP模擬器代理,千萬IP池滿足爬蟲需求。
主站蜘蛛池模板: 91网站免费观看 | 欧美精品黑人猛交高潮 | 日韩在线二区 | 久久精品亚洲精品国产欧美 | 欧美在线1 | 国产成人亚洲综合 | 综合av第一页 | 国产精品久久久久久久久久久不卡 | 日韩精品不卡 | 精品视频成人 | 亚洲成人av一区 | 欧美日韩一卡二卡三卡 | 久久国产精品免费 | 精品久久网站 | 国产网站黄 | 日韩久久一区二区 | 久久人人爱 | 精品久久久国产 | 欧美精品一区二区三区在线四季 | 高潮白浆女日韩av免费看 | 国产精品区一区二区三区 | 欧美日韩一区二区三区在线视频 | 国产午夜亚洲精品理论片色戒 | 中国久久 | 看黄色片一级片 | 久久久噜噜噜久久中文字幕色伊伊 | 亚洲国产精品成人天堂 | 一区二区三区四区日韩 | 国产免费av网站 | 久久精品久久久久电影 | 天堂av中文 | 日韩精品一区二区视频 | 国产视频一区二区 | 久久久久国产一区二区三区四区 | 九九热视频在线观看 | 欧美福利网 | 日韩人成 | 国产精品av一区二区 | 国产精品高清一区二区三区 | 91偷拍一区二区三区精品 | 国产区一区二区三区 |