久草在线高清视频_成人午夜毛片_美女毛片儿_国产精品v片在线观看不卡_成人一区久久_国产一精品久久99无吗一高潮

數(shù)據(jù)采集:要小心爬蟲的行為檢測

爬蟲不是真實用戶,其行為模式與真實用戶不同。因此,平臺經常檢測用戶行為模式,以識別當前用戶是人類還是爬蟲機器。這個平臺是通過哪些方式測試的?我們來看看下面的小編。
 
1.訪問內容。
 
爬蟲通常不抓取css、js和其他資源文件。如果是垂直爬蟲,訪問數(shù)據(jù)的目的往往很明顯。如果某些IP訪問某些數(shù)據(jù)的頻率高于正常情況,而這些IP沒有訪問任何其他資源,那么可以斷定它是一個爬蟲。
 
2.訪問頻率。
 
頻率限制:每分鐘訪問次數(shù)超過n次的IP被屏蔽。如果3小時內有50次以上的訪問,會彈出一個驗證框。如果驗證內容輸入不正確,將被列入黑名單。
 
做一個計數(shù)器記錄一天的總次數(shù)和特定ip的每秒頻率,從而達到實時攔截的目的(這個類似淘寶的TMD使用分布式緩存進行計數(shù),超出規(guī)則,或者直接拒絕或者跳轉到輸入驗證碼的頁面)。
 
 
3.港口檢查。
 
檢查端口80與netstat的連接:
 
sh netstat-nt | grep you hostip:80 | awk ' ' | awk-F ":" " | sort | uniq-c | sort-r-n
 
在這一行中,shell可以根據(jù)80端口連接數(shù)對源IP進行排序,從而直觀地判斷網絡爬蟲。一般來說,爬蟲的并發(fā)連接非常高。封鎖爬蟲直接所在的C網段的地址。這是因為一般的爬蟲都是在托管機房運行的,一個C段可能有多個服務器上的爬蟲,但是這個C段不能是用戶的寬帶上網。阻塞C段可以在很大程度上解決問題。
 
4.js埋點。
 
對比apache或nginx日志分析與js埋點,當爬蟲請求無法模擬瀏覽器請求時,js代碼無法執(zhí)行,頁面上沒有埋點,但這個請求會留在web日志中。js有一個小問題,就是當用戶請求時,如果瀏覽器有緩存,其實并不會請求服務器,但是js確實埋了一個點,對比分析后效果會好很多。
 
5.訪問間隔的規(guī)律性。
 
爬蟲抓取網頁的頻率是相對固定的,不像人訪問網頁,兩者之間的間隔時間是比較不規(guī)律的,所以我們可以為每個IP地址設置一個時間窗口,記錄下該IP地址最近12次的訪問,每條記錄滑動一次窗口,將最近的訪問時間與當前時間進行比較。如果間隔較長,判斷不是爬蟲,則清除時間窗口;如果間隔不長,追溯計算指定時間段的訪問頻率;如果訪問頻率超過閾值,請轉到驗證碼頁面,讓用戶填寫驗證碼。
 
綜上所述,網絡爬蟲畢竟不是人,會留下痕跡。因此,為了獲取信息,爬蟲需要先偽裝數(shù)據(jù)的各個方面。對于無法偽裝的數(shù)據(jù)——IP地址,可以使用IP模擬器進行IP地址的切換,使數(shù)據(jù)能夠順利采集。
 
主站蜘蛛池模板: 成人免费观看视频 | 久久九九免费视频 | 日韩最新在线 | 精品色综合 | 亚洲毛片网 | 麻豆视频免费在线播放 | www.国产精品.com| www一区二区三区 | www.日韩av.com| 久久99久久精品 | 亚洲国产精品99久久久久久久久 | 国产精品欧美一区二区三区不卡 | 精品国产乱码久久久久久闺蜜 | 992tv国产精品成人影院 | 国产区在线 | 国产三级在线播放 | 日本不卡中文字幕 | 国产精品久久一区 | 免费视频三区 | 欧美日韩在线一区 | 波多野结衣av中文字幕 | 欧美在线一区二区三区 | 欧美亚洲高清 | 国偷自产视频一区二区久 | 久久久精品999 | 成人一区二区三区免费视频 | 国产一二三区在线 | 国产一级特黄aaa | 在线 日本 制服 中文 欧美 | 亚洲天堂影院 | av片在线看 | 成人91在线 | 中文字幕在线免费观看视频 | 久久亚洲成人 | 国产骚片 | 亚洲免费a | 久久久久久久久久久久久久久久久久久久 | 欧美做受| 粉嫩蜜桃麻豆免费大片 | 久久久天堂国产精品女人 | 国产成人av一区二区三区在线观看 |