掃描關注網站建設微信公眾賬號

微信二維碼

當前位置:濟南網站優化 > 技術洞察 > SEO > 常見的搜索引擎蜘蛛抓爬網站的方法和規則

常見的搜索引擎蜘蛛抓爬網站的方法和規則

時間:2019-12-26?15:08:23?文章來源:百度蜘蛛抓取規律?文章作者:搜索引擎蜘蛛的工?

  爬行器的爬行策略一般面臨三個方面:數據量大、更新速度快、頁面動態生成快。這三種網絡特性使得爬蟲的抓取策略難以實現。我們已經強調了每日更新、定期更新和使用偽靜態頁面的重要性。百度優化再次提醒站長們在制作網站時要注意這一點。我們今天討論了爬行web頁面的爬行器,并希望更深入地為web管理員提供共享。

蜘蛛如何抓取內容

百度蜘蛛第一次爬白名單的網站或一些信任非常高的網站和頁面(例如:一些高權重網站和網站主頁,這里不包括新網站,新網站的蜘蛛有一個評估期),當爬這些頁面的內容發現一些其他頁面的鏈接。爬行器將鏈接保存在自己的數據庫中,然后按順序爬行頁面。

1. 蜘蛛抓取網頁的規則:

對于爬行器來說,web頁面的權重越高,可信度越高,爬行的頻率就越高,比如站點的主頁和內部頁面。爬行器首先抓取站點的主頁,因為主頁的權重更高,而且大多數鏈接都指向主頁。然后爬行通過網站的主頁的內部頁面,不是所有的蜘蛛都會爬行。

搜索引擎認為對于一般的中小型網站來說,三層就足夠容納所有的內容,所以爬行器經常抓取前三層的內容,而超過三層的內容爬行器認為內容不重要,所以不經常抓取。

蜘蛛抓取

2、怎么看蜘蛛抓?

通過iis日志可以看到蜘蛛爬過的內容,iis日志中有百度蜘蛛、谷歌蜘蛛等。根據對iis日志、爬行器的類型、獲取時間、獲取的頁面、獲取內容的大小和返回的頁面代碼的分析,200表示成功獲取,404表示不存在的頁面。

百度抓取的規則如何把握:

1)深度優先策略:最基本的方法是按照從低到高的順序訪問下一層的web鏈接,直到不能再往下訪問為止。爬蟲程序在完成爬行分支以進一步搜索其他鏈接之后,返回到前面的鏈接節點。當所有鏈接都被遍歷后,爬行任務就結束了。這種策略更適合垂直或站點內部的搜索,但是對于頁面內容更深層次的爬行站點可能會導致巨大的資源浪費。

2)廣度優先策略:根據頁面內容目錄的深度抓取頁面,先抓取淺目錄層次的頁面。當同一層次的頁面爬行完成后,爬蟲再深入到下一層繼續爬行。該策略可以有效地控制頁面的爬行深度,避免了遇到無限深的分支時頁面無法停止爬行的問題。實現方便,不需要存儲大量的中間節點。缺點是需要很長時間才能爬到具有深度目錄級別的頁面。

3)優先搜索:該策略根據一定的網頁分析算法,預測候選URL與目標網頁的相似度或與主題的相關性,選擇一個或多個評價最好的URL進行抓取。它只訪問被web分析算法預測為“有用”的web頁面。一個問題是爬行器爬行路徑中的許多相關頁面可能被忽略,因為最佳優先策略是局部最優搜索算法。因此,應結合最佳優先級的具體應用加以改進,從而跳出局部最佳。

【結論】在蜘蛛抓取的過程中,我們還需要了解搜索引擎是如何工作的。搜索引擎爬蟲的工作原理分為抓取、過濾、索引和排序四部分。
 

往期標題:

網站收錄、排名和權重之間的關系要理一理啊!

網站內頁不收錄,是什么原因?有什么解決辦法?

外鏈是什么?外鏈的四種形式如何運用?

 

上一篇:網站收錄排名和權重之間的關系要理一理啊!

下一篇:被惡意做成橋頁以及對網站的影響如何解決?

文章關鍵詞
搜索引擎
網站抓取
蜘蛛
百度蜘蛛
蜘蛛爬取
百宝世嘉彩票 河北11选五任选结果 什么app可以模拟 海南4+1彩票网站 舟山飞鱼开奖走势图 贵州11选5任二追号 上证指数历史走势 重庆快乐10分走势图 股票二次发行条件 云南快乐十分哪里玩 内蒙古十一选五前三直 31选7福建今天晚上 甘肃福彩快三下载 微信炒股平台 排列三500期走势图 湖北快3开奖查询结果 香港波叔一波中特