網路蜘蛛 - MyChat 數位男女

MyChat 數位男女

»
網路蜘蛛

手機版

地圖

簡體

您是第 6381 個閱讀者

可列印版加為IE收藏收藏主題上一主題 | 下一主題

upside

反病毒反詐騙反虐犬

級別: 版主

版區: 硬體討論, 公益互助, PDA 討論, 手機討論區, 詐騙資訊, 網路&防毒

x372

x2016

▼

[資訊教學] 網路蜘蛛

網路蜘蛛
Wikipedia，自由的百科全书
http://wiki.keyin.cn/index.php?title=%E7%BD%91...%9B%9B&variant=zh-tw

網路蜘蛛即（Web Spider），網路蜘蛛用來比喻一種在網路上進行內容搜索的軟體，這種軟體的演算法非常類似蜘蛛行為。把互聯網比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈接地址來尋找網頁，從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然後通過這些鏈接地址尋找下一個網頁，這樣一直迴圈下去，直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站，那麼網路蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
對於搜索引擎來說，要抓取互聯網上所有的網頁幾乎是不可能的，從目前公佈的數據來看，容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸，無法遍歷所有的網頁，有許多網頁無法從其它網頁的鏈接中找到；另一個原因是存儲技術和處理技術的問題，如果按照每個頁面的平均大小為20K計算（包含圖片），100億網頁的容量是100×2000G位元組，即使能夠存儲，下載也存在問題（按照一臺機器每秒下載20K計算，需要340台機器不停的下載一年時間，才能把所有網頁下載完畢）。同時，由於數據量太大，在提供搜索時也會有效率方面的影響。因此，許多搜索引擎的網路蜘蛛只是抓取那些重要的網頁，而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。
在抓取網頁的時候，網路蜘蛛一般有兩種策略：廣度優先和深度優先（如下圖所示）。廣度優先是指網路蜘蛛會先抓取起始網頁中鏈接的所有網頁，然後再選擇其中的一個鏈接網頁，繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式，因為這個方法可以讓網路蜘蛛並行處理，提高其抓取速度。深度優先是指網路蜘蛛會從起始頁開始，一個鏈接一個鏈接跟蹤下去，處理完這條線路之後再轉入下一個起始頁，繼續跟蹤鏈接。這個方法有個優點是網路蜘蛛在設計的時候比較容易。兩種策略的區別，下圖的說明會更加明確。
由於不可能抓取所有的網頁，有些網路蜘蛛對一些不太重要的網站，設置了訪問的層數。例如，在上圖中，A為起始網頁，屬於0層，B、C、D、E、F屬於第1層，G、H屬於第2層，I屬於第3層。如果網路蜘蛛設置的訪問層數為2的話，網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜索引擎上搜索到，另外一部分不能被搜索到。對於網站設計者來說，扁平化的網站結構設計有助於搜索引擎抓取其更多的網頁。
網路蜘蛛在訪問網站網頁的時候，經常會遇到加密數據和網頁許可權的問題，有些網頁是需要會員許可權才能訪問。當然，網站的所有者可以通過協議讓網路蜘蛛不去抓取（下小節會介紹），但對於一些出售報告的網站，他們希望搜索引擎能搜索到他們的報告，但又不能完全免費的讓搜索者查看，這樣就需要給網路蜘蛛提供相應的用戶名和密碼。網路蜘蛛可以通過所給的許可權對這些網頁進行網頁抓取，從而提供搜索。而當搜索者點擊查看該網頁的時候，同樣需要搜索者提供相應的許可權驗證。
[ 編輯 ]
網站與網路蜘蛛
網路蜘蛛需要抓取網頁，不同於一般的訪問，如果控制不好，則會引起網站伺服器負擔過重。今年4月，淘寶網（ [1] ）就因為雅虎搜索引擎的網路蜘蛛抓取其數據引起淘寶網伺服器的不穩定。網站是否就無法和網路蜘蛛交流呢？其實不然，有多種方法可以讓網站和網路蜘蛛進行交流。一方面讓網站管理員瞭解網路蜘蛛都來自哪兒，做了些什麼，另一方面也告訴網路蜘蛛哪些網頁不應該抓取，哪些網頁應該更新。
每個網路蜘蛛都有自己的名字，在抓取網頁的時候，都會向網站標明自己的身份。網路蜘蛛在抓取網頁的時候會發送一個請求，這個請求中就有一個欄位為User－agent，用於標識此網路蜘蛛的身份。例如Google網路蜘蛛的標識為GoogleBot，Baidu網路蜘蛛的標識為BaiDuSpider，Yahoo網路蜘蛛的標識為Inktomi Slurp。如果在網站上有訪問日誌記錄，網站管理員就能知道，哪些搜索引擎的網路蜘蛛過來過，什麼時候過來的，以及讀了多少數據等等。如果網站管理員發現某個蜘蛛有問題，就通過其標識來和其所有者聯繫。下麵是博客中國（ [2] ）2004年5月15日的搜索引擎訪問日誌：
網路蜘蛛進入一個網站，一般會訪問一個特殊的文本文件Robots.txt，這個文件一般放在網站伺服器的根目錄下，如： http://www.blogchina...ots.txt。網站管理員可以通過robots.txt來定義哪些目錄網路蜘蛛不能訪問，或者哪些目錄對於某些特定的網路蜘蛛不能訪問。例如有些網站的可執行文件目錄和臨時文件目錄不希望被搜索引擎搜索到，那麼網站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單，例如如果對目錄沒有任何限制，可以用以下兩行來描述： User-agent: * Disallow:
當然，Robots.txt只是一個協議，如果網路蜘蛛的設計者不遵循這個協議，網站管理員也無法阻止網路蜘蛛對於某些頁面的訪問，但一般的網路蜘蛛都會遵循這些協議，而且網站管理員還可以通過其它方式來拒絕網路蜘蛛對某些網頁的抓取。
網路蜘蛛在下載網頁的時候，會去識別網頁的HTML代碼，在其代碼的部分，會有META標識。通過這些標識，可以告訴網路蜘蛛本網頁是否需要被抓取，還可以告訴網路蜘蛛本網頁中的鏈接是否需要被繼續跟蹤。例如：表示本網頁不需要被抓取，但是網頁內的鏈接需要被跟蹤。
現在一般的網站都希望搜索引擎能更全面的抓取自己網站的網頁，因為這樣可以讓更多的訪問者能通過搜索引擎找到此網站。為了讓本網站的網頁更全面被抓取到，網站管理員可以建立一個網站地圖，即Site Map。許多網路蜘蛛會把sitemap.htm文件作為一個網站網頁爬取的入口，網站管理員可以把網站內部所有網頁的鏈接放在這個文件裡面，那麼網路蜘蛛可以很方便的把整個網站抓取下來，避免遺漏某些網頁，也會減小對網站伺服器的負擔。
[ 編輯 ]
內容提取
搜索引擎建立網頁索引，處理的對象是文本文件。對於網路蜘蛛來說，抓取下來網頁包括各種格式，包括html、圖片、doc、pdf、多媒體、動態網頁及其它格式等。這些文件抓取下來後，需要把這些文件中的文本信息提取出來。準確提取這些文檔的信息，一方面對搜索引擎的搜索準確性有重要作用，另一方面對於網路蜘蛛正確跟蹤其它鏈接有一定影響。
對於doc、pdf等文檔，這種由專業廠商提供的軟體生成的文檔，廠商都會提供相應的文本提取介面。網路蜘蛛只需要調用這些插件的介面，就可以輕鬆的提取文檔中的文本信息和文件其它相關的信息。
HTML等文檔不一樣，HTML有一套自己的語法，通過不同的命令標識符來表示不同的字體、顏色、位置等版式，如：、、等，提取文本信息時需要把這些標識符都過濾掉。過濾標識符並非難事，因為這些標識符都有一定的規則，只要按照不同的標識符取得相應的信息即可。但在識別這些信息的時候，需要同步記錄許多版式信息，例如文字的字體大小、是否是標題、是否是加粗顯示、是否是頁面的關鍵詞等，這些信息有助於計算單詞在網頁中的重要程度。同時，對於HTML網頁來說，除了標題和正文以外，會有許多廣告鏈接以及公共的頻道鏈接，這些鏈接和文本正文一點關係也沒有，在提取網頁內容的時候，也需要過濾這些無用的鏈接。例如某個網站有“產品介紹”頻道，因為導航條在網站內每個網頁都有，若不過濾導航條鏈接，在搜索“產品介紹”的時候，則網站內每個網頁都會搜索到，無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統計大量的網頁結構規律，抽取一些共性，統一過濾；對於一些重要而結果特殊的網站，還需要個別處理。這就需要網路蜘蛛的設計有一定的擴展性。
對於多媒體、圖片等文件，一般是通過鏈接的錨文本（即，鏈接文本）和相關的文件註釋來判斷這些文件的內容。例如有一個鏈接文字為“張曼玉照片”，其鏈接指向一張bmp格式的圖片，那麼網路蜘蛛就知道這張圖片的內容是“張曼玉的照片”。這樣，在搜索“張曼玉”和“照片”的時候都能讓搜索引擎找到這張圖片。另外，許多多媒體文件中有文件屬性，考慮這些屬性也可以更好的瞭解文件的內容。
動態網頁一直是網路蜘蛛面臨的難題。所謂動態網頁，是相對於靜態網頁而言，是由程式自動生成的頁面，這樣的好處是可以快速統一更改網頁風格，也可以減少網頁所占伺服器的空間，但同樣給網路蜘蛛的抓取帶來一些麻煩。由於開發語言不斷的增多，動態網頁的類型也越來越多，如：asp、jsp、php等。這些類型的網頁對於網路蜘蛛來說，可能還稍微容易一些。網路蜘蛛比較難於處理的是一些腳本語言（如VBScript和JavaScript）生成的網頁，如果要完善的處理好這些網頁，網路蜘蛛需要有自己的腳本解釋程式。對於許多數據是放在資料庫的網站，需要通過本網站的資料庫搜索才能獲得信息，這些給網路蜘蛛的抓取帶來很大的困難。對於這類網站，如果網站設計者希望這些數據能被搜索引擎搜索，則需要提供一種可以遍歷整個資料庫內容的方法。
對於網頁內容的提取，一直是網路蜘蛛中重要的技術。整個系統一般採用插件的形式，通過一個插件管理服務程式，遇到不同格式的網頁採用不同的插件處理。這種方式的好處在於擴充性好，以後每發現一種新的類型，就可以把其處理方式做成一個插件補充到插件管理服務程式之中。
[ 編輯 ]
更新周期
由於網站的內容經常在變化，因此網路蜘蛛也需不斷的更新其抓取網頁的內容，這就需要網路蜘蛛按照一定的周期去掃描網站，查看哪些頁面是需要更新的頁面，哪些頁面是新增頁面，哪些頁面是已經過期的死鏈接。
搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長，則總會有一部分新生成的網頁搜索不到；周期過短，技術實現會有一定難度，而且會對帶寬、伺服器的資源都有浪費。搜索引擎的網路蜘蛛並不是所有的網站都採用同一個周期進行更新，對於一些重要的更新量大的網站，更新的周期短，如有些新聞網站，幾個小時就更新一次；相反對於一些不重要的網站，更新的周期就長，可能一兩個月才更新一次。
一般來說，網路蜘蛛在更新網站內容的時候，不用把網站網頁重新抓取一遍，對於大部分的網頁，只需要判斷網頁的屬性（主要是日期），把得到的屬性和上次抓取的屬性相比較，如果一樣則不用更新。

爸爸你一路好走
x0 [樓主] From：台灣和信超媒體寬帶網 \| Posted：2006-11-08 13:52 \|

mnkjiul

級別: 初露鋒芒

x106

▲

Google 的搜尋引擎如此巨大、如此快速，一方面是仰賴硬體技術和效能，另一方面就是使用 Web spider 的技術去尋找網頁！

詳細內容可以看上面樓主所貼的文章。

Unique[D]' H!JAcK1r*GAMING
x0 [1 樓] From：未知地址 \| Posted：2006-12-11 15:52 \|



MyChat 數位男女 » 網路通訊討論

Powered by PHPWind v1.3.6 Copyright © 2003-04 PHPWind	Processed in 0.015645 second(s),query:16 Gzip disabled 本站由瀛睿律師事務所擔任常年法律顧問 \| 免責聲明 \| 本網站已依台灣網站內容分級規定處理 \| 連絡我們 \| 訪客留言