抓取和收錄
當(dāng)你看到出現(xiàn)在Google的搜索結(jié)果的那個網(wǎng)頁之前,Google在后臺已經(jīng)做了許多步驟。Google的第一步是抓取和收錄互聯(lián)網(wǎng)上的數(shù)十億的網(wǎng)頁,這個工作時由Google的機(jī)器人Googlebot來完成的,它瀏覽網(wǎng)絡(luò)服務(wù)器抓取文件。 抓取的程序并不是漫無目的地在互聯(lián)網(wǎng)上瞎逛,它訪問服務(wù)器的特定的網(wǎng)頁,然后掃描網(wǎng)頁上的超文本鏈接,如果有新的文件也是這樣抓取得;蜘蛛程序給每個得到的網(wǎng)頁一個號碼,這個號碼指向它抓取的網(wǎng)頁。
蜘蛛程序抓取了很多的網(wǎng)頁,但這些網(wǎng)頁還不是便于搜索的。如果沒有一個索引,你要查詢一個詞,比如“國內(nèi)戰(zhàn)爭”,Google的服務(wù)器每次都要讀取每一個文件的所有內(nèi)容。
因此,第二步就是建立索引。我們不是去掃描每一個文件的所有內(nèi)容,我們巧妙地進(jìn)行數(shù)據(jù)的“轉(zhuǎn)換”,列出每一個文件所包含的特定的詞,例如,“國內(nèi)”這個詞可能出現(xiàn)在文件3,8,22,56,68和92當(dāng)中,而“戰(zhàn)爭”這個詞出現(xiàn)在文件2,8,15,22,68和77中。
建立好索引之后,我們就可以開始對網(wǎng)頁進(jìn)行評級,決定網(wǎng)頁的相關(guān)程度。假設(shè)有人在Google的搜索欄輸入“國內(nèi)戰(zhàn)爭”進(jìn)行查詢,為了提交搜索結(jié)果和對結(jié)果進(jìn)行評分,我們要做兩件事:
1. 找到包含用戶查詢的詞的網(wǎng)頁
2. 給符合的網(wǎng)頁按照相關(guān)程度進(jìn)行評級
Google開發(fā)出一個有趣的技巧來加速第一步:Google不是把整個索引存儲在一臺功能強大的計算機(jī)上,而是用千百個計算機(jī)來存儲這些信息。因為任務(wù)被分解到許多的計算機(jī),可以更快地找到所需的答案。 詳細(xì)解釋一下,假設(shè)一本書的目錄有30頁,如果一個人要在目錄中查尋資料,每次查詢都要花幾秒鐘;如果用30個人每人查詢一頁目錄,顯然要比一個人查詢的速度快很多。同樣的,Google將數(shù)據(jù)分別存儲在許多計算機(jī)上,這樣搜索的速度會大大加快。
我們是如何找到那些包含用戶搜索的詞的網(wǎng)頁呢?回到“國內(nèi)戰(zhàn)爭”的例子,“國內(nèi)”這個詞出現(xiàn)在文件3,8, 22, 56, 68 和92; “戰(zhàn)爭”出現(xiàn)在文件2, 8, 15, 22, 68和77,記下同時出現(xiàn)這兩個詞的文件。
國內(nèi) 3 8 22 56 68 92
戰(zhàn)爭 2 8 15 22 68 77
國內(nèi) 戰(zhàn)爭 8 22 68
Copyright@ 2011-2016 版權(quán)所有:大連千億科技有限公司 遼ICP備11013762-3號 google網(wǎng)站地圖 百度網(wǎng)站地圖 網(wǎng)站地圖
公司地址:大連市沙河口區(qū)中山路692號辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752
法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利! 隱私權(quán)政策聲明