搜(sou)索引擎工(gong)作原理

作者：Admin 發布時間：2012年12月19日文字大小：[小中大]

搜索引擎工作原理

一、
搜(sou)索(suo)引擎工作過程非常復雜，接(jie)下來的(de)幾節我們簡單介(jie)紹搜(sou)索(suo)引擎是(shi)怎么樣(yang)實現網頁排名的(de)。這里(li)的(de)內容相對(dui)于真正的(de)搜(sou)索(suo)引擎技術來說只(zhi)是(shi)皮毛，不過對(dui)seo人(ren)員(yuan)已經足夠用了。

搜(sou)索引擎的工作過程大體(ti)上可以分成三(san)個階段。

（1）爬行和抓取：搜索引(yin)擎(qing)蜘蛛通過跟蹤鏈(lian)接訪問(wen)網頁，獲得頁面HTML代碼存(cun)入(ru)數據庫。

（2）預處理(li)：索引程序對抓取來的頁面數據(ju)進行文(wen)字提取、中(zhong)文(wen)分詞、索引等處理(li)，以備排(pai)名程序調用。

（3）排名(ming)：用戶輸(shu)入關鍵詞后(hou)，排名(ming)程序調用索引(yin)庫數據，計算(suan)相關性，然后(hou)按一定的格式生成搜索結果頁(ye)面(mian)。

二、
爬行和抓取

爬行和抓取是搜索引擎工作的(de)第一步，完(wan)成數據收集的(de)任務。

1、 蜘(zhi)蛛

引擎用(yong)來(lai)爬行和訪問頁(ye)面的程序被(bei)稱(cheng)為(wei)蜘蛛（spider）,也(ye)稱(cheng)為機器人（bot）.搜索引擎蜘蛛訪問(wen)(wen)網站頁面(mian)時(shi)類似于普(pu)通(tong)用戶使用的瀏覽(lan)器。蜘蛛程序(xu)發(fa)出頁面(mian)訪問(wen)(wen)請(qing)求后，服(fu)務器返回html代(dai)碼，蜘(zhi)蛛(zhu)程序把收到(dao)的代(dai)碼存入原(yuan)始頁(ye)面數據庫。搜索引擎為了提(ti)高爬(pa)(pa)行和抓取速(su)度，都使用(yong)多個(ge)蜘(zhi)蛛(zhu)并發分(fen)布爬(pa)(pa)行。

蜘蛛訪問任何一個網站(zhan)時(shi)，都會(hui)先訪問網站(zhan)根目錄下的robots.txt文件。如果robots文(wen)件禁止(zhi)搜索引(yin)擎抓取(qu)某些(xie)文(wen)件或目(mu)錄，蜘蛛將遵守協(xie)議，不抓取(qu)被禁止(zhi)的網址。

和瀏覽器一樣(yang)，搜(sou)索引(yin)擎(qing)蜘蛛也(ye)有(you)標明自己身份代理名(ming)稱，站長(chang)可以在(zai)日(ri)志(zhi)文件中看(kan)到搜(sou)索引(yin)擎(qing)的特(te)定名(ming)稱，從而辨識引(yin)擎(qing)蜘蛛。下(xia)面列出常(chang)見的搜(sou)索引(yin)擎(qing)蜘蛛名(ming)稱：

Baiduspider+(+//www.baidu.com/search/spider.htm)
百度蜘(zhi)蛛

Mozilla/5.0(compatible;yahoo!
Slurp China; 等(deng)等(deng)。我就不往(wang)下寫了，自己可以去查一下！

2、 跟蹤鏈接

取網(wang)上(shang)盡量多的(de)頁(ye)面(mian)，搜索引擎蜘(zhi)蛛(zhu)會跟蹤頁(ye)面(mian)上(shang)的(de)鏈接，從一個(ge)頁(ye)面(mian)爬到下一個(ge)頁(ye)面(mian)，就(jiu)好像蜘(zhi)蛛(zhu)在蜘(zhi)蛛(zhu)網(wang)上(shang)爬行那樣，這也就(jiu)是搜索引擎蜘(zhi)蛛(zhu)這個(ge)名稱的(de)由(you)來(lai)。

從(cong)理論上說只要給蜘蛛足夠(gou)的(de)時間，都能爬(pa)(pa)完(wan)整個互聯網。在實際(ji)工作中，蜘蛛的(de)帶寬資源、時間都不是(shi)無限的(de)，也不可能爬(pa)(pa)完(wan)所有頁(ye)面(mian)。

3、 吸引(yin)蜘(zhi)蛛

由些可見，雖然理(li)論上蜘蛛(zhu)能(neng)爬(pa)行和抓取所有頁面，但實(shi)際上不能(neng)、也不會這么做。Seo人員要(yao)(yao)想(xiang)(xiang)讓自己的更多頁(ye)面(mian)被(bei)(bei)收錄(lu)，就要(yao)(yao)想(xiang)(xiang)方設法(fa)吸引蜘蛛(zhu)來抓取。能抓取所(suo)有(you)(you)頁(ye)面(mian)，蜘蛛(zhu)所(suo)要(yao)(yao)做的就是(shi)盡量(liang)抓取重要(yao)(yao)頁(ye)面(mian)。哪些頁(ye)面(mian)被(bei)(bei)認(ren)為比(bi)較要(yao)(yao)呢？有(you)(you)幾(ji)個方面(mian)影響(xiang)因(yin)素。

1）網站和頁(ye)面權重。質量(liang)高、資格老的(de)網站被(bei)認為權重比較高，這(zhe)種(zhong)止的(de)頁(ye)面被(bei)爬行(xing)的(de)深度(du)也會(hui)(hui)比較高，所以會(hui)(hui)有(you)更(geng)多內頁(ye)被(bei)收錄。

2）頁面(mian)(mian)更(geng)新度。蜘(zhi)蛛每次爬行(xing)都會把頁面(mian)(mian)數據存儲起(qi)來。如(ru)(ru)果第二次爬行(xing)發(fa)現頁面(mian)(mian)與第一(yi)收錄的(de)完全一(yi)樣，說明頁面(mian)(mian)沒有更(geng)新，蜘(zhi)蛛也(ye)就沒有必(bi)要經常(chang)抓取。如(ru)(ru)果頁面(mian)(mian)內(nei)容經常(chang)更(geng)新，蜘(zhi)蛛就會更(geng)加(jia)頻(pin)繁地訪問這(zhe)種頁面(mian)(mian)，頁面(mian)(mian)上出現的(de)新鏈接也(ye)自然會被蜘(zhi)蛛更(geng)快(kuai)的(de)跟蹤(zong)，抓取新頁面(mian)(mian)。

3）導(dao)(dao)(dao)入(ru)(ru)鏈接(jie)(jie)。無論是(shi)外(wai)部鏈接(jie)(jie)還是(shi)同一(yi)個網(wang)站的(de)(de)內部鏈接(jie)(jie)，要被蜘(zhi)(zhi)蛛抓取，就必(bi)須有導(dao)(dao)(dao)入(ru)(ru)鏈接(jie)(jie)進(jin)入(ru)(ru)頁(ye)(ye)面，否則蜘(zhi)(zhi)蛛根本沒有機會知道(dao)頁(ye)(ye)面的(de)(de)存在(zai)。高質量的(de)(de)導(dao)(dao)(dao)入(ru)(ru)鏈接(jie)(jie)也經(jing)常使頁(ye)(ye)面上的(de)(de)導(dao)(dao)(dao)出鏈接(jie)(jie)被看待深度增加。

4）與首頁(ye)(ye)點擊(ji)(ji)距(ju)離(li)。一般(ban)來說(shuo)網站上權重(zhong)最(zui)高(gao)的是(shi)首頁(ye)(ye)，大部分外部鏈接是(shi)指向首頁(ye)(ye)的，蜘(zhi)蛛訪問最(zui)頻繁的也是(shi)首頁(ye)(ye)。離(li)首頁(ye)(ye)點擊(ji)(ji)距(ju)離(li)越近(jin)，頁(ye)(ye)面權重(zhong)越高(gao)，被蜘(zhi)蛛爬行的機會也越大。

4、 爬行時的(de)復制(zhi)內容檢測

刪除復(fu)(fu)制內(nei)容通常是在(zai)下面(mian)的(de)(de)預處理過程(cheng)中進行(xing)的(de)(de)，但現在(zai)的(de)(de)蜘蛛在(zai)爬(pa)行(xing)和抓取文件(jian)時也會(hui)進行(xing)一(yi)定(ding)程(cheng)度(du)的(de)(de)復(fu)(fu)制內(nei)容檢(jian)測(ce)。遇到(dao)權重(zhong)很低的(de)(de)網站上大(da)量轉載或抄襲內(nei)容時，很可能不(bu)再繼(ji)續爬(pa)行(xing)。這也就是有(you)(you)的(de)(de)站長(chang)在(zai)日志文件(jian)中發現了(le)蜘蛛，但頁面(mian)從來沒有(you)(you)被(bei)真正收錄過的(de)(de)原因。

預處(chu)理(li)

在一些(xie)seo材料中，“預處(chu)理”也被簡(jian)稱為“索(suo)引(yin)”，因為索(suo)引(yin)是預處(chu)理最主(zhu)要的(de)步驟。

搜(sou)索引擎蜘蛛抓(zhua)取(qu)的原(yuan)始頁(ye)(ye)(ye)面，并不(bu)能(neng)直接用于查(cha)(cha)詢(xun)排名(ming)(ming)處理。搜(sou)索引擎數據庫中的頁(ye)(ye)(ye)面數都在(zai)數萬億級別以上(shang)，用戶(hu)輸入(ru)搜(sou)索詞后，靠(kao)排名(ming)(ming)程(cheng)序(xu)實時對這么多頁(ye)(ye)(ye)面分(fen)析相關性，計算(suan)量太大，不(bu)可能(neng)在(zai)一兩秒內返回排名(ming)(ming)結果。因此(ci)抓(zhua)取(qu)來的頁(ye)(ye)(ye)面必(bi)須經過預處理，為最后的查(cha)(cha)詢(xun)排名(ming)(ming)做好(hao)準備。

和看爬(pa)行(xing)抓取(qu)一樣，預(yu)處理也是在后臺提前完成的(de)，用(yong)戶(hu)搜(sou)索時感覺不到(dao)這個過程。

1、 提取文字

現在的搜索引(yin)擎還是(shi)以文字內容(rong)為基礎(chu)。蜘蛛獲取到(dao)的頁面中的html代碼(ma)，除了用戶在瀏(liu)覽器上可(ke)以看到的可(ke)見文字外，還包含了大(da)量的html格(ge)式標簽(qian)、javascript程序等無法用于(yu)排名的內容。搜索(suo)引擎預處理首先要做的就是(shi)從(cong)html文件中去除(chu)標簽、程序，提取出可以用于排名(ming)處理(li)的網(wang)頁(ye)文字內容。

比如這(zhe)(zhe)下面這(zhe)(zhe)段html代碼：

</div>

</div>

除去html代碼后(hou)，剩下的就用(yong)于(yu)排名的文字只是這一行：

今天是什么節日？

除了可見文字，搜索引(yin)擎(qing)也會提取出一些特(te)殊的(de)包含文字信息的(de)代(dai)碼，如Meta 標簽中的文字、圖片替代文字、flash文件的替(ti)代文字(zi)、鏈接錨文字(zi)等。

2、 中文分(fen)詞(ci)

   中文(wen)搜索(suo)(suo)引擎(qing)特有(you)的(de)步(bu)驟。搜索(suo)(suo)引擎(qing)存儲和處(chu)理(li)頁面及(ji)用戶(hu)都是(shi)(shi)以詞(ci)為基礎(chu)的(de)。英文(wen)等語言單詞(ci)與單詞(ci)之(zhi)間有(you)空格分(fen)隔(ge)，搜索(suo)(suo)引擎(qing)索(suo)(suo)引程(cheng)序可以直(zhi)接(jie)把句子劃分(fen)為單詞(ci)的(de)集合。而中文(wen)詞(ci)之(zhi)間沒有(you)任何分(fen)隔(ge)符，一個句子中的(de)所有(you)字(zi)和詞(ci)都是(shi)(shi)連在(zai)一起的(de)搜索(suo)(suo)引擎(qing)必須首先分(fen)辨哪(na)(na)幾個字(zi)組(zu)成一個詞(ci)，哪(na)(na)些字(zi)本身就是(shi)(shi)一個詞(ci)。比如“減肥方法”將被(bei)分(fen)詞(ci)為“減肥”和“方法“兩(liang)個詞(ci)。

    方法基本上有兩種(zhong)，一種(zhong)是(shi)基于(yu)詞典匹配，另一種(zhong)是(shi)基于(yu)統計(ji)。

    匹配(pei)(pei)的方法是指，將待分析的一段漢字與一個(ge)(ge)事先造好的詞(ci)典(dian)中(zhong)的詞(ci)條(tiao)進行(xing)匹配(pei)(pei)，在待分析漢字串中(zhong)掃描到(dao)詞(ci)典(dian)中(zhong)己有(you)的詞(ci)條(tiao)則匹配(pei)(pei)成功，或者(zhe)說切分出(chu)一個(ge)(ge)單(dan)詞(ci)。

按(an)照掃描(miao)(miao)方向(xiang)，基于詞典的(de)匹(pi)(pi)(pi)配(pei)(pei)法可以(yi)分(fen)為正向(xiang)匹(pi)(pi)(pi)配(pei)(pei)和逆(ni)向(xiang)匹(pi)(pi)(pi)配(pei)(pei)。按(an)照匹(pi)(pi)(pi)配(pei)(pei)長度(du)優先級的(de)不同，又可以(yi)分(fen)為最(zui)大匹(pi)(pi)(pi)配(pei)(pei)和最(zui)小匹(pi)(pi)(pi)配(pei)(pei)。將掃描(miao)(miao)方向(xiang)和長度(du)優先混合，難能可貴以(yi)產生正向(xiang)最(zui)大匹(pi)(pi)(pi)配(pei)(pei)、逆(ni)向(xiang)最(zui)大匹(pi)(pi)(pi)配(pei)(pei)等不同方法。

詞典(dian)匹(pi)配方(fang)法(fa)計算簡單(dan)，準確度在很大程序上取(qu)決于(yu)詞典(dian)的(de)完(wan)整性和更(geng)新情況。幾個(ge)字相(xiang)鄰出現越(yue)(yue)多，就越(yue)(yue)可能(neng)形成一(yi)個(ge)單(dan)詞。基于(yu)統計的(de)方(fang)法(fa)的(de)優勢是(shi)對新出現的(de)詞反應更(geng)快速(su)，也有(you)利于(yu)消(xiao)除歧義。

基于(yu)詞(ci)典匹配(pei)和基于(yu)統計的分詞(ci)方(fang)法(fa)(fa)各有優劣(lie)，實際使用(yong)中的分詞(ci)系(xi)統都(dou)是混合使用(yong)兩種(zhong)方(fang)法(fa)(fa)的，快速高效(xiao)，又能識別生(sheng)詞(ci)、新詞(ci)，消除歧義。

索引擎(qing)對(dui)頁(ye)面的分(fen)詞取(qu)決于詞庫的規模、準確性和分(fen)詞算法的好壞，而不是(shi)取(qu)決于頁(ye)面本(ben)身如何，所以seo人員對分詞所能做(zuo)的很少。唯一能做(zuo)的就是在頁面上用某種(zhong)形式提示搜索引擎，某幾個字應該被當(dang)做(zuo)一個詞處理，尤其是可能產生歧義的時候，比如在頁面標題、h1標(biao)簽及黑(hei)體(ti)(ti)中出現關鍵詞(ci)。如(ru)果(guo)頁(ye)(ye)面是關于“和(he)服“的(de)(de)內容(rong)，那(nei)么可以把(ba)“和(he)服”這兩個字(zi)特(te)意標(biao)為(wei)黑(hei)體(ti)(ti)。如(ru)果(guo)頁(ye)(ye)面是關于“化妝和(he)服裝”，可以把(ba)“服裝”兩個字(zi)標(biao)為(wei)黑(hei)體(ti)(ti)。這樣，搜索(suo)引(yin)擎對頁(ye)(ye)面進行分析時就(jiu)知道標(biao)為(wei)團體(ti)(ti)的(de)(de)應(ying)該是一個詞(ci)。

3、 去停止詞

是英(ying)文還是中文，頁(ye)面內容中都(dou)會有一(yi)些出現頻率很高，卻對(dui)(dui)內容沒有任何(he)影(ying)響的(de)詞，如“的(de)”、“地(di)”、“得”之(zhi)類(lei)的(de)肋條詞，“啊”、“哈”、“呀”之(zhi)類(lei)的(de)感嘆詞，“從而(er)”、“以”、“卻”之(zhi)類(lei)的(de)副詞或(huo)介(jie)詞。這些詞被稱為(wei)停止詞，因(yin)為(wei)它們對(dui)(dui)頁(ye)面的(de)主(zhu)要意(yi)思沒什么影(ying)響。英(ying)文中的(de)常見停止有 the,a,an,to,of等。

索(suo)引(yin)擎在索(suo)引(yin)頁面(mian)之前會(hui)去掉這些(xie)停止(zhi)詞(ci)，使(shi)索(suo)引(yin)數據主題更為突出，減少無(wu)謂的計(ji)算量。

4、 消(xiao)除(chu)噪聲

分(fen)頁面(mian)上還一部分(fen)內(nei)容(rong)對頁面(mian)主(zhu)題(ti)也沒(mei)有什(shen)么(me)貢獻，比如版權(quan)聲明文(wen)字、導(dao)航條、廣告等。以(yi)(yi)常見的干博(bo)(bo)客導(dao)航為(wei)例，幾(ji)乎每個(ge)博(bo)(bo)客頁面(mian)上都(dou)會出(chu)現(xian)文(wen)章(zhang)分(fen)類(lei)、歷(li)史存檔等導(dao)航內(nei)容(rong)，但是這(zhe)些(xie)頁面(mian)本身與“分(fen)類(lei)”、“歷(li)史”這(zhe)些(xie)詞都(dou)沒(mei)有任何關系。用戶搜索“歷(li)史”、“分(fen)類(lei)”這(zhe)些(xie)關鍵詞時公(gong)公(gong)因(yin)為(wei)頁面(mian)上有這(zhe)些(xie)詞出(chu)現(xian)而(er)返回博(bo)(bo)客帖子是毫無意義的，完全不相關。所以(yi)(yi)這(zhe)些(xie)區塊都(dou)屬于噪聲，對頁面(mian)主(zhu)題(ti)只能起到分(fen)散作用。

擎需要識(shi)別并消除(chu)這些噪(zao)(zao)聲(sheng)，排名時不使用噪(zao)(zao)聲(sheng)內容。消噪(zao)(zao)的基本方法(fa)是(shi)根據html標(biao)簽對頁(ye)面分(fen)塊，區分(fen)出頁(ye)頭、導(dao)航、正文、頁(ye)腳、廣告等區域，在網站上大量重復出現的(de)區塊往往屬于(yu)噪(zao)聲。對頁(ye)面進行(xing)消(xiao)噪(zao)后，剩下的(de)才是頁(ye)面主(zhu)體內容。

5、去重

引擎還需要對(dui)頁面進(jin)行(xing)去重處理。

文(wen)章經常會重(zhong)復(fu)出現在(zai)不(bu)同網站及同一(yi)個(ge)網站的(de)(de)不(bu)同網址上，搜(sou)索(suo)引(yin)擎并不(bu)喜歡這(zhe)種重(zhong)復(fu)性的(de)(de)內(nei)容。用戶(hu)搜(sou)索(suo)時，如果在(zai)前兩頁看到的(de)(de)都是(shi)來自不(bu)同網站的(de)(de)同一(yi)篇文(wen)章，用戶(hu)體驗就太差了，雖然(ran)都是(shi)內(nei)容相(xiang)關的(de)(de)。搜(sou)索(suo)引(yin)擎希望只返(fan)回相(xiang)同文(wen)章中的(de)(de)一(yi)篇，所以(yi)在(zai)進行索(suo)引(yin)前還需(xu)要識別(bie)和刪除重(zhong)復(fu)內(nei)容，這(zhe)個(ge)過程就稱(cheng)為“去重(zhong)”。

去重的(de)(de)基本方法是對頁面特征關(guan)鍵詞計算指紋，也就是說從頁面主(zhu)體內容中選取最有借到性的(de)(de)一部分(fen)關(guan)鍵詞（經(jing)常是出現
頻率最(zui)高的(de)(de)關鍵(jian)詞），然后(hou)計算這些關鍵(jian)詞的(de)(de)數字指紋。這里的(de)(de)關鍵(jian)詞選(xuan)取是在分詞、去停止詞、消(xiao)噪之(zhi)后(hou)。實驗表(biao)明，通常選(xuan)取10個特征關鍵詞(ci)就(jiu)可以達到比較高(gao)的計(ji)算準確(que)性，再選取(qu)多詞(ci)對去重準確(que)性提高(gao)的貢獻也(ye)就(jiu)不(bu)大了。

6、 正向索引(yin)

正(zheng)向索引也可(ke)以(yi)簡稱為索引。

提取(qu)、分(fen)(fen)詞、消噪、去重后(hou)，搜索(suo)引擎得到(dao)的(de)就(jiu)是獨特(te)的(de)、能反(fan)映(ying)頁(ye)面(mian)主(zhu)體(ti)內容的(de)、以詞為(wei)單位的(de)內容。接下來搜索(suo)引擎索(suo)引程序就(jiu)可以提取(qu)關鍵詞，按照分(fen)(fen)詞程序劃(hua)分(fen)(fen)好的(de)詞，把頁(ye)面(mian)轉換為(wei)一個(ge)關鍵詞組成的(de)集(ji)合，同時記(ji)錄每一個(ge)關鍵詞在頁(ye)面(mian)上的(de)出(chu)現頻率(lv)、出(chu)現次數、格式（如(ru)出(chu)現在標題標簽、黑(hei)體(ti)、H標簽、錨文字等(deng)(deng)(deng)）、位(wei)置(zhi)（如頁(ye)面第一段文字等(deng)(deng)(deng)）。這樣，每一個(ge)頁(ye)面都可以記(ji)錄為一串(chuan)關鍵(jian)詞(ci)集合，其中每個(ge)關鍵(jian)詞(ci)的詞(ci)頻、格式(shi)、位(wei)置(zhi)等(deng)(deng)(deng)權重信息(xi)也都記(ji)錄在(zai)案。

搜索(suo)引擎索(suo)引程(cheng)序將頁面及(ji)關鍵詞形成表結構(gou)存儲進索(suo)引庫(ku)。簡(jian)化的索(suo)引詞表形式如表1

每(mei)個文(wen)件(jian)都對(dui)應一個文(wen)件(jian)ID,文件內容(rong)被表示為(wei)一串關鍵(jian)詞的集(ji)合。實際上在搜索引擎索引庫(ku)中，關鍵(jian)詞也已經轉換(huan)為(wei)關鍵(jian)詞ID。這樣的數(shu)據結構就稱為正向索引。

7、 倒排索引

正向索引還不能直接用(yong)于(yu)排名。假設(she)用(yong)戶搜索關鍵詞2，如果(guo)只存在正向索引(yin)，排名程序需要掃(sao)描所有(you)索引(yin)為(wei)中的文件(jian)，找(zhao)出包含關鍵(jian)詞2的文件，再(zai)進行相關性計(ji)算。這樣(yang)的計(ji)算量無法滿足實時返回排名結果(guo)的要求。

所(suo)以搜索引擎會將正向索引數據(ju)庫重新(xin)構造為倒排索引，把文(wen)件對應到(dao)關(guan)鍵(jian)詞的映(ying)射(she)轉換為關(guan)鍵(jian)詞到(dao)文(wen)件的映(ying)射(she)，如表

8、 鏈(lian)接關系計算

鏈接關系(xi)計算(suan)也是預(yu)處理中很重要的一部(bu)分。現在所有(you)的主流(liu)(liu)搜索(suo)引(yin)擎排名因素中都包含網(wang)頁之(zhi)間的鏈接流(liu)(liu)動信息。搜索(suo)引(yin)擎在抓取頁面內容后，必須事前計算(suan)出：頁面上有(you)哪些鏈接指向哪些其(qi)它頁面，每個頁面有(you)哪些導入鏈接，鏈接使用了什么錨文字，這些復雜的鏈接指向關系(xi)形(xing)成了網(wang)站和頁面的鏈接權重。

Google pr值就(jiu)是這種鏈接關系的最主(zhu)要(yao)體現之(zhi)一。其化(hua)搜索(suo)引擎(qing)也都進行類似(si)計算，雖(sui)然它(ta)們并不(bu)稱為(wei)pr。

由于(yu)頁面和(he)鏈接(jie)數量巨大，網上的鏈接(jie)關系(xi)又時(shi)時(shi)處在更新(xin)中(zhong)，因此鏈接(jie)關系(xi)及Pr的計算要耗費很長時間。關于pr和鏈接分析，后面還有專門的(de)章節介紹(shao)。

9、 特殊文件(jian)處理

除了html文(wen)(wen)件(jian)外，搜索引(yin)擎通常還(huan)能(neng)抓取(qu)各(ge)索引(yin)以文(wen)(wen)字為基礎的(de)多種(zhong)文(wen)(wen)件(jian)類型，如Pdf/word/wps/xls/ppt/txt文(wen)件(jian)等。我(wo)們在搜索(suo)結果中(zhong)也(ye)經常會(hui)看到這(zhe)些文(wen)件(jian)類型。但目前的(de)搜索(suo)引擎還(huan)不(bu)能(neng)處理圖(tu)片、視頻、flash這(zhe)類非文字內容，也(ye)不能執行(xing)腳本和程序。

雖(sui)然(ran)搜(sou)索引(yin)擎在識別(bie)圖片及從flash中提取文字內容方面有些進步，不(bu)過距(ju)離直接靠讀取圖片、視頻、flash內容返(fan)回(hui)結果(guo)的(de)目標還很遠。對圖(tu)片、視頻(pin)內容的(de)排名還往(wang)往(wang)是依(yi)據與之(zhi)相關的(de)文字(zi)內容，后面(mian)還會講到整合搜索部(bu)分。

上一篇：利用seo提高網站權重的技巧下一篇：網絡營銷策劃基本原則

免费看欧美成人A片无码,亚洲一区二区三区,欧美s码亚洲码精品m码,精品少妇人妻AV免费久久洗澡,欧美精品18videosex性欧美

搜(sou)索引擎工(gong)作原理