搜索引擎工作原理
一、
搜(sou)索(suo)引擎工作過程非常復雜,接(jie)下來的(de)幾節我們簡單介(jie)紹搜(sou)索(suo)引擎是(shi)怎么樣(yang)實現網頁排名的(de)。這里(li)的(de)內容相對(dui)于真正的(de)搜(sou)索(suo)引擎技術來說只(zhi)是(shi)皮毛,不過對(dui)seo人(ren)員(yuan)已經足夠用了。
搜(sou)索引擎的工作過程大體(ti)上可以分成三(san)個階段。
(1) 爬行和抓取:搜索引(yin)擎(qing)蜘蛛通過跟蹤鏈(lian)接訪問(wen)網頁,獲得頁面HTML代碼存(cun)入(ru)數據庫。
(2) 預處理(li):索引程序對抓取來的頁面數據(ju)進行文(wen)字提取、中(zhong)文(wen)分詞、索引等處理(li),以備排(pai)名程序調用。
(3) 排名(ming):用戶輸(shu)入關鍵詞后(hou),排名(ming)程序調用索引(yin)庫數據,計算(suan)相關性,然后(hou)按一定的格式生成搜索結果頁(ye)面(mian)。
二、
爬行和抓取
爬行和抓取是搜索引擎工作的(de)第一步,完(wan)成數據收集的(de)任務。
1、 蜘(zhi)蛛
引擎用(yong)來(lai)爬行和訪問頁(ye)面的程序被(bei)稱(cheng)為(wei)蜘蛛(spider),也(ye)稱(cheng)為機器人(bot).搜索引擎蜘蛛訪問(wen)(wen)網站頁面(mian)時(shi)類似于普(pu)通(tong)用戶使用的瀏覽(lan)器。蜘蛛程序(xu)發(fa)出頁面(mian)訪問(wen)(wen)請(qing)求后,服(fu)務器返回html代(dai)碼,蜘(zhi)蛛(zhu)程序把收到(dao)的代(dai)碼存入原(yuan)始頁(ye)面數據庫。搜索引擎為了提(ti)高爬(pa)(pa)行和抓取速(su)度,都使用(yong)多個(ge)蜘(zhi)蛛(zhu)并發分(fen)布爬(pa)(pa)行。
蜘蛛訪問任何一個網站(zhan)時(shi),都會(hui)先訪問網站(zhan)根目錄下的robots.txt文件。如果robots文(wen)件禁止(zhi)搜索引(yin)擎抓取(qu)某些(xie)文(wen)件或目(mu)錄,蜘蛛將遵守協(xie)議,不抓取(qu)被禁止(zhi)的網址。
和瀏覽器一樣(yang),搜(sou)索引(yin)擎(qing)蜘蛛也(ye)有(you)標明自己身份代理名(ming)稱,站長(chang)可以在(zai)日(ri)志(zhi)文件中看(kan)到搜(sou)索引(yin)擎(qing)的特(te)定名(ming)稱,從而辨識引(yin)擎(qing)蜘蛛。下(xia)面列出常(chang)見的搜(sou)索引(yin)擎(qing)蜘蛛名(ming)稱:
Baiduspider+(+//www.baidu.com/search/spider.htm)
百度蜘(zhi)蛛
Mozilla/5.0(compatible;yahoo!
Slurp China; 等(deng)等(deng)。我就不往(wang)下寫了,自己可以去查一下!
2、 跟蹤鏈接
取網(wang)上(shang)盡量多的(de)頁(ye)面(mian),搜索引擎蜘(zhi)蛛(zhu)會跟蹤頁(ye)面(mian)上(shang)的(de)鏈接,從一個(ge)頁(ye)面(mian)爬到下一個(ge)頁(ye)面(mian),就(jiu)好像蜘(zhi)蛛(zhu)在蜘(zhi)蛛(zhu)網(wang)上(shang)爬行那樣,這也就(jiu)是搜索引擎蜘(zhi)蛛(zhu)這個(ge)名稱的(de)由(you)來(lai)。
從(cong)理論上說只要給蜘蛛足夠(gou)的(de)時間,都能爬(pa)(pa)完(wan)整個互聯網。在實際(ji)工作中,蜘蛛的(de)帶寬資源、時間都不是(shi)無限的(de),也不可能爬(pa)(pa)完(wan)所有頁(ye)面(mian)。
3、 吸引(yin)蜘(zhi)蛛
由些可見,雖然理(li)論上蜘蛛(zhu)能(neng)爬(pa)行和抓取所有頁面,但實(shi)際上不能(neng)、也不會這么做。Seo人員要(yao)(yao)想(xiang)(xiang)讓自己的更多頁(ye)面(mian)被(bei)(bei)收錄(lu),就要(yao)(yao)想(xiang)(xiang)方設法(fa)吸引蜘蛛(zhu)來抓取。能抓取所(suo)有(you)(you)頁(ye)面(mian),蜘蛛(zhu)所(suo)要(yao)(yao)做的就是(shi)盡量(liang)抓取重要(yao)(yao)頁(ye)面(mian)。哪些頁(ye)面(mian)被(bei)(bei)認(ren)為比(bi)較要(yao)(yao)呢?有(you)(you)幾(ji)個方面(mian)影響(xiang)因(yin)素。
1) 網站和頁(ye)面權重。質量(liang)高、資格老的(de)網站被(bei)認為權重比較高,這(zhe)種(zhong)止的(de)頁(ye)面被(bei)爬行(xing)的(de)深度(du)也會(hui)(hui)比較高,所以會(hui)(hui)有(you)更(geng)多內頁(ye)被(bei)收錄。
2) 頁面(mian)(mian)更(geng)新度。蜘(zhi)蛛每次爬行(xing)都會把頁面(mian)(mian)數據存儲起(qi)來。如(ru)(ru)果第二次爬行(xing)發(fa)現頁面(mian)(mian)與第一(yi)收錄的(de)完全一(yi)樣,說明頁面(mian)(mian)沒有更(geng)新,蜘(zhi)蛛也(ye)就沒有必(bi)要經常(chang)抓取。如(ru)(ru)果頁面(mian)(mian)內(nei)容經常(chang)更(geng)新,蜘(zhi)蛛就會更(geng)加(jia)頻(pin)繁地訪問這(zhe)種頁面(mian)(mian),頁面(mian)(mian)上出現的(de)新鏈接也(ye)自然會被蜘(zhi)蛛更(geng)快(kuai)的(de)跟蹤(zong),抓取新頁面(mian)(mian)。
3) 導(dao)(dao)(dao)入(ru)(ru)鏈接(jie)(jie)。無論是(shi)外(wai)部鏈接(jie)(jie)還是(shi)同一(yi)個網(wang)站的(de)(de)內部鏈接(jie)(jie),要被蜘(zhi)(zhi)蛛抓取,就必(bi)須有導(dao)(dao)(dao)入(ru)(ru)鏈接(jie)(jie)進(jin)入(ru)(ru)頁(ye)(ye)面,否則蜘(zhi)(zhi)蛛根本沒有機會知道(dao)頁(ye)(ye)面的(de)(de)存在(zai)。高質量的(de)(de)導(dao)(dao)(dao)入(ru)(ru)鏈接(jie)(jie)也經(jing)常使頁(ye)(ye)面上的(de)(de)導(dao)(dao)(dao)出鏈接(jie)(jie)被看待深度增加。
4) 與首頁(ye)(ye)點擊(ji)(ji)距(ju)離(li)。一般(ban)來說(shuo)網站上權重(zhong)最(zui)高(gao)的是(shi)首頁(ye)(ye),大部分外部鏈接是(shi)指向首頁(ye)(ye)的,蜘(zhi)蛛訪問最(zui)頻繁的也是(shi)首頁(ye)(ye)。離(li)首頁(ye)(ye)點擊(ji)(ji)距(ju)離(li)越近(jin),頁(ye)(ye)面權重(zhong)越高(gao),被蜘(zhi)蛛爬行的機會也越大。
4、 爬行時的(de)復制(zhi)內容檢測
刪除復(fu)(fu)制內(nei)容通常是在(zai)下面(mian)的(de)(de)預處理過程(cheng)中進行(xing)的(de)(de),但現在(zai)的(de)(de)蜘蛛在(zai)爬(pa)行(xing)和抓取文件(jian)時也會(hui)進行(xing)一(yi)定(ding)程(cheng)度(du)的(de)(de)復(fu)(fu)制內(nei)容檢(jian)測(ce)。遇到(dao)權重(zhong)很低的(de)(de)網站上大(da)量轉載或抄襲內(nei)容時,很可能不(bu)再繼(ji)續爬(pa)行(xing)。這也就是有(you)(you)的(de)(de)站長(chang)在(zai)日志文件(jian)中發現了(le)蜘蛛,但頁面(mian)從來沒有(you)(you)被(bei)真正收錄過的(de)(de)原因。
預處(chu)理(li)
在一些(xie)seo材料中,“預處(chu)理”也被簡(jian)稱為“索(suo)引(yin)”,因為索(suo)引(yin)是預處(chu)理最主(zhu)要的(de)步驟。
搜(sou)索引擎蜘蛛抓(zhua)取(qu)的原(yuan)始頁(ye)(ye)(ye)面,并不(bu)能(neng)直接用于查(cha)(cha)詢(xun)排名(ming)(ming)處理。搜(sou)索引擎數據庫中的頁(ye)(ye)(ye)面數都在(zai)數萬億級別以上(shang),用戶(hu)輸入(ru)搜(sou)索詞后,靠(kao)排名(ming)(ming)程(cheng)序(xu)實時對這么多頁(ye)(ye)(ye)面分(fen)析相關性,計算(suan)量太大,不(bu)可能(neng)在(zai)一兩秒內返回排名(ming)(ming)結果。因此(ci)抓(zhua)取(qu)來的頁(ye)(ye)(ye)面必(bi)須經過預處理,為最后的查(cha)(cha)詢(xun)排名(ming)(ming)做好(hao)準備。
和看爬(pa)行(xing)抓取(qu)一樣,預(yu)處理也是在后臺提前完成的(de),用(yong)戶(hu)搜(sou)索時感覺不到(dao)這個過程。
1、 提取文字
現在的搜索引(yin)擎還是(shi)以文字內容(rong)為基礎(chu)。蜘蛛獲取到(dao)的頁面中的html代碼(ma),除了用戶在瀏(liu)覽器上可(ke)以看到的可(ke)見文字外,還包含了大(da)量的html格(ge)式標簽(qian)、javascript程序等無法用于(yu)排名的內容。搜索(suo)引擎預處理首先要做的就是(shi)從(cong)html文件中去除(chu)標簽、程序,提取出可以用于排名(ming)處理(li)的網(wang)頁(ye)文字內容。
比如這(zhe)(zhe)下面這(zhe)(zhe)段html代碼:
<div id=”post” class=”ost”>
<div class="posttitle">
<h2><a href=”http:www.baidu.com”>今天是什(shen)么節日?</a></h2>
</div>
</div>
除去html代碼后(hou),剩下的就用(yong)于(yu)排名的文字只是這一行:
今天是什么節日?
除了可見文字,搜索引(yin)擎(qing)也會提取出一些特(te)殊的(de)包含文字信息的(de)代(dai)碼,如Meta 標簽中的文字、圖片替代文字、flash文件的替(ti)代文字(zi)、鏈接錨文字(zi)等。
2、 中文分(fen)詞(ci)
中文(wen)搜索(suo)(suo)引擎(qing)特有(you)的(de)步(bu)驟。搜索(suo)(suo)引擎(qing)存儲和處(chu)理(li)頁面及(ji)用戶(hu)都是(shi)(shi)以詞(ci)為基礎(chu)的(de)。英文(wen)等語言單詞(ci)與單詞(ci)之(zhi)間有(you)空格分(fen)隔(ge),搜索(suo)(suo)引擎(qing)索(suo)(suo)引程(cheng)序可以直(zhi)接(jie)把句子劃分(fen)為單詞(ci)的(de)集合。而中文(wen)詞(ci)之(zhi)間沒有(you)任何分(fen)隔(ge)符,一個句子中的(de)所有(you)字(zi)和詞(ci)都是(shi)(shi)連在(zai)一起的(de)搜索(suo)(suo)引擎(qing)必須首先分(fen)辨哪(na)(na)幾個字(zi)組(zu)成一個詞(ci),哪(na)(na)些字(zi)本身就是(shi)(shi)一個詞(ci)。比如“減肥方法”將被(bei)分(fen)詞(ci)為“減肥”和“方法“兩(liang)個詞(ci)。
方法基本上有兩種(zhong),一種(zhong)是(shi)基于(yu)詞典匹配,另一種(zhong)是(shi)基于(yu)統計(ji)。
匹配(pei)(pei)的方法是指,將待分析的一段漢字與一個(ge)(ge)事先造好的詞(ci)典(dian)中(zhong)的詞(ci)條(tiao)進行(xing)匹配(pei)(pei),在待分析漢字串中(zhong)掃描到(dao)詞(ci)典(dian)中(zhong)己有(you)的詞(ci)條(tiao)則匹配(pei)(pei)成功,或者(zhe)說切分出(chu)一個(ge)(ge)單(dan)詞(ci)。
按(an)照掃描(miao)(miao)方向(xiang),基于詞典的(de)匹(pi)(pi)(pi)配(pei)(pei)法可以(yi)分(fen)為正向(xiang)匹(pi)(pi)(pi)配(pei)(pei)和逆(ni)向(xiang)匹(pi)(pi)(pi)配(pei)(pei)。按(an)照匹(pi)(pi)(pi)配(pei)(pei)長度(du)優先級的(de)不同,又可以(yi)分(fen)為最(zui)大匹(pi)(pi)(pi)配(pei)(pei)和最(zui)小匹(pi)(pi)(pi)配(pei)(pei)。將掃描(miao)(miao)方向(xiang)和長度(du)優先混合,難能可貴以(yi)產生正向(xiang)最(zui)大匹(pi)(pi)(pi)配(pei)(pei)、逆(ni)向(xiang)最(zui)大匹(pi)(pi)(pi)配(pei)(pei)等不同方法。
詞典(dian)匹(pi)配方(fang)法(fa)計算簡單(dan),準確度在很大程序上取(qu)決于(yu)詞典(dian)的(de)完(wan)整性和更(geng)新情況。幾個(ge)字相(xiang)鄰出現越(yue)(yue)多,就越(yue)(yue)可能(neng)形成一(yi)個(ge)單(dan)詞。基于(yu)統計的(de)方(fang)法(fa)的(de)優勢是(shi)對新出現的(de)詞反應更(geng)快速(su),也有(you)利于(yu)消(xiao)除歧義。
基于(yu)詞(ci)典匹配(pei)和基于(yu)統計的分詞(ci)方(fang)法(fa)(fa)各有優劣(lie),實際使用(yong)中的分詞(ci)系(xi)統都(dou)是混合使用(yong)兩種(zhong)方(fang)法(fa)(fa)的,快速高效(xiao),又能識別生(sheng)詞(ci)、新詞(ci),消除歧義。
索引擎(qing)對(dui)頁(ye)面的分(fen)詞取(qu)決于詞庫的規模、準確性和分(fen)詞算法的好壞,而不是(shi)取(qu)決于頁(ye)面本(ben)身如何,所以seo人員對分詞所能做(zuo)的很少。唯一能做(zuo)的就是在頁面上用某種(zhong)形式提示搜索引擎,某幾個字應該被當(dang)做(zuo)一個詞處理,尤其是可能產生歧義的時候,比如在頁面標題、h1標(biao)簽及黑(hei)體(ti)(ti)中出現關鍵詞(ci)。如(ru)果(guo)頁(ye)(ye)面是關于“和(he)服“的(de)(de)內容(rong),那(nei)么可以把(ba)“和(he)服”這兩個字(zi)特(te)意標(biao)為(wei)黑(hei)體(ti)(ti)。如(ru)果(guo)頁(ye)(ye)面是關于“化妝和(he)服裝”,可以把(ba)“服裝”兩個字(zi)標(biao)為(wei)黑(hei)體(ti)(ti)。這樣,搜索(suo)引(yin)擎對頁(ye)(ye)面進行分析時就(jiu)知道標(biao)為(wei)團體(ti)(ti)的(de)(de)應(ying)該是一個詞(ci)。
3、 去停止詞
是英(ying)文還是中文,頁(ye)面內容中都(dou)會有一(yi)些出現頻率很高,卻對(dui)(dui)內容沒有任何(he)影(ying)響的(de)詞,如“的(de)”、“地(di)”、“得”之(zhi)類(lei)的(de)肋條詞,“啊”、“哈”、“呀”之(zhi)類(lei)的(de)感嘆詞,“從而(er)”、“以”、“卻”之(zhi)類(lei)的(de)副詞或(huo)介(jie)詞。這些詞被稱為(wei)停止詞,因(yin)為(wei)它們對(dui)(dui)頁(ye)面的(de)主(zhu)要意(yi)思沒什么影(ying)響。英(ying)文中的(de)常見停止有 the,a,an,to,of等。
索(suo)引(yin)擎在索(suo)引(yin)頁面(mian)之前會(hui)去掉這些(xie)停止(zhi)詞(ci),使(shi)索(suo)引(yin)數據主題更為突出,減少無(wu)謂的計(ji)算量。
4、 消(xiao)除(chu)噪聲
分(fen)頁面(mian)上還一部分(fen)內(nei)容(rong)對頁面(mian)主(zhu)題(ti)也沒(mei)有什(shen)么(me)貢獻,比如版權(quan)聲明文(wen)字、導(dao)航條、廣告等。以(yi)(yi)常見的干博(bo)(bo)客導(dao)航為(wei)例,幾(ji)乎每個(ge)博(bo)(bo)客頁面(mian)上都(dou)會出(chu)現(xian)文(wen)章(zhang)分(fen)類(lei)、歷(li)史存檔等導(dao)航內(nei)容(rong),但是這(zhe)些(xie)頁面(mian)本身與“分(fen)類(lei)”、“歷(li)史”這(zhe)些(xie)詞都(dou)沒(mei)有任何關系。用戶搜索“歷(li)史”、“分(fen)類(lei)”這(zhe)些(xie)關鍵詞時公(gong)公(gong)因(yin)為(wei)頁面(mian)上有這(zhe)些(xie)詞出(chu)現(xian)而(er)返回博(bo)(bo)客帖子是毫無意義的,完全不相關。所以(yi)(yi)這(zhe)些(xie)區塊都(dou)屬于噪聲,對頁面(mian)主(zhu)題(ti)只能起到分(fen)散作用。
擎需要識(shi)別并消除(chu)這些噪(zao)(zao)聲(sheng),排名時不使用噪(zao)(zao)聲(sheng)內容。消噪(zao)(zao)的基本方法(fa)是(shi)根據html標(biao)簽對頁(ye)面分(fen)塊,區分(fen)出頁(ye)頭、導(dao)航、正文、頁(ye)腳、廣告等區域,在網站上大量重復出現的(de)區塊往往屬于(yu)噪(zao)聲。對頁(ye)面進行(xing)消(xiao)噪(zao)后,剩下的(de)才是頁(ye)面主(zhu)體內容。
5、 去重
引擎還需要對(dui)頁面進(jin)行(xing)去重處理。
文(wen)章經常會重(zhong)復(fu)出現在(zai)不(bu)同網站及同一(yi)個(ge)網站的(de)(de)不(bu)同網址上,搜(sou)索(suo)引(yin)擎并不(bu)喜歡這(zhe)種重(zhong)復(fu)性的(de)(de)內(nei)容。用戶(hu)搜(sou)索(suo)時,如果在(zai)前兩頁看到的(de)(de)都是(shi)來自不(bu)同網站的(de)(de)同一(yi)篇文(wen)章,用戶(hu)體驗就太差了,雖然(ran)都是(shi)內(nei)容相(xiang)關的(de)(de)。搜(sou)索(suo)引(yin)擎希望只返(fan)回相(xiang)同文(wen)章中的(de)(de)一(yi)篇,所以(yi)在(zai)進行索(suo)引(yin)前還需(xu)要識別(bie)和刪除重(zhong)復(fu)內(nei)容,這(zhe)個(ge)過程就稱(cheng)為“去重(zhong)”。
去重的(de)(de)基本方法是對頁面特征關(guan)鍵詞計算指紋,也就是說從頁面主(zhu)體內容中選取最有借到性的(de)(de)一部分(fen)關(guan)鍵詞(經(jing)常是出現
頻率最(zui)高的(de)(de)關鍵(jian)詞),然后(hou)計算這些關鍵(jian)詞的(de)(de)數字指紋。這里的(de)(de)關鍵(jian)詞選(xuan)取是在分詞、去停止詞、消(xiao)噪之(zhi)后(hou)。實驗表(biao)明,通常選(xuan)取10個特征關鍵詞(ci)就(jiu)可以達到比較高(gao)的計(ji)算準確(que)性,再選取(qu)多詞(ci)對去重準確(que)性提高(gao)的貢獻也(ye)就(jiu)不(bu)大了。
6、 正向索引(yin)
正(zheng)向索引也可(ke)以(yi)簡稱為索引。
提取(qu)、分(fen)(fen)詞、消噪、去重后(hou),搜索(suo)引擎得到(dao)的(de)就(jiu)是獨特(te)的(de)、能反(fan)映(ying)頁(ye)面(mian)主(zhu)體(ti)內容的(de)、以詞為(wei)單位的(de)內容。接下來搜索(suo)引擎索(suo)引程序就(jiu)可以提取(qu)關鍵詞,按照分(fen)(fen)詞程序劃(hua)分(fen)(fen)好的(de)詞,把頁(ye)面(mian)轉換為(wei)一個(ge)關鍵詞組成的(de)集(ji)合,同時記(ji)錄每一個(ge)關鍵詞在頁(ye)面(mian)上的(de)出(chu)現頻率(lv)、出(chu)現次數、格式(如(ru)出(chu)現在標題標簽、黑(hei)體(ti)、H標簽、錨文字等(deng)(deng)(deng))、位(wei)置(zhi)(如頁(ye)面第一段文字等(deng)(deng)(deng))。這樣,每一個(ge)頁(ye)面都可以記(ji)錄為一串(chuan)關鍵(jian)詞(ci)集合,其中每個(ge)關鍵(jian)詞(ci)的詞(ci)頻、格式(shi)、位(wei)置(zhi)等(deng)(deng)(deng)權重信息(xi)也都記(ji)錄在(zai)案。
搜索(suo)引擎索(suo)引程(cheng)序將頁面及(ji)關鍵詞形成表結構(gou)存儲進索(suo)引庫(ku)。簡(jian)化的索(suo)引詞表形式如表1
每(mei)個文(wen)件(jian)都對(dui)應一個文(wen)件(jian)ID,文件內容(rong)被表示為(wei)一串關鍵(jian)詞的集(ji)合。實際上在搜索引擎索引庫(ku)中,關鍵(jian)詞也已經轉換(huan)為(wei)關鍵(jian)詞ID。這樣的數(shu)據結構就稱為正向索引。
7、 倒排索引
正向索引還不能直接用(yong)于(yu)排名。假設(she)用(yong)戶搜索關鍵詞2,如果(guo)只存在正向索引(yin),排名程序需要掃(sao)描所有(you)索引(yin)為(wei)中的文件(jian),找(zhao)出包含關鍵(jian)詞2的文件,再(zai)進行相關性計(ji)算。這樣(yang)的計(ji)算量無法滿足實時返回排名結果(guo)的要求。
所(suo)以搜索引擎會將正向索引數據(ju)庫重新(xin)構造為倒排索引,把文(wen)件對應到(dao)關(guan)鍵(jian)詞的映(ying)射(she)轉換為關(guan)鍵(jian)詞到(dao)文(wen)件的映(ying)射(she),如表
8、 鏈(lian)接關系計算
鏈接關系(xi)計算(suan)也是預(yu)處理中很重要的一部(bu)分。現在所有(you)的主流(liu)(liu)搜索(suo)引(yin)擎排名因素中都包含網(wang)頁之(zhi)間的鏈接流(liu)(liu)動信息。搜索(suo)引(yin)擎在抓取頁面內容后,必須事前計算(suan)出:頁面上有(you)哪些鏈接指向哪些其(qi)它頁面,每個頁面有(you)哪些導入鏈接,鏈接使用了什么錨文字,這些復雜的鏈接指向關系(xi)形(xing)成了網(wang)站和頁面的鏈接權重。
Google pr值就(jiu)是這種鏈接關系的最主(zhu)要(yao)體現之(zhi)一。其化(hua)搜索(suo)引擎(qing)也都進行類似(si)計算,雖(sui)然它(ta)們并不(bu)稱為(wei)pr。
由于(yu)頁面和(he)鏈接(jie)數量巨大,網上的鏈接(jie)關系(xi)又時(shi)時(shi)處在更新(xin)中(zhong),因此鏈接(jie)關系(xi)及Pr的計算要耗費很長時間。關于pr和鏈接分析,后面還有專門的(de)章節介紹(shao)。
9、 特殊文件(jian)處理
除了html文(wen)(wen)件(jian)外,搜索引(yin)擎通常還(huan)能(neng)抓取(qu)各(ge)索引(yin)以文(wen)(wen)字為基礎的(de)多種(zhong)文(wen)(wen)件(jian)類型,如Pdf/word/wps/xls/ppt/txt文(wen)件(jian)等。我(wo)們在搜索(suo)結果中(zhong)也(ye)經常會(hui)看到這(zhe)些文(wen)件(jian)類型。但目前的(de)搜索(suo)引擎還(huan)不(bu)能(neng)處理圖(tu)片、視頻、flash這(zhe)類非文字內容,也(ye)不能執行(xing)腳本和程序。
雖(sui)然(ran)搜(sou)索引(yin)擎在識別(bie)圖片及從flash中提取文字內容方面有些進步,不(bu)過距(ju)離直接靠讀取圖片、視頻、flash內容返(fan)回(hui)結果(guo)的(de)目標還很遠。對圖(tu)片、視頻(pin)內容的(de)排名還往(wang)往(wang)是依(yi)據與之(zhi)相關的(de)文字(zi)內容,后面(mian)還會講到整合搜索部(bu)分。