国产女人在线视频_性生潮久久久不久久久久_中文字幕精品久久一区二区三区_国产v亚洲v天堂无码_国产高清视频免费在线观看

專注抖音視頻、谷歌推廣20年
證券簡稱:思億歐 證券代碼:839255
1對1的貼心服務(wù)13603054593

您當(dāng)前的位置:首頁 >> SEO知識 >> 網(wǎng)站幫助

搜索引擎的工作原理是什么

發(fā)布時間:2020-06-21 10:33:18瀏覽次數(shù):

不同的Web信息檢索系統(tǒng)在工作原理上各不一樣,下面就結(jié)合搜索引擎來具體說明一下一般Web信息檢索系統(tǒng)的特點。雖然各個搜索引擎的具體實現(xiàn)不盡相同,但一般包含爬蟲程序、分析程序、索引程序、檢索程序和用戶接口界面5個基本部分,而且大致的工作原理是相同的。

Web搜索引擎主要是通過爬蟲程序定期遍歷互聯(lián)網(wǎng),將網(wǎng)頁的統(tǒng)一資源定位符(URL)、內(nèi)容和采集時間等相關(guān)信息收集到Web服務(wù)器上,然后通過必要的信息索引和存儲優(yōu)化處理,利用特定的檢索界面對Web用戶直接提供服務(wù)。這種處理方式在很多方面適應(yīng)了Web信息的特點。例如,爬蟲程序的定期遍歷可以將不斷動態(tài)變化的Web網(wǎng)頁信息采集過來,既能有效反映最新的網(wǎng)頁信息,又能將分布于各地的Web信息統(tǒng)一存儲在搜索引擎的本地服務(wù)器上,實現(xiàn)信息資源的本地化,以實現(xiàn)對用戶查詢的快速響應(yīng);同時,搜索引擎提供了基于關(guān)鍵詞的全文檢索方式,避免了不必要的詞語分析和語義處理,適應(yīng)半結(jié)構(gòu)化網(wǎng)頁信息的處理特點,而且還能提高信息的查全率。

它的具體工作流程包括以下幾步:

步,由爬蟲程序采用一定的搜索策略對Web網(wǎng)絡(luò)進(jìn)行遍歷并下載網(wǎng)頁,系統(tǒng)中維護(hù)一個超鏈隊列或者堆棧,其中包含一些起始URL;爬蟲程序從這些URL出發(fā),下載相應(yīng)的頁面,并從中抽取出新的超鏈加入到隊列或者堆棧中。上述過程不斷重復(fù)直到堆棧為空。為提高效率,搜索引擎中可能會有多個爬蟲程序進(jìn)程同時遍歷不同的Web子空間。為了便于將來擴(kuò)展服務(wù),爬蟲程序應(yīng)能改變搜索范圍和搜索策略,一般采用以寬度優(yōu)先搜索策略為主、深度優(yōu)先搜索策略為輔的搜索策略。

第二步,由分析程序?qū)ε老x程序下載的網(wǎng)頁進(jìn)行分析以用于索引,網(wǎng)頁分析技術(shù)一般包括分詞(有些僅從文檔某些部分抽詞,如Altavista)或者使用停用詞表(stop list)來過濾網(wǎng)頁信息,同時還提供諸如單復(fù)數(shù)轉(zhuǎn)換、詞綴去除和同義詞替換等詞語轉(zhuǎn)換,這些技術(shù)的具體實現(xiàn)往往與處理方式以及系統(tǒng)的索引模型密切相關(guān)。

第三步,索引程序?qū)⒕W(wǎng)頁信息表示為一種便于檢索的方式并存儲在索引數(shù)據(jù)庫中。索引的質(zhì)量是Web信息檢索系統(tǒng)成功的關(guān)鍵因素之一。一個好的索引模型應(yīng)該易于實現(xiàn)和維護(hù)、檢索速度更快、空間需求更低。搜索引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型,包括倒排文檔、向量空間模型和概率模型等。

第四步,檢索程序從索引中找出與用戶查詢請求相關(guān)的網(wǎng)頁信息,采用與分析網(wǎng)頁文檔相似的方法來處理用戶查詢請求,最后將相關(guān)度大于閾值的所有網(wǎng)頁按照相關(guān)度遞減的順序排列并返還給用戶,當(dāng)然搜索引擎的相關(guān)度判斷并不一定與用戶的需求完全吻合。傳統(tǒng)的方式只是利用詞頻和詞語出現(xiàn)的標(biāo)記和位置來設(shè)置權(quán)重,新的設(shè)置權(quán)重方式主要利用基于超鏈分析的方法,然而只有在系統(tǒng)中引入用戶特征模式信息后才能最終為用戶提供個性化的信息檢索服務(wù)。

最后,用戶接口為用戶提供可視化的查詢輸入和結(jié)果輸出界面。在查詢界面中,用戶按照搜索引擎的查詢語法使用檢索詞語及各種簡單、高級的檢索條件,構(gòu)造自己的查詢表達(dá)式。在輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個線性的網(wǎng)頁列表,其中包含了網(wǎng)頁的標(biāo)題、摘要和相關(guān)超鏈等信息。由于Web信息是動態(tài)變化的,因此,Robot分析器和索引器模塊要定期更新數(shù)據(jù)庫,時間通常約為一個月。索引數(shù)據(jù)庫越大,更新也越困難。這就使得這種傳統(tǒng)的被動服務(wù)方式其實不是非常及時有效,借鑒信息推送服務(wù)的思想可以極大地提高Web信息檢索系統(tǒng)的及時性。

聯(lián)系我們
地址:深圳市龍崗區(qū) 龍城大道85號萬科龍崗云中心16層
13603054593
版權(quán)所有:深圳市西企網(wǎng)科技有限公司|抖音短視頻推廣_抖音短視頻運(yùn)營_深圳SEO公司,技巧,效果怎么樣 粵ICP備15110110號
X

截屏,微信識別二維碼

微信號:13603054593

(點擊微信號復(fù)制,添加好友)

打開微信