国产女人在线视频_性生潮久久久不久久久久_中文字幕精品久久一区二区三区_国产v亚洲v天堂无码_国产高清视频免费在线观看

專注抖音視頻、谷歌推廣20年
證券簡(jiǎn)稱:思億歐 證券代碼:839255
1對(duì)1的貼心服務(wù)13603054593

您當(dāng)前的位置:首頁(yè) >> SEO知識(shí) >> 網(wǎng)站幫助

搜索策略的基本邏輯

發(fā)布時(shí)間:2020-06-21 10:38:56瀏覽次數(shù):

網(wǎng)絡(luò)資源數(shù)量巨大,種類多樣。任何搜索引擎要采集所有的網(wǎng)絡(luò)資源,既不可能,也沒有必要。如何根據(jù)鏈接結(jié)構(gòu)及對(duì)網(wǎng)絡(luò)數(shù)據(jù)的分析確定適用的訪問策略,是信息采集的關(guān)鍵。常見的訪問策略包括常規(guī)遍歷算法和優(yōu)化遍歷算法兩類。

常規(guī)遍歷形式,通常包括廣度優(yōu)先算法、深度優(yōu)先算法、IP地址搜索策略等。

廣度優(yōu)先算法按照鏈接的層次進(jìn)行,在訪問完一個(gè)層次后再進(jìn)行下一層次的訪問,如此由淺入深、逐級(jí)進(jìn)行。這一算法可以增加訪問的廣度,使得多個(gè)服務(wù)器的上層資源得到采集,但鏈接結(jié)構(gòu)中層次較后的有價(jià)值資源往往難于獲得。

深度優(yōu)先算法從起始頁(yè)面出發(fā),沿頁(yè)面上的某一個(gè)鏈接進(jìn)行搜索,逐級(jí)深入,一直到達(dá)底層網(wǎng)頁(yè),才返回起始頁(yè),選擇其他鏈接進(jìn)行類似的訪問。這種算法可以遍歷一個(gè)站點(diǎn)F的深層頁(yè)面,但會(huì)影響它的遍歷廣度或遍歷的時(shí)間,有時(shí)還有陷入循環(huán)狀態(tài)的危險(xiǎn)。

IP地址搜索策略將訪問限制在指定的IP地址范圍中,不考慮各文檔中指向其他站點(diǎn)的鏈接。這種算法能夠有針對(duì)性地對(duì)于特定領(lǐng)域的資源進(jìn)行采集,適合于按照特定目的編制的搜索引擎。

上述各種方式在實(shí)際使用中也可以根據(jù)需要,結(jié)合使用,例如將廣度優(yōu)先與深度優(yōu)先結(jié)合等。但一般情況下,這些常規(guī)遍歷形式通常只提供一般的訪問算法,并不能優(yōu)化采集的質(zhì)量。要改進(jìn)采集質(zhì)量,應(yīng)當(dāng)按照使用的需要,選擇與系統(tǒng)有較高相關(guān)性且質(zhì)量比較高的網(wǎng)頁(yè),并結(jié)合采用相應(yīng)的優(yōu)化采集算法。有些論文論述了網(wǎng)絡(luò)采集中常用的一些優(yōu)化算法,包括:

(1)興趣驅(qū)動(dòng)(Interest-driven)。即以用戶需求作為網(wǎng)頁(yè)采集的依據(jù)。通常依據(jù)檢索杏詢與網(wǎng)絡(luò)的匹配度確定,方法是依據(jù)選定的查詢?cè)~集作為網(wǎng)頁(yè)采集的依據(jù),根據(jù)查詢?cè)~與網(wǎng)頁(yè)文本的匹配程度確定其相關(guān)性,同時(shí)結(jié)合該詞在整個(gè)網(wǎng)頁(yè)庫(kù)中的反文獻(xiàn)頻率(idf),確定其重要性值。由于使用idf項(xiàng)需要的全局信息在采集過程中無法得到,可根據(jù)已采集到網(wǎng)頁(yè)的平均值或以過去數(shù)據(jù)的估算值加以代替。

(2)流行驅(qū)動(dòng)(Popularity-driven)。即判斷重要性程度或得到承認(rèn)的廣泛程度,方法是考察指向它的鏈接數(shù)量。采用這一方式,通常應(yīng)計(jì)算出網(wǎng)頁(yè)獲得的鏈接數(shù)量,并將這一數(shù)量作為是否采集的依據(jù)。更加全面地判定網(wǎng)頁(yè)重要性的方法,是使用Google的PageRank算法,同時(shí)計(jì)算鏈接該網(wǎng)頁(yè)的其他網(wǎng)頁(yè)的重要性,但這一方法需要涉及相關(guān)網(wǎng)頁(yè)的鏈接情況,在采集的情況下很難做到。

(3)網(wǎng)址驅(qū)動(dòng)(Location-driven)。即不是以內(nèi)容,而是將網(wǎng)址作為判定網(wǎng)頁(yè)重要性的依據(jù),包括,對(duì)特定域名賦予高值,進(jìn)行針對(duì)性采集;對(duì)于包含特定字串如"home"的地址賦予高值;選用帶有較少斜線的網(wǎng)址等。網(wǎng)址驅(qū)動(dòng)容易操作,在特定系統(tǒng)中也十分有用。例如在專業(yè)搜索引擎中,可以明確將選定的網(wǎng)站、域名作為網(wǎng)頁(yè)采集的邊界。

URL列表的排序控制是在采集控制器中進(jìn)行的,在未獲得網(wǎng)頁(yè)的情況下,網(wǎng)址驅(qū)動(dòng)是一個(gè)可以直接加以采用的方式,如北大天網(wǎng)在搜索中采用這一方法;但對(duì)于相關(guān)性判斷或重要性判斷,由于在訪問過程中,不可能事先得到該網(wǎng)頁(yè)數(shù)據(jù),一般只能利用采集器已采集的信息作為依據(jù)。例如,利用已采集網(wǎng)頁(yè)的鎖定文本(Anchor Text)來估計(jì)特定網(wǎng)頁(yè)可能包含的文本,甚至以“鄰近”網(wǎng)頁(yè)的文本作為評(píng)估依據(jù)等。某個(gè)文獻(xiàn)記錄了采用上述方法在有限范圍中試驗(yàn)的情況。一些論文討論了結(jié)合數(shù)據(jù)挖掘進(jìn)行采集優(yōu)化的問題,但目前仍缺乏大型搜索引擎實(shí)際應(yīng)用的例子。

聯(lián)系我們
地址:深圳市龍崗區(qū) 龍城大道85號(hào)萬科龍崗云中心16層
13603054593
版權(quán)所有:深圳市西企網(wǎng)科技有限公司|抖音短視頻推廣_抖音短視頻運(yùn)營(yíng)_深圳SEO公司,技巧,效果怎么樣 粵ICP備15110110號(hào)
X

截屏,微信識(shí)別二維碼

微信號(hào):13603054593

(點(diǎn)擊微信號(hào)復(fù)制,添加好友)

打開微信