彩票查询_2021美洲杯决赛:阿根廷vs巴西回放_2025世俱杯参赛球队有哪些_英格兰乙级联赛 - 竞彩足球500

快壓

當(dāng)前位置:首頁 > 電腦技巧 > 正文

詳細(xì)介紹常用的幾類搜索引擎技術(shù)

瀏覽次數(shù):|更新日期:2014年11月02日

因特網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找信息,就像大海撈針一樣,搜索引擎(計(jì)算機(jī)愛好者,學(xué)習(xí)計(jì)算機(jī)基礎(chǔ),電腦入門,請(qǐng)到本站,我站同時(shí)提供計(jì)算機(jī)基礎(chǔ)知識(shí)教程,計(jì)算機(jī)基礎(chǔ)知識(shí)試題供大家學(xué)習(xí)和使用),技術(shù)恰好解決了這一難題,它可以為用戶提供信息檢索服務(wù)。目前,搜索引擎技術(shù)正成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開發(fā)的對(duì)象。 搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開始逐漸發(fā)展起來的技術(shù)。
  據(jù)發(fā)表在《科學(xué)》雜志1999年7月的文章《WEB信息的可訪問性》估計(jì),全球目前的網(wǎng)頁超過8億,有效數(shù)據(jù)超過9TB,并且仍以每4個(gè)月翻一番的速度增長(zhǎng)。例如,Google目前擁有10億個(gè)網(wǎng)址,30億個(gè)網(wǎng)頁,3.9 億張圖像,Google支持66種語言接口,16種文件格式,面對(duì)如此海量的數(shù)據(jù)和如此異構(gòu)的信息,用戶要在里面尋找信息,必然會(huì)“大海撈針”無功而返。
  搜索引擎正是為了解決這個(gè)“迷航”問題而出現(xiàn)的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。
  目前,搜索引擎技術(shù)按信息標(biāo)引的方式可以分為目錄式搜索引擎、機(jī)器人搜索引擎和混合式搜索引擎;按查詢方式可分為瀏覽式搜索引擎、關(guān)鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;按語種又分為單語種搜索引擎、多語種搜索引擎和跨語言搜索引擎等。
  目錄式搜索引擎
  目錄式搜索引擎(Directory Search Engine)是最早出現(xiàn)的基于WWW的搜索引擎,以雅虎為代表,我國(guó)的搜狐也屬于目錄式搜索引擎。
  目錄式搜索引擎由分類專家將網(wǎng)絡(luò)信息按照主題分成若干個(gè)大類,每個(gè)大類再分為若干個(gè)小類,依次細(xì)分,形成了一個(gè)可瀏覽式等級(jí)主題索引式搜索引擎,一般的搜索引擎分類體系有五六層,有的甚至十幾層。
  目錄式搜索引擎主要通過人工發(fā)現(xiàn)信息,依靠編目員的知識(shí)進(jìn)行甄別和分類。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的準(zhǔn)確度是相當(dāng)高的,但由于人工信息搜集速度較慢,不能及時(shí)地對(duì)網(wǎng)上信息進(jìn)行實(shí)際監(jiān)控,其查全率并不是很好,是一種網(wǎng)站級(jí)搜索引擎。
  機(jī)器人搜索引擎
  機(jī)器人搜索引擎通常有三大模塊:信息采集、信息處理、信息查詢。信息采集一般指爬行器或網(wǎng)絡(luò)蜘蛛,是通過一個(gè)URL列表進(jìn)行網(wǎng)頁的自動(dòng)分析與采集。起初的URL并不多,隨著信息采集量的增加,也就是分析到網(wǎng)頁有新的鏈接,就會(huì)把新的URL添加到URL列表,以便采集。
  機(jī)器人搜索引擎使用多線程并發(fā)搜索技術(shù),主要完成文檔訪問代理、路徑選擇引擎和訪問控制引擎。基于機(jī)器人搜索引擎的Web頁搜索模塊主要由URL服務(wù)器、爬行器、存儲(chǔ)器、URL解析器四大功能部件和資源庫、錨庫、鏈接庫三大數(shù)據(jù)資源構(gòu)成,另外還要借助標(biāo)引器的一個(gè)輔助功能。