中文字幕二区_国产精品免费在线观看_黄色网站观看_人人草人人澡_日本真实娇小xxxx

您的位置: 首頁 > 技術(shù)文檔 > 網(wǎng)絡(luò)編程 > 基于Sphinx+MySQL全文檢索架構(gòu)設(shè)計
php設(shè)計模式介紹之觀測模式 回到列表 一個月的php學習總結(jié)
 基于Sphinx+MySQL全文檢索架構(gòu)設(shè)計

作者:張宴 時間: 2008-07-29 文檔類型:轉(zhuǎn)載 來自:回憶未來[張宴]

第 1 頁 基于Sphinx+MySQL全文檢索架構(gòu)設(shè)計 [1]
第 2 頁 基于Sphinx+MySQL全文檢索架構(gòu)設(shè)計 [2]

原文:http://blog.s135.com/read.php/360.htm

前言

本文闡述的是一款經(jīng)過生產(chǎn)環(huán)境檢驗的千萬級數(shù)據(jù)全文檢索(搜索引擎)架構(gòu)。本文只列出前幾章的內(nèi)容節(jié)選,不提供全文內(nèi)容。

在DELL PowerEdge 6850服務(wù)器(四顆64 位Inter Xeon MP 7110N處理器 / 8GB內(nèi)存)、RedHat AS4 Linux操作系統(tǒng)、MySQL 5.1.26、MyISAM存儲引擎、key_buffer=1024M環(huán)境下實測,單表1000萬條記錄的數(shù)據(jù)量(這張MySQL表擁有int、datetime、varchar、text等類型的10多個字段,只有主鍵,無其它索引),用主鍵(PRIMARY KEY)作為WHERE條件進行SQL查詢,速度非常之快,只耗費0.01秒。

出自俄羅斯的開源全文搜索引擎軟件 Sphinx ,單一索引最大可包含1億條記錄,在1千萬條記錄情況下的查詢速度為0.x秒(毫秒級)。Sphinx創(chuàng)建索引的速度為:創(chuàng)建100萬條記錄的索引只需3~4分鐘,創(chuàng)建1000萬條記錄的索引可以在50分鐘內(nèi)完成,而只包含最新10萬條記錄的增量索引,重建一次只需幾十秒。

基于以上幾點,我設(shè)計出了這套搜索引擎架構(gòu)。在生產(chǎn)環(huán)境運行了一周,效果非常不錯。有時間我會專為配合Sphinx搜索引擎,開發(fā)一個邏輯簡單、速度快、占用內(nèi)存低、非表鎖的MySQL存儲引擎插件,用來代替MyISAM引擎,以解決MyISAM存儲引擎在頻繁更新操作時的鎖表延遲問題。另外,分布式搜索技術(shù)上已無任何問題。

一、搜索引擎架構(gòu)設(shè)計

1、搜索引擎架構(gòu)圖

2、搜索引擎架構(gòu)設(shè)計思路

(1)、調(diào)用方式最簡化

盡量方便前端Web工程師,只需要一條簡單的SQL語句“SELECT ... FROM myisam_table JOIN sphinx_table ON (sphinx_table.sphinx_id=myisam_table.id) WHERE query='...';”即可實現(xiàn)高效搜索。

(2)、創(chuàng)建索引、查詢速度快

①、Sphinx Search 是由俄羅斯人Andrew Aksyonoff 開發(fā)的高性能全文搜索軟件包,在GPL與商業(yè)協(xié)議雙許可協(xié)議下發(fā)行。

Sphinx的特征

  • Sphinx支持高速建立索引(可達10MB/秒,而Lucene建立索引的速度是1.8MB/秒)
  • 高性能搜索(在2-4 GB的文本上搜索,平均0.1秒內(nèi)獲得結(jié)果)
  • 高擴展性(實測最高可對100GB的文本建立索引,單一索引可包含1億條記錄)
  • 支持分布式檢索
  • 支持基于短語和基于統(tǒng)計的復(fù)合結(jié)果排序機制
  • 支持任意數(shù)量的文件字段(數(shù)值屬性或全文檢索屬性)
  • 支持不同的搜索模式(“完全匹配”,“短語匹配”和“任一匹配”)
  • 支持作為Mysql的存儲引擎

②、通過國外《High Performance MySQL》專家組的測試可以看出,根據(jù)主鍵進行查詢的類似“SELECT ... FROM ... WHERE id = ...”的SQL語句(其中id為PRIMARY KEY),每秒鐘能夠處理10000次以上的查詢,而普通的SELECT查詢每秒只能處理幾十次到幾百次:

③、Sphinx不負責文本字段的存儲。假設(shè)將數(shù)據(jù)庫的id、date、title、body字段,用sphinx建立搜索索引。根據(jù)關(guān)鍵字、時間、類別、范圍等信息查詢一下sphinx,sphinx只會將查詢結(jié)果的ID號等非文本信息告訴我們。要顯示title、body等信息,還需要根據(jù)此ID號去查詢MySQL數(shù)據(jù)庫,或者從Memcachedb等其他的存儲中取得。安裝SphinxSE作為MySQL的存儲引擎,將MySQL與Sphinx結(jié)合起來,是一種便捷的方法。

創(chuàng)建一張Sphinx類型表,將MyISAM表的主鍵ID和Sphinx表的ID作一個JOIN聯(lián)合查詢。這樣,對于MyISAM表來所,只相當于一個WHERE id=...的主鍵查詢,WHERE后的條件都交給Sphinx去處理,可以充分發(fā)揮兩者的優(yōu)勢,實現(xiàn)高速搜索查詢。

(3)、按服務(wù)類型進行分離

為了保證數(shù)據(jù)的一致性,我在配置Sphinx讀取索引源的MySQL數(shù)據(jù)庫時,進行了鎖表。Sphinx讀取索引源的過程會耗費一定時間,由于MyISAM存儲引擎的讀鎖和寫鎖是互斥的,為了避免寫操作被長時間阻塞,導致數(shù)據(jù)庫同步落后跟不上,我將提供“搜索查詢服務(wù)”的和提供“索引源服務(wù)”的MySQL數(shù)據(jù)庫進行了分開。監(jiān)聽3306端口的MySQL提供“搜索查詢服務(wù)”,監(jiān)聽3406端口的MySQL提供“索引源服務(wù)”。

(4)、“主索引+增量索引”更新方式

一般網(wǎng)站的特征:信息發(fā)布較為頻繁;剛發(fā)布完的信息被編輯、修改的可能性大;兩天以前的老帖變動性較小。

基于這個特征,我設(shè)計了Sphinx主索引和增量索引。對于前天17:00之前的記錄建立主索引,每天凌晨自動重建一次主索引;對于前天17:00之后到當前最新的記錄,間隔3分鐘自動重建一次增量索引。

(5)、“Ext3文件系統(tǒng)+tmpfs內(nèi)存文件系統(tǒng)”相結(jié)合

為了避免每3分鐘重建增量索引導致磁盤IO較重,從而引起系統(tǒng)負載上升,我將主索引文件創(chuàng)建在磁盤,增量索引文件創(chuàng)建在tmpfs內(nèi)存文件系統(tǒng)“/dev/shm/”內(nèi)!/dev/shm/”內(nèi)的文件全部駐留在內(nèi)存中,讀寫速度非?。但是,重啟服務(wù)器會導致“/dev/shm/”內(nèi)的文件丟失,針對這個問題,我會在服務(wù)器開機時自動創(chuàng)建“/dev/shm/”內(nèi)目錄結(jié)構(gòu)和Sphinx增量索引。

(6)、中文分詞詞庫

我根據(jù)“百度早期中文分詞庫”+“搜狗拼音輸入法細胞詞庫”+“LibMMSeg高頻字庫”+... 綜合整理成一份中文分詞詞庫,出于某些考慮暫不提供。你可以使用LibMMSeg自帶的中文分詞詞庫。

出處:回憶未來[張宴]
責任編輯:bluehearts

上一頁 下一頁 基于Sphinx+MySQL全文檢索架構(gòu)設(shè)計 [2]

◎進入論壇網(wǎng)絡(luò)編程版塊參加討論

相關(guān)文章 更多相關(guān)鏈接
搜索引擎優(yōu)化基礎(chǔ)知識PPT
flash+php+mysql簡單留言本教程
[php]mysql數(shù)據(jù)庫操作——DB類
搜索自動提示功能的實現(xiàn)
關(guān)于MySQL編碼問題的經(jīng)驗總結(jié)
關(guān)鍵字搜索 常規(guī)搜索 推薦文檔
熱門搜索:CSS Fireworks 設(shè)計比賽 網(wǎng)頁制作 web標準 用戶體驗 UE photoshop Dreamweaver Studio8 Flash 手繪 CG
站點最新 站點最新列表
周大!熬•自然”設(shè)計大賽開啟
國際體驗設(shè)計大會7月將在京舉行
中國國防科技信息中心標志征集
云計算如何讓安全問題可控
云計算是多數(shù)企業(yè)唯一擁抱互聯(lián)網(wǎng)的機會
阿里行云
云手機年終巨獻,送禮標配299起
阿里巴巴CTO王堅的"云和互聯(lián)網(wǎng)觀"
1499元買真八核 云OS雙蛋大促
首屆COCO桌面手機主題設(shè)計大賽
欄目最新 欄目最新列表
淺談JavaScript編程語言的編碼規(guī)范
如何在illustrator中繪制臺歷
Ps簡單繪制一個可愛的鉛筆圖標
數(shù)據(jù)同步算法研究
用ps作簡單的作品展示頁面
CSS定位機制之一:普通流
25個最佳最閃亮的Eclipse開發(fā)項目
Illustrator中制作針線縫制文字效果
Photoshop制作印刷凹凸字體
VS2010中創(chuàng)建自定義SQL Rule
>> 分頁 首頁 前頁 后頁 尾頁 頁次:1/21個記錄/頁 轉(zhuǎn)到 頁 共2個記錄

藍色理想版權(quán)申明:除部分特別聲明不要轉(zhuǎn)載,或者授權(quán)我站獨家播發(fā)的文章外,大家可以自由轉(zhuǎn)載我站點的原創(chuàng)文章,但原作者和來自我站的鏈接必須保留(非我站原創(chuàng)的,按照原來自一節(jié),自行鏈接)。文章版權(quán)歸我站和作者共有。

轉(zhuǎn)載要求:轉(zhuǎn)載之圖片、文件,鏈接請不要盜鏈到本站,且不準打上各自站點的水印,亦不能抹去我站點水印。

特別注意:本站所提供的攝影照片,插畫,設(shè)計作品,如需使用,請與原作者聯(lián)系,版權(quán)歸原作者所有,文章若有侵犯作者版權(quán),請與我們聯(lián)系,我們將立即刪除修改。

您的評論
用戶名:  口令:
說明:輸入正確的用戶名和密碼才能參與評論。如果您不是本站會員,你可以注冊 為本站會員。
注意:文章中的鏈接、內(nèi)容等需要修改的錯誤,請用報告錯誤,以利文檔及時修改。
不評分 1 2 3 4 5
注意:請不要在評論中含與內(nèi)容無關(guān)的廣告鏈接,違者封ID
請您注意:
·不良評論請用報告管理員,以利管理員及時刪除。
·尊重網(wǎng)上道德,遵守中華人民共和國的各項有關(guān)法律法規(guī)
·承擔一切因您的行為而直接或間接導致的民事或刑事法律責任
·本站評論管理人員有權(quán)保留或刪除其管轄評論中的任意內(nèi)容
·您在本站發(fā)表的作品,本站有權(quán)在網(wǎng)站內(nèi)轉(zhuǎn)載或引用
·參與本評論即表明您已經(jīng)閱讀并接受上述條款
推薦文檔 | 打印文檔 | 評論文檔 | 報告錯誤  
專業(yè)書推薦 更多內(nèi)容
網(wǎng)站可用性測試及優(yōu)化指南
《寫給大家看的色彩書1》
《跟我去香港》
眾妙之門—網(wǎng)站UI 設(shè)計之道
《Flex 4.0 RIA開發(fā)寶典》
《贏在設(shè)計》
犀利開發(fā)—jQuery內(nèi)核詳解與實踐
作品集 更多內(nèi)容

雜⑦雜⑧ Gold NORMANA V2