龙芯开源社区

 找回密码
 注册新用户(newuser)
查看: 4658|回复: 7

用龙芯做一个自己的搜索服务器(基于sphinx和 nutch,尚未完成)

[复制链接]
发表于 2010-2-1 01:26:19 | 显示全部楼层 |阅读模式
安装了debian5或6(没留意,好像是debian5)
参照 sphinx安装了 sphinxSE, MySQL等
然后先安装了sphinx(实际上可以不安装这个,因为有更好的等着我们)
删除了 indexer  , search, searchd 等的软连接后( ln -s 做出来的连接符号)

重新安装 mmseg 和 csft ( coreseek 中文全文检索系统)
通过配置 csft.conf(sphinx.conf) 来实现需要索引和检索的数据表,并配置增量索引功能。

调试完成了对数据库已有数据的索引和检索服务。
通过对 mmseg的配置,使用分词字典更好的支持中文全文检索。

上述内容已经实现并用于我网站2.0版本的全文检索服务。


下一步目标

实现 nutch 搜索引擎系统的蜘蛛等部分的使用,通过 nutch或类似产品进行爬行抓取并存入数据库,由 sphinx提供索引和全文检索。
整理后作为一个单独的搜索服务器产品出现。



目前的检索效率
约800万条数据,索引后检索时耗费 0.0x 到 0.00x级别。效率很高,实际效果也很好。


环境:

Debian5 或 Debian6?
龙芯2F cpu
1G内存
逸龙笔记本9寸

php运行在 FastCGI 和 nginx 服务器提供服务。

[ 本帖最后由 amsea 于 2010-2-5 01:05 编辑 ]
 楼主| 发表于 2010-2-5 01:04:22 | 显示全部楼层
看来大家对 这个项目并不感兴趣嘛。嘿嘿。
发表于 2010-2-5 17:06:40 | 显示全部楼层

问一下

linux上有没有类似图书馆书目检索的软件,比如我有很多电子书,论文,想对外提供下载,用书名搜索,然后下载。有没有现成的软件?
 楼主| 发表于 2010-2-14 11:01:03 | 显示全部楼层
原帖由 linuxfans 于 2010-2-5 17:06 发表
linux上有没有类似图书馆书目检索的软件,比如我有很多电子书,论文,想对外提供下载,用书名搜索,然后下载。有没有现成的软件?


看你的资料格式了。
如果是 exe 或 什么之类的,不一定能全面支持。
对 doc和pdf 还有 其他一些的支持还是不错的。

这类工作 谷歌的 book 搜索已经在做了,你可以试试看你的书在谷歌book搜索里是否存在。
 楼主| 发表于 2010-3-3 16:15:41 | 显示全部楼层
有合作的吗。
做个产品出来,龙芯搜索服务器。。

目标是 谷歌的企业搜索服务器。。
发表于 2010-4-3 21:16:31 | 显示全部楼层
我感兴趣,但了解不多啊,蜘蛛爬行的时候是不是要把整个页面数据都保存在数据库里啊,这样的话数据量是不是有点多了
发表于 2010-4-4 08:38:08 | 显示全部楼层
关键词吧
发表于 2010-4-4 10:18:36 | 显示全部楼层
我也想买个龙芯来玩
但是感觉2f有点慢
所以一直等龙芯3
我反正很少必须用windows的
所以就现在一个上网本就一直用下去了
不准备再买intel了

继续等龙芯3

本版积分规则

Archiver|手机版|小黑屋|Lemote Inc.

GMT+8, 2021-1-26 08:06 , Processed in 0.141128 second(s), 15 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表