全文检索技术Lucene介绍赵利文的-

15 六月

星期一, 15 六月 2020 21:04 Last Updated on 星期一, 15 六月 2020 21:04 0 Comments

在真正介绍Lucene之前，需要简单了解一下全文检索技术。Lucene和全文检索技术的关系——前者是后者的工具，也就是说Lucene是实现全文检索的工具之一。除了Lucene之外，还会很多其它实现全文检索的技术。

搜索背景

    目前很多大型的网站，都离不开搜索。比如京东、天猫、淘宝等各大电商网站，美团、58同城等生活服务类平台，百度、google等搜索引擎更不用说。
     搜索数据的特点主要有几大方面：数据量庞大、要求速度快、要求搜索准确。而其中大数据的特点有4个V：Volume（大量）、Variety（多样）、Velocity（高速）、Value（价值）。
     随着互联网的发展，人们对搜索的质量、速度的要求在不断提升，直接推动了搜索技术的改良和升级。

传统搜索技术的瓶颈

文件系统检索

将文档、其它文本文件内容加载到内存进行关键字匹配，在数据量特别大时，显得力不从心。

数据库检索

对数据库的性能要求较高，虽然能够保证对大量数据的检索，但是检索速度无法保证。

全文检索技术

定义

百度百科对全文检索的定义：

全文数据库是全文检索系统的主要构成部分。所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息，而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能，而且所有全文数据库无一不是海量信息数据库。

我们从这个定义可以看出，全文检索是围绕全文数据库展开的。

检索系统架构

以百度搜索为例。
一个完整的检索系统，包含三大部分：
（1）数据采集：将分散的数据进行收集，比如网页、日志、各类文档。
（2）数据整理：将无序散乱的数据进行整理计算，变为结构化的数据，并将整理的结构化数据通过分词技术、索引算法建立索引数据库。
（3）检索系统：提供搜索服务，通过一系列其它web技术，对全文数据库的数据进行数据查询返回，供用户使用。

整体流程类似于下方的简化模型：
全文检索技术Lucene介绍赵利文的-
爬虫在互联网上抓取数据到文件系统，然后对文件系统中的数据进行整理，创建出索引，最后为上层Web应用提供数据来源。

Lucene介绍

什么是Lucene

Lucene目前非常流行。Lucene之所以好用，是因为它是一个工具包的概念。最初是由Doug Cutting开发的，在SourceForge的网站上提供下载。在2001年9月作为高质量的开源Java产品加入到Apache软件基金会的Jakarta家族中。随着每个版本的发布，这个项目得到明显的增强，也吸引了更多的用户和开发人员。
Lucene是全文检索技术的一个工具包，为全文索引技术的开发提供支持。换句话讲，Lucene是全文搜索技术，但是全文检索技术就不一定是Lucene。

Lucene的特点

（1）原生Java语言开发，所以天然具备跨平台的能力，对Java的整合也比较友好。
（2）全文检索数据库中，索引数据结构的占比不大于数据信息的20%。
（3）提供了丰富的检索功能：

词项查询
多域查询
布尔查询
范围查询
等等。

目前就介绍这么多，后面会在全文检索这个系列更新更多其它内容。

展开阅读全文

评论
x
海报

扫一扫，海报
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

Mof_Rehoboam

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

pdn的博客

12-13 全文检索技术Lucene介绍赵利文的- 320

#Lucene和Solar

Luceue#课程计划第一天：Lucene的基础知识1、案例分析：什么是全文检索，如何实现全文检索2、Lucene实现全文检索的流程a) 创建索引b) 查询索引3、配置开发环境4、创建索引库5、查询索引库6、分析器的分析过程a) 测试分析器的分词效果b) 第三方中文分析器7、索引库的维护a) 添加文档b) 删除文档c) 修改文档8、Lucene的高级查询Lucen……

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

全文检索技术Lucene介绍赵利文的-

搜索背景

传统搜索技术的瓶颈

文件系统检索

数据库检索

全文检索技术

定义

检索系统架构

Lucene介绍

什么是Lucene

Lucene的特点

#Lucene和Solar

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

全文检索技术Lucene介绍赵利文的-

搜索背景

传统搜索技术的瓶颈

文件系统检索

数据库检索

全文检索技术

定义

检索系统架构

Lucene介绍

什么是Lucene

Lucene的特点

#Lucene和Solar

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录