博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
10_ElasticSearch dis_max实现best fields策略进行多字段搜索
阅读量:3727 次
发布时间:2019-05-22

本文共 2938 字,大约阅读时间需要 9 分钟。

10_ElasticSearch dis_max实现best fields策略进行多字段搜索

更多干货

概述

best fields策略 概念

  • 基于多个 field 查询如 title(标题) content 内容.
  • 搜索title或content中包含java或solution的帖子
  • 期望:如果title中包含了java和solution 。或者 content 中保护 java和solution 这样的doc 优先排在前面。
  • best fields策略,就是说,搜索到的结果,应该是某一个field中匹配到了尽可能多的关键词,被排在前面;而不是尽可能多的field匹配到了少数的关键词,排在了前面。

例子

1、title 字段

POST /forum/article/_bulk{ "update": { "_id": "1"} }{ "doc" : {
"title" : "this is java and elasticsearch blog"} }{ "update": { "_id": "2"} }{ "doc" : {
"title" : "this is java blog"} }{ "update": { "_id": "3"} }{ "doc" : {
"title" : "this is elasticsearch blog"} }{ "update": { "_id": "4"} }{ "doc" : {
"title" : "this is java, elasticsearch, hadoop blog"} }{ "update": { "_id": "5"} }{ "doc" : {
"title" : "this is spark blog"} }

2、为帖子数据增加content字段

POST /forum/article/_bulk{ "update": { "_id": "1"} }{ "doc" : {
"content" : "i like to write best elasticsearch article"} }{ "update": { "_id": "2"} }{ "doc" : {
"content" : "i think java is the best programming language"} }{ "update": { "_id": "3"} }{ "doc" : {
"content" : "i am only an elasticsearch beginner"} }{ "update": { "_id": "4"} }{ "doc" : {
"content" : "elasticsearch and hadoop are all very good solution, i am a beginner"} }{ "update": { "_id": "5"} }{ "doc" : {
"content" : "spark is best big data solution based on scala ,an programming language similar to java"} }

3、搜索title或content中包含java或solution的帖子

下面这个就是multi-field搜索,多字段搜索

GET /forum/article/_search{    "query": {        "bool": {            "should": [                { "match": { "title": "java solution" }},                { "match": { "content":  "java solution" }}            ]        }    }}

4、结果分析

  • 期望的是doc5,结果是doc2, doc4排在了前面 (doc 5 中 content字段 中保护了 java 和 solution)
  • 计算每个document的relevance score:每个query的分数,乘以matched query数量,除以总query数量

算一下doc4的分数

{ "match": { "title": "java solution" }},针对doc4,是有一个分数的{ "match": { "content":  "java solution" }},针对doc4,也是有一个分数的所以是两个分数加起来,比如说,1.1 + 1.2 = 2.3matched query数量 = 2总query数量 = 22.3 * 2 / 2 = 2.3

算一下doc5的分数

{ "match": { "title": "java solution" }},针对doc5,是没有分数的{ "match": { "content":  "java solution" }},针对doc5,是有一个分数的所以说,只有一个query是有分数的,比如2.3matched query数量 = 1总query数量 = 22.3 * 1 / 2 = 1.15doc5的分数 = 1.15 < doc4的分数 = 2.3

5、best fields策略,dis_max

  • best fields策略,就是说,搜索到的结果,应该是某一个field中匹配到了尽可能多的关键词,被排在前面;而不是尽可能多的field匹配到了少数的关键词,排在了前面
  • dis_max语法,直接取多个query中,分数最高的那一个query的分数即可
{ "match": { "title": "java solution" }},针对doc4,是有一个分数的,1.1{ "match": { "content":  "java solution" }},针对doc4,也是有一个分数的,1.2取最大分数,1.2
{ "match": { "title": "java solution" }},针对doc5,是没有分数的{ "match": { "content":  "java solution" }},针对doc5,是有一个分数的,2.3取最大分数,2.3

然后doc4的分数 = 1.2 < doc5的分数 = 2.3,所以doc5就可以排在更前面的地方,符合我们的需要

GET /forum/article/_search{    "query": {        "dis_max": {            "queries": [                { "match": { "title": "java solution" }},                { "match": { "content":  "java solution" }}            ]        }    }}

相关文章

转载地址:http://beonn.baihongyu.com/

你可能感兴趣的文章
基础概念1
查看>>
Billboard HDU - 2795(树状数组,单点修改,区间查询)
查看>>
centos7搭建easy-mock服务
查看>>
数据结构系统学习(1)数据类型和数据结构的概念
查看>>
关于git pull机制和游戏开发热更新思考
查看>>
程序员如何跨过自我推销的难关?
查看>>
nginx基础
查看>>
我用C++复刻了这款上世纪最伟大的游戏
查看>>
网络协议笔记
查看>>
Django---启动admin的报no such table: auth_user错误
查看>>
不相交集类及其应用生成迷宫
查看>>
使用kali(外网)生成木马入侵安卓手机
查看>>
Windows10 环境下Jupyter Notebook的安装与使用
查看>>
二叉树的下一个结点
查看>>
Kubernetes(十七) 基于NFS的动态存储申请
查看>>
qt creator源码全方面分析(3-1)
查看>>
概率统计21——指数分布和无记忆性
查看>>
求1+2+3+...+n
查看>>
和为S的连续正数序列
查看>>
Python心得--新手开发注意
查看>>