业务问题业务需求不断变化,以前编写的业务逻辑在下一个版本中可能会发生变化。 必须在数据库中添加或删除字段,但搜索也会发生这种情况。 即使您认为当前的索引设计很完美,在生产环境中也需要添加映射字段或更改字段类型。
如果需要数据迁移,可以直接在数据库中更改原始表设计语句。 但是,在Elasticsearch上没那么简单。 可以向索引中添加新类型或向类型中添加新字段,但不能添加新分析器或对现有字段进行修改。 这样,建立索引的数据就会不正确,搜索也将无法正常工作。 必须针对这个问题重新编制索引。
定义别名并重建索引的问题需要更新APP应用程序中的索引名称。 索引别名用于解决此问题
假设学生有原始索引student_index_v1。 使用其他名称student_index,在程序中使用别名student_index进行搜索。 当业务需求发生变化而需要更改索引时,重新创建索引student_index_vindex。将别名student_index指定为新索引student_index_v2 同时,可以通过将student_index_v1中的数据迁移到新的student_index_v2,使停机时间为零,从旧索引切换到新索引。
索引别名类似于快捷方式或软连接,可以指向一个或多个索引,也可以用于需要索引名称的任何API。 此外,别名不能与索引同名。
别名给我们带来了极大的灵活性,我们可以:
您可以从正在运行的群集中的一个索引无缝切换到另一个索引。 对多个索引进行分组。 在索引的子集上创建视图。 别名管理别名也可以映射到一个索引或多个索引。 别名也可以与过滤器相关联。 在查找和路由值时会自动应用筛选器,且别名不能与索引同名。
Elasticsearch提供了两种管理别名的方法。 对一个操作使用_alias,对多个原子级别的操作使用_aliases。
单个索引别名
post/_ aliases { ' actions ' : [ { ' add ' : ' index ' : ' test1 ',' alias':'alias1'}}3358
post/_ aliases { ' actions ' : [ { ' remove ' : { ' index ' : ' test1 ',' alias':'alias1'}}:
post/_ aliases { ' actions ' : [ { ' remove ' : { ' index ' : ' test1 ',' alias' : 'alias1' } },{ '。
删除别名
post/_ aliases { ' actions ' : [ {'add} ' : { ' index ' : ' test1 ',' alias' : 'alias1' } }、{ ' add '
post/_ aliases { ' actions ' : [ { ' add ' : } ' indices ' : [ ' test1 ',' test2'],' alias'3360'aliaaas]
post/_ aliases { ' actions ' : [ { ' add ' : { ' index ' : ' test * ',' alias':'all_test_indicest]
过滤器别名使您可以轻松地为同一索引创建不同的“视图”。 筛选器可以使用Query DSL定义,并应用于所有搜索、统计信息和通过查询删除等类似行为。
要创建已过滤的别名,必须首先确保映射的字段已存在于映射中。
put/test1 { ' mappings ' : { ' _ doc ' : { ' properties ' : } ' user ' : { ' type ' 3360 ' keyword } }
别名。 POST /_aliases{ "actions" : [ { "add" : { "index" : "test1", "alias" : "alias2", "filter" : { "term" : { "user" : "kimchy" } } } } ]}成功则返回
{"acknowledged":true}这样设置之后,我们通过 test1 这个 index 直接进行搜索可以看到索引的全部文档,但是通过 alias2 这个别名就只能看到符合过滤器过滤后的结果了,即只有一个 user 为 “kimchy” 的结果。
Routing
可以将路由值与别名关联。这个特性可以与过滤别名一起使用,以避免不必要的碎片操作。
何为路由?
所有的文档 API( get 、 index 、 delete 、 bulk 、 update 以及 mget )都接受一个叫做 routing 的路由参数 ,通过这个参数我们可以自定义文档到分片的映射。一个自定义的路由参数可以用来确保所有相关的文档—例如所有属于同一个用户的文档都被存储到同一个分片中。
以下命令创建一个指向索引 test 的新别名 alias1。创建 alias1 后,所有具有此别名的操作将自动修改为使用值 1 进行路由:
POST /_aliases{ "actions" : [ { "add" : { "index" : "test", "alias" : "alias1", "routing" : "1" } } ]}还可以为搜索和索引操作指定不同的路由值
POST /_aliases{ "actions" : [ { "add" : { "index" : "test", "alias" : "alias2", "search_routing" : "1,2", "index_routing" : "2" } } ]}如上例所示,搜索路由(search_routing)可能包含几个用逗号分隔的多个值,但是 索引路由(index_routing)就只能包含一个值。
如果使用路由别名的搜索操作也有路由参数,则使用搜索别名路由和参数中指定的路由的交集。例如,下面的命令将使用“2”作为路由值。因为搜索操作中有路由参数2,3,而搜索路由设置的是1,2,所以取交集即为2。
GET /alias2/_search?q=user:kimchy&routing=2,3 别名示例仍然以上面学生的例子, student_index 是一个指向当前真实索引的别名。真实索引包含一个版本号: student_index_v1 , student_index_v2 等等。
首先,创建索引 student_index_v1 ,然后将别名 student_index 指向它:
PUT /student_index_v1 // 创建索引 student_index_v1 。PUT /student_index_v1/_alias/student_index //设置别名 student_index 指向 student_index_v1 。你可以检测这个别名指向哪一个索引:
GET /*/_alias/student_index或哪些别名指向这个索引:
GET /student_index_v1/_alias/*两者都会返回下面的结果:
{ "student_index_v1" : { "aliases" : { "student_index" : { } } }}然后,我们决定修改索引中一个字段的映射。当然,我们不能修改现存的映射,所以我们必须重新索引数据。 首先, 我们用新映射创建索引 student_index_v2 :
PUT /student_index_v2{ "mappings": { "my_type": { "properties": { "tags": { "type": "string", "index": "not_analyzed" } } } }}然后我们将数据从 student_index_v1 索引到 student_index_v2 ,下面的过程在重新索引你的数据 中已经描述过。一旦我们确定文档已经被正确地重索引了,我们就将别名指向新的索引。
一个别名可以指向多个索引,所以我们在添加别名到新索引的同时必须从旧的索引中删除它。这个操作需要原子化,这意味着我们需要使用 _aliases 操作:
POST /_aliases{ "actions": [ { "remove": { "index": "student_index_v1", "alias": "student_index" }}, { "add": { "index": "student_index_v2", "alias": "student_index" }} ]}经过以上几步操作,你的应用就成功在零停机的情况下从旧索引迁移到新索引了。其实别名还有更多管理的语法。
文档迁移对于新旧索引的文档数据迁移,字段 _source 的一个优点是在Elasticsearch中已经有整个文档。你不必从源数据中重建索引,而且那样通常比较慢。
为了有效的重新索引所有在旧的索引中的文档,用 scroll 从旧的索引检索批量文档 , 然后用 bulk API 把文档推送到新的索引中。
对现有数据的这类改变最简单的办法就是重新索引:用新的setting创建新的索引并把文档从旧的索引复制到新的索引。
总结在你的应用中最好的方式是使用别名而不是索引名。这样你就可以在任何时候重建索引。别名的开销很小,应该广泛使用。本文主要整理自官方文档。
参考干货 | Elasticsearch Reindex性能提升10倍+实战