百词斩怎么看词汇量变化,python 敏感词检测

在上面介绍的centos7上安装elk后，安装logstash-6.6.0并同步mysql数据。详细的安装说明安装了logstash-6.6.0，并成功同步了mysql数据。

有数据的话，接下来就是转数据。作为初学者，因为不懂各种各样的语言，所以寻找调查方法，在kibana上调查同步的mysql的数据。

图：

get /details/_search？ _source=id，title，readsum { ' query ' : { ' match _ all ' : { } }我想在此语句中检查此索引下的所有数据。老手不要笑我哦！）

向右看，这里显示了137条记录，但滚动条老实说，显然没这么多啊

于是，我怀疑logstash同步数据是不是错了。

在那里数了一下，输出的数据正好是10条，我想那个一定可以在某个地方限制。他默认输出10瓶。

百度，询问想要多少瓶，必须制定size，很不好意思

修改查询语句

get /details/_search？ _source=id，title，readsum { ' query ' : { ' match _ all ' : { }，' size':100}这样就没问题了

为了便于以后使用elasticsearch，在此记录常用的词语

#索引put/lib { ' settings ' : { ' index ' : { ' number _ of _ shards ' :5、' number _ of _ replicas ' 3333655 可以缩短为查询所有数据的get _ search { ' query ' : { ' match _ all ' 3360 { } }的所有索引的配置get /_all/_settings #附加关键点指定' age':18，' hobbit ' : ' id post/lib/user { ' name ' : '奋斗的多维数据集'， ' age':16、' hobbit': '睡眠' } #修改文档post/lib/user/1/_ update { ' doc ' :19 } #删除索引delete (大小) get /xinxiera/details/_search？ _source=id，title { ' query ' : { ' match _ all ' : { }，' size':500}#在浏览器中简称为/xinxiera/_search

get/_ mget { ' docs ' : [ { ' _ index ' : ' lib '，' _type':'user '，' _id':1 }，{ ' _ index ' _id':3 } ]}#简化并指定字段get/lib/user/_ mget { ' doc cet } { ' _ id ' :2 }，{ '_id':2 }

# post/lib2/books/_ bulk { ' index ' : { ' _ id ' :1 } } { ' title ' : ' Java '，' price':55}

#批量操作(添加/删除) post/lib2/books/_bulk(delete ) : ) ) _ index (: ) lib2)、) _ type (3360 ) books、) tte ' _ id ' : ' 100 ' } { ' name ' : ' Lisi ' } { ' index ' : ' TTT } ' _ type ' : ' TTT '

手动创建#m

appingput /lib6{ "settings":{ "number_of_shards":3, "number_of_replicas":0 }, "mappings":{ "books":{ "properties":{ "title":{"type":"text"}, "name":{"type":"text","analyzer":"standard"}, "publish_date":{"type":"date","index":false}, "price":{"type":"double"}, "number":{"type":"integer"} } } }}

搜索数据

#查找name是lisi的get /lib3/user/_search?q=name:lisi

获取名字是zhaoliu的(完全匹配)get /lib3/user/_search{ "query":{ "term": {"name":"zhaoliu"} }} #获取兴趣中含有唱歌的，并按照年龄降序排序get /lib3/user/_search?q=interests:changge&sort=age:desc term忽略分词器查找#只要含有一个关键词则会被匹配get /lib3/user/_search{ "query":{ "terms": { "interests": ["hejiu","changge"] } }}#from从哪开始,size取几个get /lib3/user/_search{ "from":0, "size":2, "query":{ "terms": { "interests": ["hejiu","changge"] } }}#查看版本号get /lib3/user/_search{ "version":true, "from":0, "size":2, "query":{ "terms": { "interests": ["hejiu","changge"] } }} #match 分词查找get /lib3/user/_search{ "query":{ "match": { "name": "zhaoliu zhaoming" } }} #multi_match指定多个字段查找get /lib3/user/_search{ "query":{ "multi_match": { "query": "changge", "fields": ["interests","name"] } }} #短语匹配，匹配含有此短语的get /lib3/user/_search{ "query":{ "match_phrase": { "interests":"duanlian,changge" } }}#控制返回的字段(可以使用通配符)get /lib3/user/_search{ "_source":["address","name"], "query":{ "match_phrase": { "interests":"duanlian,changge" } }}#包含什么字段，排除什么字段get /lib3/user/_search{ "_source":{ "includes":["name"], "excludes":["age"] }, "query":{ "match_phrase": { "interests":"duanlian,changge" } }}#按年龄升序get /lib3/user/_search{ "_source":{ "includes":["name"], "excludes":["age"] }, "query":{ "match_phrase": { "interests":"duanlian,changge" } }, "sort":[{ "age":{ "order":"asc" } }]}#前缀匹配get /lib3/user/_search{ "query":{ "match_phrase_prefix": { "name": { "query":"zhao" } } }} #范围匹配get /lib3/user/_search{ "query":{ "range":{ "birthday": { "from": "1990-10-10", "to": "2018-05-01" } } }}#from包含，to不包含get /lib3/user/_search{ "query":{ "range":{ "birthday": { "from": "1990-10-10", "to": "2018-05-01", "include_lower":true, "include_upper":false } } }} #通配符查询get /lib3/user/_search{ "query":{ "wildcard": { "name":"zhao*" } }}get /lib3/user/_search{ "query":{ "wildcard": { "name":"li?i" } }} #模糊查询get /lib3/user/_search{ "query":{ "fuzzy": { "name": "zholiu" } }} #搜索内容高亮显示get /lib3/user/_search{ "query":{ "match": { "interests": "changge" } }, "highlight":{ "fields":{ "interests":{} } }}

中文分词相关

前提是需要在elasticsearch中安装中文分词器，觉得有必要的朋友可以评论一下，然后我在加上文章

#创建索引，配置mapping，注意选择中文分词器put /lib4{ "settings":{ "number_of_shards":3, "number_of_replicas":0 }, "mappings":{ "user":{ "properties":{ "name":{"type":"text","analyzer":"ik_max_word"}, "address":{"type":"text","analyzer":"ik_max_word"}, "age":{"type":"integer"}, "interests":{"type":"text","analyzer":"ik_max_word"}, "birthday":{"type":"date"} } } }}

其他的都和上面英文的一样了,暂且写这些吧，聚合查询，符合查询，等用上了在总结