post_img

es强制段合并实验

摘要

ES强制段合并实验 1. 问题 由于集群的磁盘空间限制,我们删除了超过10亿的数据,但是发现删除后,磁盘的可使用空间并有快速上升。原因在于es的删除文档并不是物理删除,只是标记为"删除状态"。当发生merge时,才会物理意义上的删除。 一个索引如果deleted状态的索引过多,会 …

post_img

es解决分片恢复失败问题

摘要

ES解决恢复分片失败的问题 1. 问题描述 当集群某台节点离线后,又加入集群时,因为分片恢复问题,会遇到如下问题: xxxxxxxxxx 2 1 obtaining shard lock timed out after 5000ms, previous lock details: [shard cr …

post_img

es第三方监控方案

摘要

es第三方监控方案 0. 前言 本文采用elasticsearch_exporter作为收集器,Prometheus作为分析器,grafana作为展示面板,从而对ES集群的所有节点进行写入、读取、CPU、JVM等等指标监控。为了保证监控程序的健壮性,本文采用了systemctl进行失败自动重启和开机 …

post_img

es jvm堆占用剖析

摘要

es jvm堆占用剖析 JVM主要由以下部分造成: segment memory filter query cache shard request cache field data cache indexing buffer 超大搜索聚合结果集的fetch 对高cardinality字段做terms …

post_img

一次logstash性能排查记录

摘要

一次logstash性能排查记录 1. 前言 数据架构最开始是filebeat直接入ES,但是由于后面扩充了filebeat节点数量,这就导致了2个问题,第一个是如果遇到解析方面的修改,那么需要修改多个filebeat,很麻烦;第二个是多个filebeat入库,时常导致ES集群崩溃。鉴于这两个原因, …

post_img

如何使用supervisor监控es

摘要

如何使用supervisor监控es 0x00 前言 最近碰到ES集群因JVM崩溃而宕机次数过多,为了能第一时间快速恢复和得到通知,所以打算搭建一个异常重启和告警的运维工具。首先,调研了三个程序:systemd、monit、supervisor,其中systemd是Centos7系统自带的,稳定性很 …