大数据 – 消失的夜丶

发布于 2023-02-01

4471 热度无~ 大数据5429 字

es强制段合并实验

摘要

ES强制段合并实验 1. 问题由于集群的磁盘空间限制，我们删除了超过10亿的数据，但是发现删除后，磁盘的可使用空间并有快速上升。原因在于es的删除文档并不是物理删除，只是标记为"删除状态"。当发生merge时，才会物理意义上的删除。一个索引如果deleted状态的索引过多，会 …

发布于 2023-02-01

3838 热度无~ 大数据4186 字

es解决分片恢复失败问题

摘要

ES解决恢复分片失败的问题 1. 问题描述当集群某台节点离线后，又加入集群时，因为分片恢复问题，会遇到如下问题： xxxxxxxxxx 2 1 obtaining shard lock timed out after 5000ms, previous lock details: [shard cr …

发布于 2023-02-01

3918 热度无~ 大数据4856 字

es第三方监控方案

摘要

es第三方监控方案 0. 前言本文采用elasticsearch_exporter作为收集器，Prometheus作为分析器，grafana作为展示面板，从而对ES集群的所有节点进行写入、读取、CPU、JVM等等指标监控。为了保证监控程序的健壮性，本文采用了systemctl进行失败自动重启和开机 …

发布于 2023-02-01

3745 热度无~ 大数据5594 字

es jvm堆占用剖析

摘要

es jvm堆占用剖析 JVM主要由以下部分造成： segment memory filter query cache shard request cache field data cache indexing buffer 超大搜索聚合结果集的fetch 对高cardinality字段做terms …

发布于 2023-02-01

4568 热度无~ 大数据8353 字

一次logstash性能排查记录

摘要

一次logstash性能排查记录 1. 前言数据架构最开始是filebeat直接入ES，但是由于后面扩充了filebeat节点数量，这就导致了2个问题，第一个是如果遇到解析方面的修改，那么需要修改多个filebeat，很麻烦；第二个是多个filebeat入库，时常导致ES集群崩溃。鉴于这两个原因， …

发布于 2023-02-01

3637 热度无~ 大数据6917 字

如何使用supervisor监控es

摘要

如何使用supervisor监控es 0x00 前言最近碰到ES集群因JVM崩溃而宕机次数过多，为了能第一时间快速恢复和得到通知，所以打算搭建一个异常重启和告警的运维工具。首先，调研了三个程序：systemd、monit、supervisor，其中systemd是Centos7系统自带的，稳定性很 …