日志服务性能优化方案

1 案例背景

日志服务是新技术体系下核心服务的一部分，主要功能是收集组件日志，提供日志检索和日志分析功能。在项目测试和试点过程中，发现日志服务存在性能问题，主要体现在日志量大时，日志服务存储日志占用大量磁盘IO，导致整个系统变卡。另外按照日志服务的性能规格，能够存储最多1亿条日志数据，需要约300G硬盘空间。在联调环境和硬件受限的测试环境中，出现了多次日志数据占满硬盘的问题，阻塞了调试和测试。本方案记录了日志服务解决上述问题的思路和方法，

2 IO优化方案

为了控制日志服务的IO占用，进行了如下几项优化。

2.1 优化表结构

根据日志规范，一条系统日志分为日志时间（d_timestamp）、级别（c_level）、模块（c_module）、线程号（c_thread_no）、代码行（c_source）、错误码（c_error_code）和日志详情（c_message）几部分。原表结构将字段分别保存在对应字段中，并且为了实现日志的全文检索，将日志原文又存储在tsv_log字段中。

图1 原表结构

原表结构的好处是支持对日志字段进行精确检索和全文检索，副作用是日志的内容被存储了两份，入库时对IO消耗较大。

考虑到实际使用时的检索条件数量有限（图2），对原表进行了精简。精简后的表结构（图3）去除了线程号、代码行、日志详情三个字段，其中日志详情是系统日志内容最多的字段。根据测试，优化后的表结构存储相同数量的日志，存储空间减小30%。

图2 系统日志检索条件

图3 精简后的表结构

2.2 系统日志分区优化

为了实现按组件快速查询日志，对日志表进行了两级分区，第一级是组件分区，即每个组件产生一张日志表；第二级是时间分区，即每个组件每天产生一张日志表。

图4 日志两级分区

     对于日志量大的组件（每天百万条），按天分区可以加速查询效率，但对于日志量小的组件，按天分区的加速效果并不明显，并且过多分区将产生文件碎片，进一步降低入库性能。

     考虑到特定项目中，日志量大的组件是固定的几个，可以将分区策略做进一步优化。优化思路是针对日志量大的组件采用按天分区，对应其他组件只按组件分区即可。

2.3 入库性能削峰

为了提高入库效率，日志服务采用批量入库，每次提交500条日志。经过测试，单线程时，入库性能约为1000条/秒。在实际环境中进行测试，优化前的日志服务以最大性能进行写入日志时，系统会间歇性出现卡顿的情况，此时磁盘平均吞吐量达到 16.8M/s。

经过对业务场景的分析，发现组件日志打印越多，业务越是繁忙，在硬件资源有限的情况下，应优先保证业务组件的正常运行。也就是说，日志服务的入库性能应随着日志量的增加而减低。基于这个思路，对日志服务的性能进行了约束。

按照日志服务的性能规格，每天需支持1200万日志入库，平均每秒入库140条。在满足该性能指标的基础上，日志服务对性能做出限制，将入库性能约束为最大200条每秒。

对于业务高峰期，日志数量突然增长的情况，日志服务使用了缓存加采集等待的策略。当日志产生数超过了日志服务的消费能力，先采用队列缓存（默认20000条），队列满后，对于日志采集器新上报的日志，拒绝接收并返回等待时间。日志采集器收到等待时间后停止采集新日志，并不断重发已采的日志，直到服务端接收日志。该策略在一定程度上保证业务高峰期日志不丢失，并且限制入库性能后，也避免了写入日志对磁盘IO造成过大压力。

2.4 优化效果

在海豚项目环境中对优化效果进行了验证，方法先记录日志服务启动前的系统负载，再分别运行优化前和优化后的日志服务，并触发最大性能入库，记录此时的系统负载。从下图可以看出，优化后的日志服务在达到最大性能时，对系统的影响明显小于优化前。

	Disk Bytes/sec（平均吞吐量）	Disk Transfers/sec（平均每秒次读写次数）	%idle Time（平均空闲时间）
启动日志服务前	1M/S	43	68
日志服务启动（优化之前）	16.8M/S	125	56
日志服务启动（优化之后)	2.8M/S	62	56

3 硬盘保护方案

硬盘保护方案的思路是预先设定日志数据可用磁盘的最大值，当日志服务检测到超过阈值时，采取删历史表和停止入库新日志的方式保证不占用过多硬盘。

具体流程如下：

1、日志服务启动时，从配置文件（config.properties）中读取阈值A（默认值为300G，根据一亿条日志估算）；阈值A可在运管中心-系统维护-服务参数配置中配置，配置项在核心服务的WEB服务中，名称为“日志数据库最大占用空间”，单位为G

2、启动定时任务，每5分钟检查一次日志库（log_db）硬盘使用量（相关sql：select pg_database_size('log_db') as dbsize），当超过阈值时，启动日志清理，并记录操作日志，同时产生一条告警。

3、清理方案

a．一次性清理现存日志中最早一天的所有日志，删除日志后记录操作日志，操作动作为“清理日志”；

b．判断是否低于阈值，若没有，则再删除一天的日志，直到仅剩当天日志；若仍无法低于阈值，停止接收日志。采集器上报日志时，向其返还错误码，采集器停止采集新日志并定时重发，直到日志服务返回正常再进行采集；触发告警，告警类型为“日志服务停止工作”，原因是“日志数据达到最大值”。

c. 若清理后低于阈值，不再继续清理，定时检查直到再次高于阈值。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

日志服务性能优化方案.md

日志服务性能优化方案.md

Files

日志服务性能优化方案.md

Latest commit

History

日志服务性能优化方案.md

File metadata and controls