微服务高效运维,从性能保障谈起(二)

三、性能测试实施策略

1  关键度量指标

  1. 制定测试目标,要求测试指标结果达到用户预期目标。

  2. 指标数据一般包括并发用户数、Response Time、TPS、通过率等。

  3. 系统的吞吐量要和响应时间关联(SLA),如至少90%以上的请求在正常合理响应时间内。

2  全链路调优测试策略

性能是一个逐步提升的过程,测试过程中需要找到扩容的模型,从不足50的TPS提升至万级

3  测试报告分析解读

如何从测试工具侧快速分析被测对象可能存在的问题

  • 存在部分响应超时:

  1. 服务器繁忙,如某个服务节点CPU利用率高

  2. 网络IO超过VM/EIP带宽

  3. 等待后端微服务、数据库的超时时间设置过长

  • 运行一段时间后全部响应超时或者检查点校验不通过:

  1. 大压力导致系统中某个微服务奔溃

  2. 后端数据库无响应

  • TPS未随着并发数增长而上升:

  1. 系统性能到达瓶颈,持续并发加压过程中响应时延增加(可观察响应区间统计)

  2. 可通过进一步加压是否会出现非正常响应验证

  • TP90响应时延较短,TP99时延高:
  • 系统性能接近瓶颈
  • 可通过进一步加压是否会出现非正常响应验证

 

 

4  一些常见的性能优化手段

  1. 扩容,链路中的某一应用可能出现cpu使用率较高或者连接池资源不够用(rpc、jdbc、redis连接池等)但本身对于拿到连接的请求处理又很快,这一类需要横向扩展资源。

  2. 应用逻辑优化,比如存在慢sql、 逻辑的不合理如调用db或者redis次数过多、没有做读写分离造成写库压力过大。

  3. 超时时间的合理设置,对于应用之间的rpc调用或者应用与其他基础组件之间的调用,均需要设置合理的超时时间,否则过长的等待将造成整个链路的故障。

  4. 缓存的应用,请求尽可能从前端返回,而不是每一个都要让后端应用处理后再返回,减轻后端应用及数据库压力,提高系统吞吐能力。

  5. 限流,对于超出承载能力的QPS或并发,可以进行拦截并直接返回提示页面。

  6. 降级,对于非核心链路上的应用,允许故障关闭而不影响核心链路

  7. 扩容和优化也是有限度的,在评估容量内,保障核心交易链路正常是重中之重,对于非核心功能模块考虑降级场景

5  面对复杂网络架构如何做性能测试

一个典型的互联网平台:突发事件高流量突发,如瞬间由百级用户增长到万级

对于网络架构复杂的应用,可以拆分压力的入口点,进行分段验证,屏蔽对应网元带来的性能影响,如分别从最外端的CDN入口(1)、中间的ELB(2)、业务层(3)分别做测试,验证复杂网络架构情况下,各网元的瓶颈和影响

6 应用内部的性能瓶颈如何提升定位效率?

6.1 资源、应用、业务一站式监控与分析

立体运维全景图

6.2 应用拓扑与异常展示、故障下钻

  • 应用发现与依赖关系:非侵入采集应用KPI数据,并通过服务间接口自动生成依赖关系,展现应用拓扑。

  • 应用KPI汇聚:微服务实例汇聚到应用(数字表示XX个实例),KPI数据自动汇聚到应用。

  • 调用链跟踪:下钻获取应用调用链,定位到具体出错方法

 

华为云性能测试服务CPTS:

是一项为HTTP/HTTPS/TCP等协议构建的云应用提供性能测试的服务。服务支持快速模拟大规模并发用户,通过支持报文内容和时序自定义、多事务组合实现复杂场景测试



留言