HCI6.3.0 R1 版本主打功能:内存 ECC 隔离、MySQL 性能优化、HDD 卡慢盘处 理、隔离只读硬盘、硬件品质控制、进程异常检测等。
HCI6.3.0R1 新功能详细介绍如下:
一. 内存 ECC 隔离
【应用场景】
日常业务运行和 IT 运维场景:内存 ECC 是目前硬件问题中最常出现的问题之一,且会直接影响业务。业务和平台进程运行在内存 ECC CE 错误空间有可能造成业务卡慢,业务和平台进程如遇到内存 ECC UE 错误时,会直接宕机。
【核心价值】
2020 年内存问题约占 HCI 硬件数量的 30%,而内存问题中的 ECC 问题占整体的
59%,解决内存 ECC 问题能够极大提高业务的可靠性。
【功能特性】
内存 ECC CE 隔离:当业务或平台进程运行在内存 UCC CE 错误的内存空间上时,内核会受到内存上报的 ECC CE 报错信息;内存隔离机制将会尝试隔离该内存空间,避免后续业务或者平台进程再次使用该内存空间。
内存 ECC UE 隔离:当业务或平台进程运行在内存 UCC UE 错误的内存空间上时,该物理节点会宕机,重启后内核会受到内存上报的 ECC UE 报错信息;内存隔离机 制将会尝试隔离该内存空间,避免后续业务或者平台进程再次使用该内存空间。
二. MySQL 性能优化
【应用场景】
客户在 HCI 集群上承载 MySQL 数据库。
【核心价值】
优化 MySQL 性能,提升用户使用体验。
【功能特性】
MySQL 会出现小于 4KB 块大小的 IO,对于小于 4KB 块大小的写操作,虚拟存储的性能下降严重。本版本优化了小于 4KB 块大小的写性能,以提升 MySQL 性能。
三. HDD 卡慢盘处理
【应用场景】
硬盘尤其是 HDD 硬盘使用久了,易出现硬盘卡顿、变慢的问题,当硬盘变成卡慢 盘后,落在该硬盘的 IO 就会卡住或者变慢,从而导致客户业务卡住或者变慢。 硬盘出现卡慢盘,导致影响客户业务的问题,成为了过去一年影响客户业务的最主 要原因之一。
【核心价值】
识别并隔离卡慢盘,避免因为 HDD 变成卡慢盘导致客户业务中断。
【功能特性】
卡盘识别:IO 在 3 秒以上时间还不返回,则认为该 IO 已卡住,如果 13 秒内有 10 秒的 IO 都被卡住了,则认为该盘为卡盘。
慢盘识别:慢盘的识别需要 1-5 分钟,根据 IO 的延时判断硬盘是否慢盘。 卡盘的处理:识别出卡盘后,软件会将卡盘进行隔离处理。但是 2 主机场景,不支 持自动隔离。
慢盘的处理:慢盘分为 2 个级别:
1.延时在 125 毫秒以上的 HDD 硬盘,为严重慢盘(每秒只剩下 8 个 IO),软件会
自动隔离。但 2 主机场景,不做自动隔离。
2.延时在 25 毫秒以上,125 毫秒以下,为轻微慢盘(比正常盘稍慢一点),软件不
做自动隔离,只在界面告警。
手动隔离硬盘:2 主机场景,软件不自动隔离卡慢盘,轻微慢盘也不会自动隔离。
如果客户业务已经受到影响,用户经过判断是卡慢盘导致,可以从页面手动点击”
隔离硬盘“按钮对硬盘进行隔离。
四. 隔离只读硬盘
【应用场景】
使用过程中,因为硬盘亚健康导致硬盘分区挂载成只读。
【核心价值】
隔离只读硬盘,避免造成客户业务中断。
【功能特性】
硬盘异常造成只读,虚拟存储会尝试重新挂载,如果 24 小时内出现 3 次或以上只
读,就隔离该硬盘并重建该硬盘的数据。
五. 硬件品质控制
【应用场景】
新建场景、扩容场景、替换硬盘或主机场景。如果有问题的硬件或者品质不高的硬 件加入到虚拟存储卷,就会给虚拟存储埋下隐患,在后续使用中可能因为硬件问题 导致数据丢失、影响业务等严重问题。
【核心价值】
控制加入虚拟存储的硬盘品质,提升虚拟存储的可靠性。
【功能特性】
在加入虚拟存储的环节,检测硬盘以下几个维度,不符合要求的硬件不允许加入,
确保硬件品质达标:
1.HDD 硬盘的转速:不允许使用低于 7200 转的 HDD 硬盘。
2.SSD 硬盘的接口速率:不允许使用接口速率低于 3Gbps 的 SSD 硬盘。
3.硬盘测速:
3.1.HDD 硬盘:速率低于 80MB/s 告警;速率低于 50MB/s 不允许加入。
3.2.SSD 数据盘(全闪):IOPS 低于 3 万告警;IOPS 低于 1 万不允许加入。
3.3.SSD 缓存盘:IOPS 低于 5 万告警; IOPS 低于 3 万不允许加入。
4.SSD 固件黑名单:aSAN 将有问题的固件版本,加入到 SSD 固件黑名单中。如果检测到 SSD 的固件版本在黑名单中,必须要联系供应商升级固件。
5.Raid 卡固件黑名单:aSAN 将有问题的 raid 卡固件,加入到 raid 卡固件黑名单中,如果检测到黑名单的固件版本,必须要联系供应商升级固件。
6.Raid 卡黑名单:aSAN 将对于已知有问题的 Raid 卡,加入到 raid 卡黑名单中。加入黑名单的 raid 卡不允许使用,必须更换 raid 卡。
六. 进程异常检测
【应用场景】
虚拟存储数据面的关键进程在使用中出现异常,如 D 状态、死锁、CPU 死循环。
【核心价值】
识别虚拟存储的异常进程,并恢复进程运行,避免造成客户业务中断。
【功能特性】
对数据面进程增加了兜底机制,如果发现进程无响应,则中止进程并重启:
1.对下面几种数据面进程不响应状态进行检测:进程 D 状态、进程死锁、CPU 死循环。出现问题后,15 秒内可恢复进程的正常运行,包括:检测、中止异常进程和重新拉起新的进程,不包括进程启动后加载硬盘数据的时间。
2.虚拟存储产品一直按照公司质量标准(A 级)执行,通过严重的质量标准,确保 虚拟存储产品的可靠性,其中就包括:进程的稳定运行。“进程异常检测”机制是 一个额外的兜底机制,出现这类问题可以通过此机制恢复。
北京市海淀区远大路一号B区写字楼
010-88864628
微信公众号