设计工具
存储

致力于通过左移方法彻底改变固态硬盘弹性

史蒂文·威尔斯| 2023年11月

美光一直致力于为数据中心制造世界级的固态硬盘. 到目前为止,我们已经向数据中心运送了数千万块ssd,并且正在使用我们的232层NAND技术增加新的ssd. 一个世界级的固态硬盘不仅包括能效和高性能, 还有设计弹性. 弹性意味着驱动器将在其数据中心拥有较长的使用寿命.

定义高弹性一直是OCP存储工作组与设备和主机制造商合作的一个主题. OCP存储工作组在三个主要版本的数据中心- nvme规范(在本文的其余部分我将其称为“OCP 固态硬盘规范”)中改进并增强了垂直集成的高弹性。. 垂直集成的弹性是一个概念,意味着主机和设备都承担了制作高弹性存储子系统的元素.

我们的愿景是在创造全船队高弹性所需的努力中“向左转移”. 减少调试和更换故障驱动器的时间,增加主动监视车队运行状况的时间,并提高在不丢失数据的情况下进行恢复的能力. 我们将讨论这个解决方案的多个元素,以及美光对下一步可能进一步增强的看法.

OCP存储弹性架构:一种左移的防止方法, 检测, 固态硬盘故障恢复和报告

ssd的弹性历史

在OCP规范的第一个版本之前, 美光致力于实现无缝内在恢复和自退火. 这些措施包括淘汰坏块等, 实现内部异或解决方案,我们称之为独立NAND冗余阵列(RAIN), 并在SATA或PCIe总线上提供CRC检测和重传. 我们向SMART提供了有关此类事件的信息. 我们努力收集和监控这些SMART数据,不仅可以帮助监控整个车队的健康状况,识别潜在的异常值,还可以改进我们未来的解决方案.

OCP存储的弹性历史

垂直集成解决方案的第一个努力, 这意味着主机和设备都承担了制作高弹性存储子系统的元素, Microsoft支持增强弹性,并在OCP规范V1中首次贡献,其中引入了错误恢复(logpage C1h)的概念. 这允许设备通知主机内部恐慌情况,并指示主机如何获取供应商唯一的调试信息以及如何执行恢复过程. V1规范支持多种恢复操作,但规范的其他部分(CRASH-4)建议使用FORMAT命令., 这意味着设备上的所有数据都将被擦除并且无法恢复, 只有这样才能从内心的恐慌中恢复过来. 微软还在OCP Spec V1中提供了沙巴体育安卓版下载错误注入的概念,用于主机和设备参与的健壮的垂直集成测试.

V2规范通过提供额外的C1h字段增强了恢复过程. 该规范首次引入了OCP存储延迟监视器特性. 该特性允许驱动器自我报告高延迟I/O事件,甚至包括供应商特有的调试信息. 这可以与主机I/O延迟日志进行比较,以帮助找出问题的根源,如果是存储设备问题,则在内部提供线索以支持纠正措施.

V2中一些令人兴奋的功能.5规范版本最近继续提供更好的垂直弹性集成. 标准化遥测是本次修订中最大的元素和大多数新功能. 之前的规范修订最终会导致每个供应商添加独特的专有监控和调试信息,这些信息要么需要获取供应商独特的日志页面,要么需要获取遥测技术. 理想情况下,供应商将请求二进制文件传输或提供供应商唯一的解码工具来生成人类可读的输出. OCP 固态硬盘 V2中的标准化遥测.5规范通过提供使用标准化解码工具报告和解码供应商唯一调试的方法解决了这个问题. 这可以立即提高调试效率,因为不需要主机提供专门的数据捕获和解码功能.

标准化遥测项目创建了一种从分布式系统收集所有重要健康数据的简单方法. 它使用一个I/O命令,可以与任何兼容的存储设备一起工作. 然后,主机可以捕获和解码来自第一遥测数据区域的数据. 该数据包含主机和供应商一起工作所需的所有细节. 它们可以识别出正在失败或即将失败的设备, 并改进他们未来的健康监测解决方案.

标题向前

微软的艾伯克·厄兹图尔克在 FMS 2023 他们对未来垂直一体化高弹性的愿景. 他们表达了将数据恢复作为恐慌恢复的一部分的强烈愿望. FORMAT命令的当前规范请求. 他们认为,随着存储设备变得越来越大, 更多的租户可能正在使用单个直接连接驱动器,因此在紧急情况发生后,最好使用完全(甚至部分)数据恢复,而不是使用数据恢复. 终止多个虚拟机. 他们认为,这将促进有关利用实时迁移的概念. 探索这种解决方案的细节是2024年的一个好目标.

一个愿景

过去报道的断言和恐慌已经变成了复苏. 什么是恢复变成了侦查, 过去的侦测变成了预防. 经典的左移. 美光很兴奋,并致力于继续与行业和OCP存储合作,共创未来.

沙巴体育结算平台美光与您的想法. 这是合作,所以让我们一起努力. 

研究员,架构师存储系统

史蒂文·威尔斯

史蒂文·威尔斯是美光公司的研究员, 专注于下一代固态硬盘解决方案,在非易失性存储领域拥有超过65项专利. 自1987年以来,他一直参与闪存组件和固态硬盘设计,并在包括ISSCC在内的多个会议上发表过文章, JSSC, 闪存峰会, 存储开发者大会, 以及OCP全球峰会.