远程直接内存访问 (RDMA) 中的崩溃场景
crash scenario in Remote Direct Memory Access (RDMA)
我的问题很简单:如果一台机器的 CPU/OS 出现故障,它的内存是否仍然可以通过远程机器的远程直接内存访问 (RDMA) 使用?
这实际上取决于系统遇到的故障类型。如果 OS 失败,则实现 RDMA 的 HCA 可能会继续代表远程请求执行 DMA。如果没有 OS 和 OS 驱动程序合作,将无法注册新内存。
如果 CPU 失败,HCA 可能无法访问内存,因为所有内存访问都经过 PCIe 根复合体和 CPU 上的内存控制器。
我的问题很简单:如果一台机器的 CPU/OS 出现故障,它的内存是否仍然可以通过远程机器的远程直接内存访问 (RDMA) 使用?
这实际上取决于系统遇到的故障类型。如果 OS 失败,则实现 RDMA 的 HCA 可能会继续代表远程请求执行 DMA。如果没有 OS 和 OS 驱动程序合作,将无法注册新内存。
如果 CPU 失败,HCA 可能无法访问内存,因为所有内存访问都经过 PCIe 根复合体和 CPU 上的内存控制器。