最大化文件存储效率
maximise file storage efficiency
我有一组大文件需要存储,我的理解是给定文件应占用的块数是文件大小(以字节为单位)除以块大小(以字节为单位),然后总是四舍五入如果不是整块。
所以,对于我的示例,我有一个 41,481,854,065 字节的文件和一个块大小为 4096 字节的文件系统。
我计算出 10,127,406 个区块作为理论上的最小区块数。但是,du 报告该文件正在使用 11,399,100 个块,这给我带来了 5,208,858,624 字节的巨大差异,对于一个 44GB 的文件来说是 4.85GB。
这对我来说似乎很多,我想尝试理解为什么有这么多 slack space 而我本可以不合理地期望有一个最大值4k.
我有三个问题:
- 造成这种巨大差异的原因是什么?
- 我如何才能检测到真正导致它的原因?
- 我能做些什么来提高效率和减少松弛度space?
我很确定我在某处做了一些不合理的假设,但想知道那是什么地方。
所以,由于没有人主动提出,我自己的研究和猜测只发现了以下选项:
- 同一磁盘上的文件严重碎片化。
- 文件分布在存储阵列上的多个物理磁盘上。
- 为了最大限度地提高读取访问速度,特意将文件分布在多个物理磁盘上。
我有一组大文件需要存储,我的理解是给定文件应占用的块数是文件大小(以字节为单位)除以块大小(以字节为单位),然后总是四舍五入如果不是整块。
所以,对于我的示例,我有一个 41,481,854,065 字节的文件和一个块大小为 4096 字节的文件系统。
我计算出 10,127,406 个区块作为理论上的最小区块数。但是,du 报告该文件正在使用 11,399,100 个块,这给我带来了 5,208,858,624 字节的巨大差异,对于一个 44GB 的文件来说是 4.85GB。
这对我来说似乎很多,我想尝试理解为什么有这么多 slack space 而我本可以不合理地期望有一个最大值4k.
我有三个问题:
- 造成这种巨大差异的原因是什么?
- 我如何才能检测到真正导致它的原因?
- 我能做些什么来提高效率和减少松弛度space?
我很确定我在某处做了一些不合理的假设,但想知道那是什么地方。
所以,由于没有人主动提出,我自己的研究和猜测只发现了以下选项:
- 同一磁盘上的文件严重碎片化。
- 文件分布在存储阵列上的多个物理磁盘上。
- 为了最大限度地提高读取访问速度,特意将文件分布在多个物理磁盘上。