如何使用 HDF5 层从迭代次数计算纪元?
How to compute epoch from iteration number using HDF5 layer?
我正在使用带有 HDF5 层的 caffe。它会将我的 hdf5list.txt 读作
/home/data/file1.h5
/home/data/file2.h5
/home/data/file3.h5
在每个文件*.h5 中,我有 10.000 张图像。所以,我总共有大约 30.000 张图像。在每次迭代中,我将使用批量大小为 10 作为设置
layer {
name: "data"
type: "HDF5Data"
top: "data"
top: "label"
hdf5_data_param {
source: "./hdf5list.txt"
batch_size: 10
shuffle: true
}
include {
phase: TRAIN
}
}
使用caffe,它的输出喜欢
Iterations 10, loss=100
Iterations 20, loss=90
...
我的问题是关于损失如何计算多个epoch?这意味着我想绘制一个图表,其中 x 轴是纪元数,y-asix 是损失。
相关link:Epoch vs iteration when training neural networks
如果你只想针对当前的问题这样做,那是非常容易的。请注意
Epoch_index = floor((iteration_index * batch_size) / (# data_samples))
现在,在 solver.cpp
中找到 Caffe 打印 Iterations ..., loss = ...
的行。只需使用上述公式计算纪元索引并打印出来。你完成了。不要忘记重新编译 Caffe。
如果您想修改 Caffe 使其始终显示纪元索引,那么您首先需要计算所有 HDF5 文件的数据大小。看一眼Caffe HDF5层的代码,我想你可以通过hdf_blobs_[0]->shape(0)
得到数据样本的数量。您应该为所有 HDF5 文件添加此数字并在 solver.cpp
.
中使用该数字
变量hdf_blobs_
定义在layers/hdf5_data_layer.cpp
中。我相信它是在函数 util/hdf5.cpp
中填充的。我认为流程是这样的:
- 在
layers/hdf5_data_layer.cpp
中,hdf5文件名是从文本文件中读取的。
- 然后函数
LoadHDF5FileData
尝试将 hdf5 数据加载到 blob 中。
- 在
LoadHDF5FileData
中,blob 变量 - hdf_blobs_
- 被声明并填充在函数 util/hdf5.cpp
. 中
- 在
util/hdf5.cpp
中,函数 hdf5_load_nd_dataset
首先调用 hdf5_load_nd_dataset_helper
相应地重塑斑点。我认为这是您将获得一个 hdf5 文件 的数据维度 的地方。迭代多个 hdf5 文件是在 layers/hdf5_data_layer.cpp
中的 void HDF5DataLayer<Dtype>::Next()
函数中完成的。所以这里需要把之前收到的数据维度加起来
最后,你需要弄清楚如何将它们传回 solver.cpp
。
我正在使用带有 HDF5 层的 caffe。它会将我的 hdf5list.txt 读作
/home/data/file1.h5
/home/data/file2.h5
/home/data/file3.h5
在每个文件*.h5 中,我有 10.000 张图像。所以,我总共有大约 30.000 张图像。在每次迭代中,我将使用批量大小为 10 作为设置
layer {
name: "data"
type: "HDF5Data"
top: "data"
top: "label"
hdf5_data_param {
source: "./hdf5list.txt"
batch_size: 10
shuffle: true
}
include {
phase: TRAIN
}
}
使用caffe,它的输出喜欢
Iterations 10, loss=100
Iterations 20, loss=90
...
我的问题是关于损失如何计算多个epoch?这意味着我想绘制一个图表,其中 x 轴是纪元数,y-asix 是损失。
相关link:Epoch vs iteration when training neural networks
如果你只想针对当前的问题这样做,那是非常容易的。请注意
Epoch_index = floor((iteration_index * batch_size) / (# data_samples))
现在,在 solver.cpp
中找到 Caffe 打印 Iterations ..., loss = ...
的行。只需使用上述公式计算纪元索引并打印出来。你完成了。不要忘记重新编译 Caffe。
如果您想修改 Caffe 使其始终显示纪元索引,那么您首先需要计算所有 HDF5 文件的数据大小。看一眼Caffe HDF5层的代码,我想你可以通过hdf_blobs_[0]->shape(0)
得到数据样本的数量。您应该为所有 HDF5 文件添加此数字并在 solver.cpp
.
变量hdf_blobs_
定义在layers/hdf5_data_layer.cpp
中。我相信它是在函数 util/hdf5.cpp
中填充的。我认为流程是这样的:
- 在
layers/hdf5_data_layer.cpp
中,hdf5文件名是从文本文件中读取的。 - 然后函数
LoadHDF5FileData
尝试将 hdf5 数据加载到 blob 中。 - 在
LoadHDF5FileData
中,blob 变量 -hdf_blobs_
- 被声明并填充在函数util/hdf5.cpp
. 中
- 在
util/hdf5.cpp
中,函数hdf5_load_nd_dataset
首先调用hdf5_load_nd_dataset_helper
相应地重塑斑点。我认为这是您将获得一个 hdf5 文件 的数据维度 的地方。迭代多个 hdf5 文件是在layers/hdf5_data_layer.cpp
中的void HDF5DataLayer<Dtype>::Next()
函数中完成的。所以这里需要把之前收到的数据维度加起来
最后,你需要弄清楚如何将它们传回 solver.cpp
。