神经网络数据集的总体大小是多少?
which is the overall size of neural network data-set?
实际上,关于神经网络数据集训练大小的问题有很多。但我的问题是神经网络数据集的整体大小。
我在这里 https://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling 找到了一个与用户知识建模主题相关的数据集。
这个数据集有 403 个实例。我想与 ANN 和 ANFIS 一起工作。
现在我的问题是,这个数据集的大小是否会影响最终结果?我应该使用另一个包含更多实例的数据集吗?
请注意我的问题不是关于训练、测试和验证数据的百分比。
提前致谢
当然,数据集大小会影响任何机器学习算法的性能。
从统计的角度来看,对于较小的数据集,您可能无法捕获您尝试建模的分布的统计数据。
一个更 "practical" 的问题是您的模型可能会过度拟合您的数据集,无论是训练集还是 test/validation 集。
这里还有另一个问题,就是您是否使用 "good" 特征作为神经网络的输入。在这种情况下,好是指真正体现您 类 兴趣的特征。
一种常见的方法是扩充您的数据集。您可以使用 bootstrapping 或对训练集应用一些随机变换,但后者主要用于图像。
要确认 Flavio Ferrara 的回复,您必须记住,模型中的自由参数数量与训练集的大小之间始终存在严格的关系。神经网络中自由参数(权重和偏差值)的数量也与网络的架构有关。
随着自由参数数量的增加,您需要更多的数据来估计它们的真实值,如果您做不到,您的模型往往会过度拟合训练数据。
简而言之,回答你的训练集是否足以满足你的模型这个问题,与你的模型中自由参数的数量密切相关。要估计的参数越多,需要的训练集就越大。另一方面,对于 ANN,架构会影响参数的数量。
希望对您有所帮助
实际上,关于神经网络数据集训练大小的问题有很多。但我的问题是神经网络数据集的整体大小。 我在这里 https://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling 找到了一个与用户知识建模主题相关的数据集。 这个数据集有 403 个实例。我想与 ANN 和 ANFIS 一起工作。 现在我的问题是,这个数据集的大小是否会影响最终结果?我应该使用另一个包含更多实例的数据集吗? 请注意我的问题不是关于训练、测试和验证数据的百分比。 提前致谢
当然,数据集大小会影响任何机器学习算法的性能。
从统计的角度来看,对于较小的数据集,您可能无法捕获您尝试建模的分布的统计数据。 一个更 "practical" 的问题是您的模型可能会过度拟合您的数据集,无论是训练集还是 test/validation 集。
这里还有另一个问题,就是您是否使用 "good" 特征作为神经网络的输入。在这种情况下,好是指真正体现您 类 兴趣的特征。
一种常见的方法是扩充您的数据集。您可以使用 bootstrapping 或对训练集应用一些随机变换,但后者主要用于图像。
要确认 Flavio Ferrara 的回复,您必须记住,模型中的自由参数数量与训练集的大小之间始终存在严格的关系。神经网络中自由参数(权重和偏差值)的数量也与网络的架构有关。
随着自由参数数量的增加,您需要更多的数据来估计它们的真实值,如果您做不到,您的模型往往会过度拟合训练数据。 简而言之,回答你的训练集是否足以满足你的模型这个问题,与你的模型中自由参数的数量密切相关。要估计的参数越多,需要的训练集就越大。另一方面,对于 ANN,架构会影响参数的数量。
希望对您有所帮助