在进行深度学习时,我可以使用不同来源的数据集吗?
Could i use datasets from different sources when doing deep learning
简单来说,我想利用胸部X光片来检测患者是否患有肺癌。
我在这里遇到的问题是:
我有来自 3 个不同来源的 3 个数据集,假设所有其他医学属性也相同,其中 3 个主题都是胸部 X 光图像。
第一个数据集包含 130 张正常和癌症诊断患者的图像。
第二个数据集包含 40 张正常患者的图像
第三个数据集包含 120 张癌症患者的图像。
因此,我想结合来自 3 个不同来源的 3 个数据集来训练和评估我的模型。
我打算混合和洗牌所有数据,然后开始分成训练、验证、测试集。可以吗?
还有什么需要注意的地方吗?
据我所知,通常混合数据集并不是一件好事,尤其是当数据集彼此不太相似时。但是,就您而言,您说它们都是人肺的 X 射线图像。我们希望所有的图像都非常相似,所以混合它们不会以不好的方式影响性能,但我猜是好的。
在深度学习领域拥有大量数据总是好的。特别是大型神经网络需要大量数据。你的数据对我来说似乎更少。我推荐你使用简单的网络。
简而言之,所有组合的图像可能来自同一来源吗?也就是说,它们总体上彼此相似,但仅在感染的部位有所不同?如果是这样,请继续。
祝你好运
简单来说,我想利用胸部X光片来检测患者是否患有肺癌。
我在这里遇到的问题是: 我有来自 3 个不同来源的 3 个数据集,假设所有其他医学属性也相同,其中 3 个主题都是胸部 X 光图像。 第一个数据集包含 130 张正常和癌症诊断患者的图像。 第二个数据集包含 40 张正常患者的图像 第三个数据集包含 120 张癌症患者的图像。
因此,我想结合来自 3 个不同来源的 3 个数据集来训练和评估我的模型。 我打算混合和洗牌所有数据,然后开始分成训练、验证、测试集。可以吗?
还有什么需要注意的地方吗?
据我所知,通常混合数据集并不是一件好事,尤其是当数据集彼此不太相似时。但是,就您而言,您说它们都是人肺的 X 射线图像。我们希望所有的图像都非常相似,所以混合它们不会以不好的方式影响性能,但我猜是好的。
在深度学习领域拥有大量数据总是好的。特别是大型神经网络需要大量数据。你的数据对我来说似乎更少。我推荐你使用简单的网络。
简而言之,所有组合的图像可能来自同一来源吗?也就是说,它们总体上彼此相似,但仅在感染的部位有所不同?如果是这样,请继续。
祝你好运