为神经网络准备数据时，数据依赖性是否相关？

Are data dependencies relevant when preparing data for neural network?

数据： 当我有 N 行这样的数据时：(x,y,z) 逻辑上 f(x,y)=z，即 z 是相关的在 x 和 y 上，就像我的情况一样 (setting1, setting2 ,signal) 。不同的 x 和 y 可以导致相同的 z，但 z 的意思不同。

每个（设置 1、设置 2）配对有 30 个唯一设置 1、30 个设置 2 和 1 个信号，因此有 900 个信号值。

数据集：这[900,3]个数据点被认为是1个数据集。我有很多这些数据集的样本。我想根据这些 数据集 进行分类，但我需要将数据展平（使它们都排成一行）。如果我将它展平，我将复制所有设置值（setting1 和 setting2）30 次，即我将有一个包含 3x900 列的行。

问题： 在数据集中保留所有重复的setting1,setting2值是否正确？或者我应该删除它们并且一次只包含唯一值吗？即一行包含 30 + 30 + 900 列。我担心，信号对设置的逻辑依赖性将以这种方式丢失。这有关系吗？或者我根本不应该费心包括这些设置（例如，由于相关性）？

如果我没理解错的话，你是在样本上训练 NN，每个观察值都是 [900,3]。您正在展平它并获得 3*900 的输入层。其中一些值是其他值的函数结果。

哪个函数很重要，好像是线性函数，NN可能不行：

来自 here：

"If inputs are linearly dependent then you are in effect introducing the same variable as multiple inputs. By doing so you've introduced a new problem for the network, finding the dependency so that the duplicated inputs are treated as a single input and a single new dimension in the data. For some dependencies, finding appropriate weights for the duplicate inputs is not possible."

此外，如果您添加因变量，您可能会冒 NN 偏向所述变量的风险。
例如。如果您在 [x1,x2,x3,average(x1,x2)] 上运行ning LMS 来预测 y，您基本上会为 x1 和 x2 变量分配更高的权重。
除非您有理由相信这些权重应该更高，否则不要包括它们的功能。

我找不到任何 link 支持，但我的直觉是除了省略相关值之外，您可能还想减少输入层：

来自 A. Ng 教授的 ML 课程我记得输入应该是 'reasonable' 进行预测的最小值。
合理是模糊的，但我是这样理解的：如果你试图预测房子的价格，包括镜头、区域质量、与主要枢纽的距离，即使你在开放日期间不包括平均太阳黑子 activity得到了那个数据。

为神经网络准备数据时，数据依赖性是否相关？

Are data dependencies relevant when preparing data for neural network?

machine-learning

neural-network

data-science

我会删除重复项，我还会寻找任何其他可以省略的数据，也许运行 PCA 对整套 Nx[3,900]。

为神经网络准备数据时，数据依赖性是否相关？

Are data dependencies relevant when preparing data for neural network?

machine-learning

neural-network

data-science

我会删除重复项，我还会寻找任何其他可以省略的数据，也许 运行 PCA 对整套 Nx[3,900]。

我会删除重复项，我还会寻找任何其他可以省略的数据，也许运行 PCA 对整套 Nx[3,900]。