为神经网络准备数据时,数据依赖性是否相关?
Are data dependencies relevant when preparing data for neural network?
数据: 当我有 N 行这样的数据时:(x,y,z) 逻辑上 f(x,y)=z,即 z 是相关的在 x 和 y 上,就像我的情况一样 (setting1, setting2 ,signal) 。不同的 x 和 y 可以导致相同的 z,但 z 的意思不同。
每个(设置 1、设置 2)配对有 30 个 唯一 设置 1、30 个设置 2 和 1 个信号,因此有 900 个信号值。
数据集:这[900,3]个数据点被认为是1个数据集。我有很多这些数据集的样本。
我想根据这些 数据集 进行分类,但我需要将 数据 展平(使它们都排成一行)。如果我将它展平,我将复制所有设置值(setting1 和 setting2)30 次,即我将有一个包含 3x900 列的行。
问题:
在数据集中保留所有重复的setting1,setting2值是否正确?或者我应该删除它们并且一次只包含唯一值吗?即一行包含 30 + 30 + 900 列。我担心,信号对设置的逻辑依赖性将以这种方式丢失。这有关系吗?或者我根本不应该费心包括这些设置(例如,由于相关性)?
如果我没理解错的话,你是在样本上训练 NN,每个观察值都是 [900,3]。
您正在展平它并获得 3*900 的输入层。
其中一些值是其他值的函数结果。
哪个函数很重要,好像是线性函数,NN可能不行:
来自 here:
"If inputs are linearly dependent then you are in effect introducing
the same variable as multiple inputs. By doing so you've introduced a
new problem for the network, finding the dependency so that the
duplicated inputs are treated as a single input and a single new
dimension in the data. For some dependencies, finding appropriate
weights for the duplicate inputs is not possible."
此外,如果您添加因变量,您可能会冒 NN 偏向所述变量的风险。
例如。如果您在 [x1,x2,x3,average(x1,x2)] 上 运行ning LMS 来预测 y,您基本上会为 x1 和 x2 变量分配更高的权重。
除非您有理由相信这些权重应该更高,否则不要包括它们的功能。
我找不到任何 link 支持,但我的直觉是除了省略相关值之外,您可能还想减少输入层:
来自 A. Ng 教授的 ML 课程 我记得输入应该是 'reasonable' 进行预测的最小值。
合理是模糊的,但我是这样理解的:如果你试图预测房子的价格,包括镜头、区域质量、与主要枢纽的距离,即使你在开放日期间不包括平均太阳黑子 activity得到了那个数据。
我会删除重复项,我还会寻找任何其他可以省略的数据,也许 运行 PCA 对整套 Nx[3,900]。
数据: 当我有 N 行这样的数据时:(x,y,z) 逻辑上 f(x,y)=z,即 z 是相关的在 x 和 y 上,就像我的情况一样 (setting1, setting2 ,signal) 。不同的 x 和 y 可以导致相同的 z,但 z 的意思不同。
每个(设置 1、设置 2)配对有 30 个 唯一 设置 1、30 个设置 2 和 1 个信号,因此有 900 个信号值。
数据集:这[900,3]个数据点被认为是1个数据集。我有很多这些数据集的样本。 我想根据这些 数据集 进行分类,但我需要将 数据 展平(使它们都排成一行)。如果我将它展平,我将复制所有设置值(setting1 和 setting2)30 次,即我将有一个包含 3x900 列的行。
问题: 在数据集中保留所有重复的setting1,setting2值是否正确?或者我应该删除它们并且一次只包含唯一值吗?即一行包含 30 + 30 + 900 列。我担心,信号对设置的逻辑依赖性将以这种方式丢失。这有关系吗?或者我根本不应该费心包括这些设置(例如,由于相关性)?
如果我没理解错的话,你是在样本上训练 NN,每个观察值都是 [900,3]。 您正在展平它并获得 3*900 的输入层。 其中一些值是其他值的函数结果。
哪个函数很重要,好像是线性函数,NN可能不行:
来自 here:
"If inputs are linearly dependent then you are in effect introducing the same variable as multiple inputs. By doing so you've introduced a new problem for the network, finding the dependency so that the duplicated inputs are treated as a single input and a single new dimension in the data. For some dependencies, finding appropriate weights for the duplicate inputs is not possible."
此外,如果您添加因变量,您可能会冒 NN 偏向所述变量的风险。
例如。如果您在 [x1,x2,x3,average(x1,x2)] 上 运行ning LMS 来预测 y,您基本上会为 x1 和 x2 变量分配更高的权重。
除非您有理由相信这些权重应该更高,否则不要包括它们的功能。
我找不到任何 link 支持,但我的直觉是除了省略相关值之外,您可能还想减少输入层:
来自 A. Ng 教授的 ML 课程 我记得输入应该是 'reasonable' 进行预测的最小值。
合理是模糊的,但我是这样理解的:如果你试图预测房子的价格,包括镜头、区域质量、与主要枢纽的距离,即使你在开放日期间不包括平均太阳黑子 activity得到了那个数据。