在机器学习中,“下游”的定义是什么?

In machine learning, what is definition of “downstream”?

我已阅读 [PCA 文档](http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html ) 的 scikit-learn.

[...] improve the predictive accuracy of the downstream estimators [...]

机器学习中“下游”的定义是什么?

我从神经网络中了解到 "downstream" 这个词。在那些机器学习算法中,你有所谓的 "neurons",通常以 DAG 的形式出现。下游是某个神经元之后的一切。你说神经元 y 是神经元 x 的下游当且仅当存在从 x 到 y 的有向路径。

在更一般的设置中,我只能猜测:当且仅当 y 使用 x 处理的数据时,y 是 x 的下游。

您引用的文章提到了美白,这是一个预处理步骤(即上游处理)。 "Downstream estimators" 是一个通用术语,指的是在数据预处理步骤之后使用的估计器。

上游处理(不排他列表):

  • 二值化器
  • 分桶器
  • 产品
  • 标准化器
  • 分词器
  • 定标器
  • 扶正器

下游估算器(非独家列表):

  • 逻辑回归
  • PCA
  • 神经网络
  • 提升
  • 梯度下降
  • 支持向量机
  • GNN
  • K-nn
  • K 均值
  • 随机森林
  • 层次聚类