是否存在一种惰性评估形式，其中函数（如均值）returns 在对数组进行操作时的近似值

Question

例如，我们要计算列表很长的数字列表的平均值。并且排序后的数字几乎是线性的（或者我们可以找到数据的线性回归模型）。从数学上讲，我们可以通过

来汇总平均值

((arr[0] + arr[length(arr)]) / 2 )   + intercept

或者在这种情况下，线性模型几乎是常数（斜率系数接近1）。我们可以大概计算一下：

mean(arr[n/const]) = mean(arr)

两种情况应用相同的概念。非常基本。有没有办法：模式、功能（希望在 python 中），或任何可以提供建议和帮助的研究，我们将不胜感激；当然，如果存在这样的模式应该是通用的，而不仅仅是平均情况（可能是任何功能或至少聚合函数，如：sum、mean ...）。（由于我没有很强的数学背景，而且我是机器学习的新手，请原谅我的无知）。如果有什么不清楚的地方请告诉我。

Answer 1

像Dask包这样的工作还有更通用的解决方案，例如：http://dask.pydata.org/en/latest/ 它可以优化计算图，并行计算等等。

Answer 2

Law of Large Numbers 指出随着样本量的增加，观察样本的平均值以概率 1 收敛到真实总体平均值。

因此，如果您的假设数组太大而无法取平均值，您至少可以取一个大样本的平均值，并知道您接近真实的总体平均值。

您可以使用 numpy.random.choice(arr,n) 从 numpy 数组中采样，其中 arr 是您的数组，n 是您希望（或能够）获取的任意数量的元素样品。

是否存在一种惰性评估形式，其中函数（如均值）returns 在对数组进行操作时的近似值

Is there a form of lazy evaluation where a function (like mean) returns an approximate value when operating on arrays

python

machine-learning

lazy-evaluation