在pydatatable中扩展数据帧时如何将f表达式列传递给函数?

How to pass in the f expression column to a function when extending the dataframe in pydatatable?

我正在尝试生成一些随机数据并将其保存在数据表中,因此我创建了一个自定义函数:

def make_data(nrows):

    DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})

    DT_EX = DT[:,f[:].extend({'y': 0.01*f['x'] + 0.1*np.random.normal(size=nrows)})]

    return DT_EX

在执行这个函数时它返回一个 DT 作为:

In [3]: make_data(5)                                                                                                                                                                                        
Out[3]: 
   |         x           y
-- + ---------  ----------
 0 | -0.486592   0.227217 
 1 | -1.90302   -0.0509506
 2 |  4.69407    0.0758279
 3 | -7.08778   -0.152139 
 4 |  0.917043  -0.204939

我想在 y 列表达式中添加一个 np.sin 函数,如:

def make_data_version_two(nrows):

    DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})

    DT_EX = DT[:,f[:].extend({'y': np.sin(f.x) + 0.01*f.x + 0.1*np.random.normal(size=nrows)})]

    return DT_EX

执行此函数时抛出错误:

AttributeError                            Traceback (most recent call last)
<ipython-input-5-81a67037f9f1> in <module>
----> 1 make_data_version_two(5)

<ipython-input-4-e532306680bb> in make_data_version_two(nrows)
      3     DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})
      4 
----> 5     DT_EX = DT[:,f[:].extend({'y': np.sin(f.x) + 0.01*f['x'] + 0.1*np.random.normal(size=nrows)})]
      6 
      7     return DT_EX

AttributeError: 'Expr' object has no attribute 'sin'

我的问题是如何将数据表列传递给任何其他函数,例如 np.sin(f.x) 或 np.round(f.x) 等

我也尝试了这些变体,none 成功了。

是的,明白了。我查看了数据表 数学模块 函数,并创建了一个新函数

def make_data_version_three(nrows):

    DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})

    DT_EX = DT[:,f[:].extend({'y': dt.math.sin(f.x) + 0.01*f['x'] + 0.1*np.random.normal(size=nrows)})]

    return DT_EX

所以我在这里从数据表中导入了一个数学模块,从数学中我将 sin 函数称为

dt.math.sin(f.x)

输出:

In [8]: make_data_version_three(5)                                                                                                                                                                          
Out[8]: 
   |         x          y
-- + ---------  ---------
 0 | -13.8865   -1.11732 
 1 |  -2.21624  -0.809127
 2 |  -1.84779  -1.0217  
 3 |   5.42131  -0.659641
 4 |   4.77623  -1.04619 

[5 rows x 2 columns]

这里推荐过一遍datatable的math模块

Numpy 有一些函数可以用来生成随机数据。你可以尝试这样的事情。

import pandas as pd
import numpy as np

df = pd.DataFrame(data=np.random.rand(10), columns=['x'] )

df['y']  = np.sin(df['x'])
print(df)