在pydatatable中扩展数据帧时如何将f表达式列传递给函数?
How to pass in the f expression column to a function when extending the dataframe in pydatatable?
我正在尝试生成一些随机数据并将其保存在数据表中,因此我创建了一个自定义函数:
def make_data(nrows):
DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})
DT_EX = DT[:,f[:].extend({'y': 0.01*f['x'] + 0.1*np.random.normal(size=nrows)})]
return DT_EX
在执行这个函数时它返回一个 DT 作为:
In [3]: make_data(5)
Out[3]:
| x y
-- + --------- ----------
0 | -0.486592 0.227217
1 | -1.90302 -0.0509506
2 | 4.69407 0.0758279
3 | -7.08778 -0.152139
4 | 0.917043 -0.204939
我想在 y 列表达式中添加一个 np.sin 函数,如:
def make_data_version_two(nrows):
DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})
DT_EX = DT[:,f[:].extend({'y': np.sin(f.x) + 0.01*f.x + 0.1*np.random.normal(size=nrows)})]
return DT_EX
执行此函数时抛出错误:
AttributeError Traceback (most recent call last)
<ipython-input-5-81a67037f9f1> in <module>
----> 1 make_data_version_two(5)
<ipython-input-4-e532306680bb> in make_data_version_two(nrows)
3 DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})
4
----> 5 DT_EX = DT[:,f[:].extend({'y': np.sin(f.x) + 0.01*f['x'] + 0.1*np.random.normal(size=nrows)})]
6
7 return DT_EX
AttributeError: 'Expr' object has no attribute 'sin'
我的问题是如何将数据表列传递给任何其他函数,例如 np.sin(f.x) 或 np.round(f.x) 等
我也尝试了这些变体,none 成功了。
np.sin(f['x'])
np.sin(['x'])
是的,明白了。我查看了数据表 数学模块 函数,并创建了一个新函数
def make_data_version_three(nrows):
DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})
DT_EX = DT[:,f[:].extend({'y': dt.math.sin(f.x) + 0.01*f['x'] + 0.1*np.random.normal(size=nrows)})]
return DT_EX
所以我在这里从数据表中导入了一个数学模块,从数学中我将 sin 函数称为
dt.math.sin(f.x)
输出:
In [8]: make_data_version_three(5)
Out[8]:
| x y
-- + --------- ---------
0 | -13.8865 -1.11732
1 | -2.21624 -0.809127
2 | -1.84779 -1.0217
3 | 5.42131 -0.659641
4 | 4.77623 -1.04619
[5 rows x 2 columns]
这里推荐过一遍datatable的math模块
Numpy 有一些函数可以用来生成随机数据。你可以尝试这样的事情。
import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.random.rand(10), columns=['x'] )
df['y'] = np.sin(df['x'])
print(df)
我正在尝试生成一些随机数据并将其保存在数据表中,因此我创建了一个自定义函数:
def make_data(nrows):
DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})
DT_EX = DT[:,f[:].extend({'y': 0.01*f['x'] + 0.1*np.random.normal(size=nrows)})]
return DT_EX
在执行这个函数时它返回一个 DT 作为:
In [3]: make_data(5)
Out[3]:
| x y
-- + --------- ----------
0 | -0.486592 0.227217
1 | -1.90302 -0.0509506
2 | 4.69407 0.0758279
3 | -7.08778 -0.152139
4 | 0.917043 -0.204939
我想在 y 列表达式中添加一个 np.sin 函数,如:
def make_data_version_two(nrows):
DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})
DT_EX = DT[:,f[:].extend({'y': np.sin(f.x) + 0.01*f.x + 0.1*np.random.normal(size=nrows)})]
return DT_EX
执行此函数时抛出错误:
AttributeError Traceback (most recent call last)
<ipython-input-5-81a67037f9f1> in <module>
----> 1 make_data_version_two(5)
<ipython-input-4-e532306680bb> in make_data_version_two(nrows)
3 DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})
4
----> 5 DT_EX = DT[:,f[:].extend({'y': np.sin(f.x) + 0.01*f['x'] + 0.1*np.random.normal(size=nrows)})]
6
7 return DT_EX
AttributeError: 'Expr' object has no attribute 'sin'
我的问题是如何将数据表列传递给任何其他函数,例如 np.sin(f.x) 或 np.round(f.x) 等
我也尝试了这些变体,none 成功了。
np.sin(f['x'])
np.sin(['x'])
是的,明白了。我查看了数据表 数学模块 函数,并创建了一个新函数
def make_data_version_three(nrows):
DT = dt.Frame({'x': 5*np.random.normal(size=nrows)})
DT_EX = DT[:,f[:].extend({'y': dt.math.sin(f.x) + 0.01*f['x'] + 0.1*np.random.normal(size=nrows)})]
return DT_EX
所以我在这里从数据表中导入了一个数学模块,从数学中我将 sin 函数称为
dt.math.sin(f.x)
输出:
In [8]: make_data_version_three(5)
Out[8]:
| x y
-- + --------- ---------
0 | -13.8865 -1.11732
1 | -2.21624 -0.809127
2 | -1.84779 -1.0217
3 | 5.42131 -0.659641
4 | 4.77623 -1.04619
[5 rows x 2 columns]
这里推荐过一遍datatable的math模块
Numpy 有一些函数可以用来生成随机数据。你可以尝试这样的事情。
import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.random.rand(10), columns=['x'] )
df['y'] = np.sin(df['x'])
print(df)