将数据帧导出为数据帧格式以作为参数传递给下一个程序
exporting dataframe into dataframe format to pass as argument into next program
我对数据集执行了某些计算,我需要将结果存储在外部文件中。
如果是 CSV,要进一步处理它,我必须再次转换为 Dataframe/SFrame,这又会增加代码行数。
这是片段:
train_data = graphlab.SFrame(ratings_base)
很明显,它是在SFrame中,可以使用
转换为DFrame
df_train = train_data.to_dataframe()
既然它在 DFrame 中,我需要将它导出到一个文件而不改变它的结构。由于导出的文件将用作另一个 python 代码的参数。该代码必须接受 DFrame 而不是 CSV。
我已经在place1, , place3, place4 and place5
退房了
P.S。 - 我仍在挖掘 Python 序列化,如果有人可以简化
它在上下文中会有所帮助
我会使用 HDFS 格式,因为它受到 Pandas
和 graphlab.SFrame
的支持,而且 HDFS 格式非常快。
或者,您可以将 Pandas.DataFrame 导出到 Pickle 文件并从其他脚本读取它:
sf.to_dataframe().to_pickle(r'/path/to/pd_frame.pickle')
读回(从同一个脚本或另一个脚本):
df = pd.read_pickle(r'/path/to/pd_frame.pickle')
我对数据集执行了某些计算,我需要将结果存储在外部文件中。
如果是 CSV,要进一步处理它,我必须再次转换为 Dataframe/SFrame,这又会增加代码行数。
这是片段:
train_data = graphlab.SFrame(ratings_base)
很明显,它是在SFrame中,可以使用
转换为DFramedf_train = train_data.to_dataframe()
既然它在 DFrame 中,我需要将它导出到一个文件而不改变它的结构。由于导出的文件将用作另一个 python 代码的参数。该代码必须接受 DFrame 而不是 CSV。
我已经在place1,
P.S。 - 我仍在挖掘 Python 序列化,如果有人可以简化
它在上下文中会有所帮助
我会使用 HDFS 格式,因为它受到 Pandas
和 graphlab.SFrame
的支持,而且 HDFS 格式非常快。
或者,您可以将 Pandas.DataFrame 导出到 Pickle 文件并从其他脚本读取它:
sf.to_dataframe().to_pickle(r'/path/to/pd_frame.pickle')
读回(从同一个脚本或另一个脚本):
df = pd.read_pickle(r'/path/to/pd_frame.pickle')