针对 Google Cloud Storage 的 BlobstoreLineInputReader 等效项是什么?
What is the equivalent of BlobstoreLineInputReader for targeting Google Cloud Storage?
这是一个 python appengine 问题,mapreduce 库 1.9.21。
我有代码将行写入本地 blobstore 中的 blob,然后使用 mapreduce BlobstoreLineInputReader 对其进行处理。
鉴于文件 api 即将消失,我想我会将所有处理重新定位到云存储。
我希望找到一个名为 GoogleCloudStorageLineInputReader 的 class,但没有类似的东西。它藏在什么地方了吗?
有什么方法可以使用 GoogleCloudStorageInputReader 来读取行吗?
另一种可能性是使用 GoogleCloudStorageRecordInputReader,但为此我的输入文件需要采用 LevelDB 格式,我不知道如何创建它,除非使用 GoogleCloudStorageConsistentRecordOutputWriter,我不知道如何在 mapreduce 之外使用它语境。我该怎么做?
还是我做错了,还有其他我错过的可能性吗?
起初,我尝试了 thinkjson 的 CloudStorageLineInputReader,但没有成功。
然后我找到了this pull request...which led me to rbruyere's fork。尽管存在一些 linting 问题(比如 GoolgeCloudStorageLineInputReader
上的拼写),但是在拉取请求的底部提到它工作正常,并询问是否需要接管该项目。
希望对您有所帮助!
这是一个 python appengine 问题,mapreduce 库 1.9.21。
我有代码将行写入本地 blobstore 中的 blob,然后使用 mapreduce BlobstoreLineInputReader 对其进行处理。
鉴于文件 api 即将消失,我想我会将所有处理重新定位到云存储。
我希望找到一个名为 GoogleCloudStorageLineInputReader 的 class,但没有类似的东西。它藏在什么地方了吗?
有什么方法可以使用 GoogleCloudStorageInputReader 来读取行吗?
另一种可能性是使用 GoogleCloudStorageRecordInputReader,但为此我的输入文件需要采用 LevelDB 格式,我不知道如何创建它,除非使用 GoogleCloudStorageConsistentRecordOutputWriter,我不知道如何在 mapreduce 之外使用它语境。我该怎么做?
还是我做错了,还有其他我错过的可能性吗?
起初,我尝试了 thinkjson 的 CloudStorageLineInputReader,但没有成功。
然后我找到了this pull request...which led me to rbruyere's fork。尽管存在一些 linting 问题(比如 GoolgeCloudStorageLineInputReader
上的拼写),但是在拉取请求的底部提到它工作正常,并询问是否需要接管该项目。
希望对您有所帮助!