在 OpenRefine 中批量编辑
Batch edit in OpenRefine
所以,我有一堆 .csv 文件需要清理。它们都需要经过相同的步骤,所以我提取了OpenRefine的操作历史,以便将其应用于其他。
我可以在 OpenRefine 中一个一个地打开每个文件并应用提取的 JSON 历史记录。但是有很多文件...
此外,我没有足够的内存在 OpenRefine 中一次打开它们(打开文件时多次选择)。
有什么方法可以全部编辑或使用我从 OpenRefine 中提取的 JSON 自动编辑它们?
您可以使用现有库之一自动执行一些 OpenRefine 操作:
这就是我们创建 BatchRefine 的目的,README 应该差不多 self-explanatory。如果没有,请告诉我。
我最近使用 BatchRefine 将 400 万条 CSV 记录转换为 RDF,在我的 MacBook Pro 上用了不到 10 分钟。
我用这个简单的 shell 脚本执行 BatchRefine:
#!/bin/bash
for file in ./input/*.tsv
do
filename=$(basename "$file")
if [ ! -f "target/"$filename"-transformed" ]
then
echo Processing $filename...
curl -XPOST -H 'Accept: text/turtle' -H 'Content-Type:text/csv' --data-binary "@"$file -o "target/"$filename"-transformed" 'localhost:8310/?refinejson=http://localhost:8000/bar-config.json'
else
echo Found "target/"$filename"-transformed", skipping $file
fi
done;
请注意,您需要调整脚本中的 Accept
header,我猜您希望再次将 CSV 作为输出,而不是 RDF。
所以,我有一堆 .csv 文件需要清理。它们都需要经过相同的步骤,所以我提取了OpenRefine的操作历史,以便将其应用于其他。
我可以在 OpenRefine 中一个一个地打开每个文件并应用提取的 JSON 历史记录。但是有很多文件...
此外,我没有足够的内存在 OpenRefine 中一次打开它们(打开文件时多次选择)。
有什么方法可以全部编辑或使用我从 OpenRefine 中提取的 JSON 自动编辑它们?
您可以使用现有库之一自动执行一些 OpenRefine 操作:
这就是我们创建 BatchRefine 的目的,README 应该差不多 self-explanatory。如果没有,请告诉我。
我最近使用 BatchRefine 将 400 万条 CSV 记录转换为 RDF,在我的 MacBook Pro 上用了不到 10 分钟。
我用这个简单的 shell 脚本执行 BatchRefine:
#!/bin/bash
for file in ./input/*.tsv
do
filename=$(basename "$file")
if [ ! -f "target/"$filename"-transformed" ]
then
echo Processing $filename...
curl -XPOST -H 'Accept: text/turtle' -H 'Content-Type:text/csv' --data-binary "@"$file -o "target/"$filename"-transformed" 'localhost:8310/?refinejson=http://localhost:8000/bar-config.json'
else
echo Found "target/"$filename"-transformed", skipping $file
fi
done;
请注意,您需要调整脚本中的 Accept
header,我猜您希望再次将 CSV 作为输出,而不是 RDF。