在 OpenRefine 中批量编辑

Batch edit in OpenRefine

所以,我有一堆 .csv 文件需要清理。它们都需要经过相同的步骤,所以我提取了OpenRefine的操作历史,以便将其应用于其他。

我可以在 OpenRefine 中一个一个地打开每个文件并应用提取的 JSON 历史记录。但是有很多文件...

此外,我没有足够的内存在 OpenRefine 中一次打开它们(打开文件时多次选择)。

有什么方法可以全部编辑或使用我从 OpenRefine 中提取的 JSON 自动编辑它们?

您可以使用现有库之一自动执行一些 OpenRefine 操作:

这就是我们创建 BatchRefine 的目的,README 应该差不多 self-explanatory。如果没有,请告诉我。

我最近使用 BatchRefine 将 400 万条 CSV 记录转换为 RDF,在我的 MacBook Pro 上用了不到 10 分钟。

我用这个简单的 shell 脚本执行 BatchRefine:

#!/bin/bash

for file in ./input/*.tsv
do
  filename=$(basename "$file")

  if [ ! -f "target/"$filename"-transformed" ]
  then
    echo Processing $filename...
    curl -XPOST -H 'Accept: text/turtle' -H 'Content-Type:text/csv' --data-binary "@"$file -o "target/"$filename"-transformed" 'localhost:8310/?refinejson=http://localhost:8000/bar-config.json'

  else
    echo Found "target/"$filename"-transformed", skipping $file
  fi
done;

请注意,您需要调整脚本中的 Acceptheader,我猜您希望再次将 CSV 作为输出,而不是 RDF。