从一组 json 文件中提取特定数据

Question

免责声明：我知道以前有人问过类似的问题并回答过，但作为外行，我无法理解一些术语以及我需要做什么或我应该使用哪个 programme/software。如果有人能以一种易于理解的方式解释它，如果可能的话，步骤清晰，我将不胜感激。我正在尝试学习如何使用我的计算机分析和提取数据，但我几周前才刚刚开始，而且在这方面还很陌生。谢谢！

我收集了大量 json 文件（数千个），每个文件都包含有关单个在线 post 的元数据，例如 post-ID、用户名（和全名，如果由用户public），时间戳等。我想从每个文件中提取此信息而不必手动执行此操作，但我自己还不够熟悉我的命令行 Python 或 R（或其他可能有用的东西）来弄清楚我如何做这个。我想将此数据导出为一个 Excel- 或 csv 文件，其中每一行包含一个 post 的所有提取数据，每一列包含一种类型的提取数据。

我遇到的另一个问题是，当有人评论 post 时，某些文件将包含几组同名的不同数据。但是，我只需要有关主要 post 的信息（因此该信息第一次出现在文件中）。

(部分)文件中的信息是这样的（所有个人信息已换成中立替身信息）：

"fact_check_information": null,
        "fact_check_overall_rating": null,
        "gating_info": null,
        "has_ranked_comments": false,
        "id": "***0000000000000000000***",
        "is_ad": false,
        "is_video": false,
        "location": null,
        "media_preview": "xxxxxxx/xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
        "owner": {
            "blocked_by_viewer": false,
            "followed_by_viewer": false,
            "full_name": "***Jane Doe***",
            "has_blocked_viewer": false,
            "id": "000000000",
            "is_private": false,
            "is_unpublished": false,
            "is_verified": false,
            "profile_pic_url": "https://xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.xxxxxxxxxxxxxxxxxxxxxxxxxxxx",
            "requested_by_viewer": false,
            "username": "***janedoe***"
        },
        "shortcode": "XXXXXXXXXXX",
        "taken_at_timestamp": ***0000000000***,
        "thumbnail_resources": [

我在要提取的信息周围添加了三个星号。

有谁知道我可以如何提取和导出这些信息？非常感谢您！

亲切的问候

Answer 1

您可以安装 mongodb... 导入 json 并导出 csv... mongodb 将基本上从任何 json 创建一个 table数据。对于嵌套字典，它创建嵌套链接 tables。因此，双击您想要进一步扩展的结构，仅将内部 table 导出到 csv.

从一组 json 文件中提取特定数据

extract specific data from a group of json-files

csv

excel

json

export

extract