从一组 json 文件中提取特定数据

extract specific data from a group of json-files

免责声明:我知道以前有人问过类似的问题并回答过,但作为外行,我无法理解一些术语以及我需要做什么或我应该使用哪个 programme/software。如果有人能以一种易于理解的方式解释它,如果可能的话,步骤清晰,我将不胜感激。我正在尝试学习如何使用我的计算机分析和提取数据,但我几周前才刚刚开始,而且在这方面还很陌生。谢谢!

我收集了大量 json 文件(数千个),每个文件都包含有关单个在线 post 的元数据,例如 post-ID、用户名(和全名,如果由用户public),时间戳等。我想从每个文件中提取此信息而不必手动执行此操作,但我自己还不够熟悉我的命令行 Python 或 R(或其他可能有用的东西)来弄清楚我如何做这个。我想将此数据导出为一个 Excel- 或 csv 文件,其中每一行包含一个 post 的所有提取数据,每一列包含一种类型的提取数据。

我遇到的另一个问题是,当有人评论 post 时,某些文件将包含几组同名的不同数据。但是,我只需要有关主要 post 的信息(因此该信息第一次出现在文件中)。

(部分)文件中的信息是这样的(所有个人信息已换成中立替身信息):

"fact_check_information": null,
        "fact_check_overall_rating": null,
        "gating_info": null,
        "has_ranked_comments": false,
        "id": "***0000000000000000000***",
        "is_ad": false,
        "is_video": false,
        "location": null,
        "media_preview": "xxxxxxx/xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
        "owner": {
            "blocked_by_viewer": false,
            "followed_by_viewer": false,
            "full_name": "***Jane Doe***",
            "has_blocked_viewer": false,
            "id": "000000000",
            "is_private": false,
            "is_unpublished": false,
            "is_verified": false,
            "profile_pic_url": "https://xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.xxxxxxxxxxxxxxxxxxxxxxxxxxxx",
            "requested_by_viewer": false,
            "username": "***janedoe***"
        },
        "shortcode": "XXXXXXXXXXX",
        "taken_at_timestamp": ***0000000000***,
        "thumbnail_resources": [

我在要提取的信息周围添加了三个星号。

有谁知道我可以如何提取和导出这些信息? 非常感谢您!

亲切的问候

您可以安装 mongodb... 导入 json 并导出 csv... mongodb 将基本上从任何 json 创建一个 table数据。对于嵌套字典,它创建嵌套链接 tables。因此,双击您想要进一步扩展的结构,仅将内部 table 导出到 csv.