从一组 json 文件中提取特定数据
extract specific data from a group of json-files
免责声明:我知道以前有人问过类似的问题并回答过,但作为外行,我无法理解一些术语以及我需要做什么或我应该使用哪个 programme/software。如果有人能以一种易于理解的方式解释它,如果可能的话,步骤清晰,我将不胜感激。我正在尝试学习如何使用我的计算机分析和提取数据,但我几周前才刚刚开始,而且在这方面还很陌生。谢谢!
我收集了大量 json 文件(数千个),每个文件都包含有关单个在线 post 的元数据,例如 post-ID、用户名(和全名,如果由用户public),时间戳等。我想从每个文件中提取此信息而不必手动执行此操作,但我自己还不够熟悉我的命令行 Python 或 R(或其他可能有用的东西)来弄清楚我如何做这个。我想将此数据导出为一个 Excel- 或 csv 文件,其中每一行包含一个 post 的所有提取数据,每一列包含一种类型的提取数据。
我遇到的另一个问题是,当有人评论 post 时,某些文件将包含几组同名的不同数据。但是,我只需要有关主要 post 的信息(因此该信息第一次出现在文件中)。
(部分)文件中的信息是这样的(所有个人信息已换成中立替身信息):
"fact_check_information": null,
"fact_check_overall_rating": null,
"gating_info": null,
"has_ranked_comments": false,
"id": "***0000000000000000000***",
"is_ad": false,
"is_video": false,
"location": null,
"media_preview": "xxxxxxx/xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
"owner": {
"blocked_by_viewer": false,
"followed_by_viewer": false,
"full_name": "***Jane Doe***",
"has_blocked_viewer": false,
"id": "000000000",
"is_private": false,
"is_unpublished": false,
"is_verified": false,
"profile_pic_url": "https://xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.xxxxxxxxxxxxxxxxxxxxxxxxxxxx",
"requested_by_viewer": false,
"username": "***janedoe***"
},
"shortcode": "XXXXXXXXXXX",
"taken_at_timestamp": ***0000000000***,
"thumbnail_resources": [
我在要提取的信息周围添加了三个星号。
有谁知道我可以如何提取和导出这些信息?
非常感谢您!
亲切的问候
您可以安装 mongodb... 导入 json 并导出 csv... mongodb 将基本上从任何 json 创建一个 table数据。对于嵌套字典,它创建嵌套链接 tables。因此,双击您想要进一步扩展的结构,仅将内部 table 导出到 csv.
免责声明:我知道以前有人问过类似的问题并回答过,但作为外行,我无法理解一些术语以及我需要做什么或我应该使用哪个 programme/software。如果有人能以一种易于理解的方式解释它,如果可能的话,步骤清晰,我将不胜感激。我正在尝试学习如何使用我的计算机分析和提取数据,但我几周前才刚刚开始,而且在这方面还很陌生。谢谢!
我收集了大量 json 文件(数千个),每个文件都包含有关单个在线 post 的元数据,例如 post-ID、用户名(和全名,如果由用户public),时间戳等。我想从每个文件中提取此信息而不必手动执行此操作,但我自己还不够熟悉我的命令行 Python 或 R(或其他可能有用的东西)来弄清楚我如何做这个。我想将此数据导出为一个 Excel- 或 csv 文件,其中每一行包含一个 post 的所有提取数据,每一列包含一种类型的提取数据。
我遇到的另一个问题是,当有人评论 post 时,某些文件将包含几组同名的不同数据。但是,我只需要有关主要 post 的信息(因此该信息第一次出现在文件中)。
(部分)文件中的信息是这样的(所有个人信息已换成中立替身信息):
"fact_check_information": null,
"fact_check_overall_rating": null,
"gating_info": null,
"has_ranked_comments": false,
"id": "***0000000000000000000***",
"is_ad": false,
"is_video": false,
"location": null,
"media_preview": "xxxxxxx/xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
"owner": {
"blocked_by_viewer": false,
"followed_by_viewer": false,
"full_name": "***Jane Doe***",
"has_blocked_viewer": false,
"id": "000000000",
"is_private": false,
"is_unpublished": false,
"is_verified": false,
"profile_pic_url": "https://xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.xxxxxxxxxxxxxxxxxxxxxxxxxxxx",
"requested_by_viewer": false,
"username": "***janedoe***"
},
"shortcode": "XXXXXXXXXXX",
"taken_at_timestamp": ***0000000000***,
"thumbnail_resources": [
我在要提取的信息周围添加了三个星号。
有谁知道我可以如何提取和导出这些信息? 非常感谢您!
亲切的问候
您可以安装 mongodb... 导入 json 并导出 csv... mongodb 将基本上从任何 json 创建一个 table数据。对于嵌套字典,它创建嵌套链接 tables。因此,双击您想要进一步扩展的结构,仅将内部 table 导出到 csv.