为什么从我的 Github 加载 CSV 时出现 "Error tokenizing data" 错误,但当我从硬盘驱动器加载完全相同的文件时却没有出现错误?
Why do I get an "Error tokenizing data" error loading a CSV from my Github but no error when I load the exact same file from my hard drive?
我是 Python 的新手。我正在尝试学习如何从不同来源加载数据集。我在 Stack Overflow 或 Google 搜索中没有发现以下问题。我有一个 .csv 数据文件,最初是从科学数据存储库下载的。当我从硬盘加载它时没有问题,我可以快速了解数据的基本事实,看到只有两个 NaN,headers 列中没有语法错误。当我尝试从我的 Github 存储库加载它时,我得到以下信息:
代码:
import pandas as pd
import numpy as np
df = pd.read_csv('https://github.com/hXXX/YYY/blob/master/CCCC.csv')
这会调用以下错误输出:
Error:
---------------------------------------------------------------------------
ParserError Traceback (most recent call last)
<ipython-input-34-d5c99e7779b6> in <module>
----> 1 df = pd.read_csv('https://github.com/hXXX/YYY/blob/master/CCCC.csv')
...
...
ParserError: Error tokenizing data. C error: Expected 1 fields in line 75, saw 4
我在几个 Stack Overflow 问题中查看了此类错误,在这些问题中发现了数据文件中的输入错误。但是我发现我的 csv 文件中有 none,特别是当我比较硬盘驱动器上的文件和我的 Github 存储库中的文件时(我将文件从硬盘加载到我的存储库中驾驶)。我从 Stack Overflow 获得了加载到 Python 的代码,所以假设它应该可以工作。该文件不是很大,(3696, 22)。我感谢任何帮助。
谢谢
希伯
您正在使用的 URL 指向 GitHub 的网络查看器以获取存储库内容,因此下载的数据是网页,而不是原始 CSV 文件。 GitHub 对原始文件内容使用不同的 URL 方案,您可以在查看任何给定文件时使用 Web 界面中显示的 'Raw' 按钮来查看它。对于您的示例,URL 将是 https://raw.githubusercontent.com/hXXX/YYY/master/CCCC.csv
。
请注意,GitHub 并未正式提供这种以编程方式从其存储库中获取数据的方式,因此它可能无法永远工作。
我是 Python 的新手。我正在尝试学习如何从不同来源加载数据集。我在 Stack Overflow 或 Google 搜索中没有发现以下问题。我有一个 .csv 数据文件,最初是从科学数据存储库下载的。当我从硬盘加载它时没有问题,我可以快速了解数据的基本事实,看到只有两个 NaN,headers 列中没有语法错误。当我尝试从我的 Github 存储库加载它时,我得到以下信息:
代码:
import pandas as pd
import numpy as np
df = pd.read_csv('https://github.com/hXXX/YYY/blob/master/CCCC.csv')
这会调用以下错误输出:
Error:
---------------------------------------------------------------------------
ParserError Traceback (most recent call last)
<ipython-input-34-d5c99e7779b6> in <module>
----> 1 df = pd.read_csv('https://github.com/hXXX/YYY/blob/master/CCCC.csv')
...
...
ParserError: Error tokenizing data. C error: Expected 1 fields in line 75, saw 4
我在几个 Stack Overflow 问题中查看了此类错误,在这些问题中发现了数据文件中的输入错误。但是我发现我的 csv 文件中有 none,特别是当我比较硬盘驱动器上的文件和我的 Github 存储库中的文件时(我将文件从硬盘加载到我的存储库中驾驶)。我从 Stack Overflow 获得了加载到 Python 的代码,所以假设它应该可以工作。该文件不是很大,(3696, 22)。我感谢任何帮助。 谢谢 希伯
您正在使用的 URL 指向 GitHub 的网络查看器以获取存储库内容,因此下载的数据是网页,而不是原始 CSV 文件。 GitHub 对原始文件内容使用不同的 URL 方案,您可以在查看任何给定文件时使用 Web 界面中显示的 'Raw' 按钮来查看它。对于您的示例,URL 将是 https://raw.githubusercontent.com/hXXX/YYY/master/CCCC.csv
。
请注意,GitHub 并未正式提供这种以编程方式从其存储库中获取数据的方式,因此它可能无法永远工作。