当有很多列时使用 readr::read_csv() 导入数据时覆盖列类型

Question

我正在尝试使用 R 中的 readr::read_csv 读取一个 csv 文件。我正在导入的 csv 文件大约有 150 列，我只包括示例的前几列。我希望将第二列从默认类型（当我执行 read_csv 时是日期）覆盖为字符或其他日期格式。

GIS Join Match Code Data File Year  State Name  State Code  County Name County   Code   Area Name   Persons: Total
G0100010    2008-2012   Alabama 1   Autauga County  1   Autauga County, Alabama 54590

df <- data.frame("GIS Join Match Code"="G0100010", "Data File" = "2008-2012", "State" = "Alabama", "County" = "Autauga County", "Population" = 54590)

问题是，当我使用 readr::read_csv 时，似乎我可能必须在覆盖 col_types 时使用所有变量（请参阅下面的错误）。这需要单独指定覆盖所有 150 列（？）。问题是：有没有办法指定覆盖特定列或命名对象列表的 col_type？在我的例子中，它只是覆盖列 "Data File Year".

我知道任何省略的列都会被自动解析，这对我的分析来说没问题。我认为它变得更加复杂，因为在我下载的文件中列名中有一个 space（例如，"Data File Year"、"State Code"）等

tempdata <- read_csv(df, col_types = "cc")
Error: You have 135 column names, but 2 columns

如果可能的话，我猜的另一个选择是跳过阅读第二列吗？

Answer 1

如果以后有人偶然发现这个问题，下面是对这个问题的更通用的回答。不太建议使用"skip"跳列，因为如果导入的数据源结构发生变化，这将无法工作。

在您的示例中，简单地设置默认列类型，然后定义任何不同于默认列的列可能会更容易。

例如，如果所有列通常都是 "d"，但日期列应该是 "D"，则加载数据如下：

  read_csv(df, col_types = cols(.default = "d", date = "D"))

或者，如果列日期应为 "D" 且列 "xxx" 应为 "i"，请按以下方式操作：

  read_csv(df, col_types = cols(.default = "d", date = "D", xxx = "i"))

如果您有多个列并且只有特定的例外情况（例如 "date" 和 "xxx"），则上面 "default" 的使用非常有用。

Answer 2

是的。例如，强制将数字数据视为字符：

examplecsv = "a,b,c\n1,2,a\n3,4,d"
read_csv(examplecsv)
# A tibble: 2 x 3
#      a     b     c
#  <int> <int> <chr>
#1     1     2     a
#2     3     4     d
read_csv(examplecsv, col_types = cols(b = col_character()))
# A tibble: 2 x 3
#      a     b     c
#  <int> <chr> <chr>
#1     1     2     a
#2     3     4     d

选项是：

col_character() 
col_date()
col_time() 
col_datetime() 
col_double() 
col_factor() # to enforce, will never be guessed
col_integer() 
col_logical() 
col_number() 
col_skip() # to force skip column

更多：http://readr.tidyverse.org/articles/readr.html

当有很多列时使用 readr::read_csv() 导入数据时覆盖列类型

Override column types when importing data using readr::read_csv() when there are many columns

csv

file-io

r

dataframe

dplyr