R:从 tar.gz 目录中读取单个文件

R: Read single file from within a tar.gz directory

考虑包含大量单个文件的目录的 tar.gz 文件。

在 R 中,我可以使用以下命令轻松提取各个文件的名称:

fileList <- untar(my_tar_dir.tar.gz, list=T)

仅使用 R 是否可以直接 read/load 将其中一个文件直接 read/load 到 R 中(也就是无需先解压并将文件写入磁盘)?

这是可能的,但我不知道有任何干净的实现(它可能存在)。下面是一些非常基本的 R 代码,在许多情况下应该可以使用(例如,存档中具有完整路径的文件名应少于 100 个字符)。在某种程度上,它只是以一种极其粗略的方式重新实现 "untar",但它会指向 gzip 文件中所需的文件。

第一个问题是您应该只从一开始就读取 gzip 文件。不幸的是,使用 "seek()" 将文件指针重新定位到所需文件在 gzip 文件中是不稳定的。

ParseTGZ<- function(archname){
  # open tgz archive
  tf <- gzfile(archname, open='rb')
  on.exit(close(tf))
  fnames <- list()
  offset <- 0
  nfile <- 0
  while (TRUE) {
    # go to beginning of entry
    # never use "seek" to re-locate in a gzipped file!
    if (seek(tf) != offset) readBin(tf, what="raw", n= offset - seek(tf))
    # read file name
    fName <- rawToChar(readBin(tf, what="raw", n=100))
    if (nchar(fName)==0) break
    nfile <- nfile + 1
    fnames <- c(fnames, fName)
    attr(fnames[[nfile]], "offset") <- offset+512
    # read size, first skip 24 bytes (file permissions etc)
    # again, we only use readBin, not seek()
    readBin(tf, what="raw", n=24)
    # file size is encoded as a length 12 octal string, 
    # with the last character being '[=10=]' (so 11 actual characters)
    sz <- readChar(tf, nchars=11) 
    # convert string to number of bytes
    sz <- sum(as.numeric(strsplit(sz,'')[[1]])*8^(10:0))
    attr(fnames[[nfile]], "size") <- sz
#    cat(sprintf('entry %s, %i bytes\n', fName, sz))
    # go to the next message
    # don't forget entry header (=512) 
    offset <- offset + 512*(ceiling(sz/512) + 1)
  }
# return a named list of characters strings with attributes?
  names(fnames) <- fnames
  return(fnames)
}

这将为您提供 tar.gz 存档中所有文件的确切位置和长度。 现在下一步是实际提取单个文件。您可以直接使用 "gzfile" 连接来完成此操作,但在这里我将使用 rawConnection()。这假定您的文件适合内存。

extractTGZ <- function(archfile, filename) {
  # this function returns a raw vector
  # containing the desired file
  fp <- ParseTGZ(archfile)
  offset <- attributes(fp[[filename]])$offset
  fsize <- attributes(fp[[filename]])$size
  gzf <- gzfile(archfile, open="rb")
  on.exit(close(gzf))
  # jump to the byte position, don't use seek()
  # may be a bad idea on really large archives...
  readBin(gzf, what="raw", n=offset)
  # now read the data into a raw vector
  result <- readBin(gzf, what="raw", n=fsize)
  result
}

现在,终于:

ff <- rawConnection(ExtractTGZ("myarchive", "myfile"))

现在您可以将 ff 视为(指向)您的文件。但它只存在于记忆中。