在 R 中读取 txt 文件中的长 RNA 字符串

Question

我在文本格式文件中有一个 RNA 字符串。我想从 txt 文件中 import/read 获取 R 中 Biostrings 包的翻译功能。

我之前尝试过 readRNAStringSet，但是这个函数读取 FASTA 和 FASTQ 格式，但是，我的文件不是 FASTA 或 FASTQ，而是 txt，我想从那个文件中读取。

在我的文件中，没有引号，但在最后一个代码之后，有 space。最后，当我读取这个 RNA 字符串时，我想使用 Biostrings 包中的 "translate" 函数将它翻译成它的蛋白质氨基酸。

例如，我在 "txt" 文件中有下面的 RNA 字符串，文件中没有引号也没有其他符号，只有一个字符串：

AUGCCGGUAAAGCGUGUCACAGAACUCCAUUUACUAUUAUGCCUUUGUGCGGGAGGAAGUUUCAGAAAGUACAUUCAUCC‌UGGA

Answer 1

您可以简单地 readLines 然后转换为 RNAStringSet：

> writeLines(c("AUGC", "AGCU", "UUGA", "CGAU"), "foo") # Dummy input
> RNAStringSet(readLines("foo"))
  A RNAStringSet instance of length 4
    width seq
[1]     4 AUGC
[2]     4 AGCU
[3]     4 UUGA
[4]     4 CGAU

在 R 中读取 txt 文件中的长 RNA 字符串

Read a long RNA string in txt file in R

string

r

bioconductor