从 DESeq 数据框中的行名中删除最后两个字符的问题

Question

提前感谢您的帮助

我有一个数据框，它来自一些分析和与 DESeq2 库的比较，但最后是一个看起来像这样的大数据框：

> resEvN
log2 fold change (MLE): Group ELI vs NIT 
Wald test p-value: Group ELI vs NIT 
DataFrame with 56202 rows and 6 columns
                           baseMean       log2FoldChange ...[6]
                          <numeric>            <numeric>
ENSG00000223972.4  2.78292492689073    -0.24207616846296
ENSG00000227232.4  735.590503798565   0.0496174362951506
ENSG00000243485.2  1.46155527975626  -0.0765072904209051
ENSG00000237613.2  1.48824886356107 -0.00915380882252464
ENSG00000268020.2 0.746673256410335  -0.0111420404366476

总共有 6 列和 56202 行。

我的问题是我需要在不影响 data.frame.

的情况下删除 row.name 末尾的“.X”

所以要将 ENSG00000268020.2 转换为 ENSG00000268020

我尝试了几件事，但似乎没有任何效果，例如：

row.names(sub_resEvN)= substr(row.names(sub_resEvN), nchar(row.names(sub_resEvN)), -2)

or

substr(rownames(sub_resEvN), nchar(rownames(sub_resEvN))-2, nchar(rownames(sub_resEvN)))

有什么想法吗？

谢谢

Answer 1

您不允许多个行名称具有相同的名称。如果有重复项，您必须使用修改后的名称创建一个新列。 amd 你还想要这个信息。

rownames(sub_resEvN) <- sub("\.\d$","",rownames(sub_resEvN))

或

sub_resEvN$New_Column <- sub("\.\d$","",rownames(sub_resEvN))

Answer 2

另一种选择是

 sub_resEvN$New_Column <-  trimws(rownames(sub_resEvN), whitespace = "\.\d$")

从 DESeq 数据框中的行名中删除最后两个字符的问题

Issue removing last two characters from rowname in a DESeq data frame

row

r

character