如何为给定序列编写正则表达式
How to write regular expression for given sequence
我有下面的序列,我需要为其编写正则表达式。任何关于如何开始的提示或技巧将不胜感激!
更新:我的任务是为给定的 'alignment' 编写一个正则表达式,而不是我之前误读的 'sequence'。此外,我添加了空格以显示序列在作业中的外观,只是中间没有空格。
QIQAAKIWAAKPYVDESRISIWGWSYGGF
QIAAAKHWAQKDYIDEDRLAIWGWSYGGY
QIQAAKAWGKKPYVDKTRMAIWGWSYGG
QIEATRQFSKMGFVDDKRIAIWGWSYGGY
QIEAARQFLKMGFVDSKRVAIWGWSYGGY
QVFAAKELLKNRWADKDHIGIWGWSYGGF
QVFAAKEVLKNRWADKDHIGIWGXSYGGF
QVFAAKELLKNRWADKDHIGIWGWSYGGF
QVFAAKELLKNRWADKDHIGIWGWSYGGF
VGSASVSMMPRLPRLPQLLDQPGSSSGGY
FIAAAEYLKAEGYTRTDRLAIRGGSNGGL
FQCAAEYLIKEGYTSPKRLTINGGSNGGL
FQCAAEYLIKEGYTTSKRLTINGGSNGGL
FIAAGEYLQKNGYTSKDYMALSGRSNGGL
YLDACDALLKLGYGSPSLCYAMGGSAGGM
FIAAAKHLIDQNYTSPTKMAARGGSAGGL
QITAVRKFIEMGFIDEKRIAIWGWSYGGY
QLTAVRKFIEMGFIDEERIAIWGWSYGGY
这些是我要采取的步骤:
1) 比对序列
2) 读取比对的每一列并生成每个位置可能不同氨基酸的列表
3) 每个位置现在都可以用一个列表表示,该列表很容易转换为正则表达式
对于前三个位置,它将是:
(Q|V|F|Y)(I|V|G|Q|L)(T|A|D|L|S|F|E|Q)
哦,大声喊出来,如果你想成为一名生物统计研究生,学习一些生物学!
我有下面的序列,我需要为其编写正则表达式。任何关于如何开始的提示或技巧将不胜感激!
更新:我的任务是为给定的 'alignment' 编写一个正则表达式,而不是我之前误读的 'sequence'。此外,我添加了空格以显示序列在作业中的外观,只是中间没有空格。
QIQAAKIWAAKPYVDESRISIWGWSYGGF
QIAAAKHWAQKDYIDEDRLAIWGWSYGGY
QIQAAKAWGKKPYVDKTRMAIWGWSYGG
QIEATRQFSKMGFVDDKRIAIWGWSYGGY
QIEAARQFLKMGFVDSKRVAIWGWSYGGY
QVFAAKELLKNRWADKDHIGIWGWSYGGF
QVFAAKEVLKNRWADKDHIGIWGXSYGGF
QVFAAKELLKNRWADKDHIGIWGWSYGGF
QVFAAKELLKNRWADKDHIGIWGWSYGGF
VGSASVSMMPRLPRLPQLLDQPGSSSGGY
FIAAAEYLKAEGYTRTDRLAIRGGSNGGL
FQCAAEYLIKEGYTSPKRLTINGGSNGGL
FQCAAEYLIKEGYTTSKRLTINGGSNGGL
FIAAGEYLQKNGYTSKDYMALSGRSNGGL
YLDACDALLKLGYGSPSLCYAMGGSAGGM
FIAAAKHLIDQNYTSPTKMAARGGSAGGL
QITAVRKFIEMGFIDEKRIAIWGWSYGGY
QLTAVRKFIEMGFIDEERIAIWGWSYGGY
这些是我要采取的步骤:
1) 比对序列
2) 读取比对的每一列并生成每个位置可能不同氨基酸的列表
3) 每个位置现在都可以用一个列表表示,该列表很容易转换为正则表达式
对于前三个位置,它将是:
(Q|V|F|Y)(I|V|G|Q|L)(T|A|D|L|S|F|E|Q)
哦,大声喊出来,如果你想成为一名生物统计研究生,学习一些生物学!