什么是基因测序,为什么需要云计算 (3)

这里有个介绍Illumina测序原理的视频(3分钟),强烈推荐打开看一看,对理解二代测序原理将有很大的帮助:

2.4      三代测序技术

虽然目前测序市场还是以二代测序技术为主要占有者,但是新的测序方法也不短出现。以PacBio公司的SMRT和Oxford Nanopore Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术。与前两代相比,最大的特点就是 单分子测序,测序过程无需进行PCR扩增,超长读长,以PacBio SMRT技术的测序读长为例,平均达到10Kb-15Kb,是二代测序技术的100倍以上。

image.png

第二代测序技术的优点是通量大大提升,成本大大减低,使得昔日王榭堂前燕,可以飞入寻常百姓家。总之,只有变成白菜价,才能真正对大众有意义;但它的缺点是所引入PCR过程会在一定程度上增加测序的错误率,并且具有系统偏向性,同时读长也比较短。第三代测序技术是为了解决第二代所存在的缺点而开发的,它的根本特点是单分子测序,不需要任何PCR的过程,这是为了能有效避免因PCR偏向性而导致的系统错误,同时提高读长,但这个技术还不是很成熟,需要再进化,成本也偏高。

3      云计算与基因测序 3.1      测序重组的计算

回到当前最普遍的二代测序技术。从测序原理可以知道,整个过程就是先目标打碎,然后重新拼接还原的过程。好比给你一副拼图,先打散,再照着封面参考图重新把图拼起来。听着很比较简单,我们仔细打开来看一看。

image.png

   拼图片数巨大。基因链的长度是非常的长的,30亿bp。而每个小片段只有150bp,也就是一条链就会有至少1千万片的片段。

 好几副拼图凑一起。测序过程中,需要将同一条链,进行复制,这样打碎后还原,可以保证结果可以覆盖目标基因链的绝大部分。

重叠的拼图片。由于测序仪的1和2步骤,导致会存在大量重复片段

  缺少部分拼图片。测序化学试剂原因,测序后期的精度降低,导致部分低质量的结果是要被丢弃,不能参与还原过程的。

 存在干扰拼图片。由于每一个人的基因肯定会有不同,所以目标基因与参考组肯定会存在差异。另外,采样的时候,也许会有其他细菌杂志干扰。

 拼图本身就存在重复。同一条基因链中,本身就存在大量的重复序列。

image.png

以上整个过程,好比给你一座堆满了拼图片的大山,让你拼一幅图出来。这个工作量,你懂的。这里找了一个比较合适图,各位感受一下:

image.png

于是,重点来了。还原整个拼图的过程,就是使用计算机,开始各种算法,各种运算。

这里我们打开局部组装的细节看一看:

image.png

一开始由测序仪随机打断,然后软件进行“对齐”,对齐之后,需要“去重”,去重之后,再进行“合并”。最终得到想要测序的目标序列的顺序。

同时,关于拼图还原的方法,也是百家争艳。你喜欢先拼局部,我喜欢全图先找位置。各种软件各种版本,纷至沓来。。。

image.png

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwpdsp.html