人类的1至22号染色体 | Andreas Bolzer et al.
这8%的缺失,源于20年前测序技术的限制。当时使用的测序方法是“短读长测序”技术(“short-read" technology),一次只能读取很短的一段基因序列。打个比方,如果把基因组的一部分想象成段落中的一句话,比如“今天早上小明吃了个包子”,通过短读长测序,研究者能得到很多简短的小部件,比如“今天”、“小明”、“明吃”、“包子”;再经过“拼图”式的分析,他们就可以拼凑出这句完整的话。
然而,研究者虽然能知道这段基因里含有的简短小序列,却无法知道这段基因被重复了多少次。也就是说,研究者能够拼凑出“今天早上小明吃了个包子”这句话,但却不知道这句话在整个段落里是否重复出现、重复了多少次。正因缺少这些信息,在过去的20年里,重复序列一直是基因组学研究的一大难题。
直到两种新技术诞生,人类基因组学的研究才迎来了转折点。这两种技术都属于“长读长测序”技术(“long-read" technology),一种是牛津纳米孔测序(Oxford Nanopore DNA sequencing),它可以一次读取多达100万个DNA碱基,准确度中等;另一种是PacBio HiFi测序,一次只能读取2万个碱基,但准确度近乎完美。这两种技术,都可以一次性测出大块的DNA序列,研究者可以直接看到一整个句子甚至段落,也就能知道某个序列连续重复了多少次。