Метод дробовика

Метод дробовика (англ. Shotgun sequencing) — метод, используемый для секвенирования длинных участков ДНК. Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК данного организма, на основе которых может быть восстановлена исходная последовательность ДНК[1].

Предпосылкой для возникновения метода дробовика являлся тот факт, что первые методы секвенирования были способны восстанавливать лишь небольшие последовательности ДНК порядка 1000 нуклеотидов[2], следовательно, для секвенирования более длинных последовательностей требовалось разработать новый подход. При секвенировании методом дробовика ДНК случайным образом фрагментируется на мелкие участки, которые затем секвенируют любым доступным методом, например, методом секвенирования по Сэнгеру. Полученные перекрывающиеся случайные фрагменты ДНК затем собирают с помощью специального программного обеспечения в одну целую последовательность[1].

Метод дробовика использовался при получении первых полных геномов организмов[1].

Пример

Для примера, допустим, что имеются два случайных фрагмента, полученных методом дробовика:

Цепь Последовательность
Первоначальная AGCATGCTGCAGTCATGCTTAGGCTA
Первый фрагмент AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Второй фрагмент AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Восстановленная последовательность AGCATGCTGCAGTCATGCTTAGGCTA

Данный пример является крайне упрощённым. Однако он отражает одну из важнейших особенностей процесса секвенирования генома методом дробовика. А именно, ни одно из четырёх прочтений, представленных в таблице, не покрывает полностью всю исходную последовательность. Однако исходная последовательность может быть восстановлена исходя из того, что каждый нуклеотид из исходной последовательности встречается хотя бы в одном прочтении, а за счёт частичного перекрытия прочтений — более чем в одном. [1].

При секвенировании методом дробовика реальных молекул ДНК получаются миллионы прочтений[3], некоторые из которых могут содержать ошибки, которые затем должны быть собраны в исходную последовательность. Разумеется, работа такого объёма не может быть проделана вручную, поэтому для сборки последовательности ДНК из прочтений используется специальное программное обеспечение. Задача усложняется тем, что ДНК часто содержит повторяющие последовательности, а значит, похожие прочтения могут быть получены из удалённых друг от друга частей ДНК[4].

Для того, чтоб справиться с этой проблемой, секвенирование обычно проводят таким образом, чтобы каждый нуклеотид исходной последовательности встречался не в одном, а сразу во многих прочтениях. Так, например, при секвенировании генома человека использовалось 12-кратное покрытие, то есть каждый нуклеотид в среднем встречался в 12 прочтениях[5].

Секвенирование полного генома методом дробовика

История

Идея использования метода дробовика для секвенирования малых геномов (4000—7000 т.п.н.) была предложена в 1979 году[1]. А два года спустя — в 1981 году — метод дробовика был впервые применён на практике для секвенирования полного генома вируса мозаики цветной капусты[6][7].

Метод

Процесс секвенирования методом дробовика состоит из нескольких этапов. Сначала секвенируемая ДНК подвергается амплификации. Полученные копии ДНК разрезаются на фрагменты с помощью сайт-неспецифичных нуклеаз. Сайт-неспецифичность важна для того, чтобы получались перекрывающиеся фрагменты[8][9]. Из полученных фрагментов строится геномная библиотека путём встраивания фрагментов в некоторый вектор. Из полученной геномной библиотеки случайным образом выбирается некоторое подмножество фрагментов, каждый из которых секвенируется, например, методом Сэнгера. Затем с помощью специального программного обеспечения из полученных нуклеотидных последовательностей фрагментов, называемых прочтениями, собирается нуклеотидная последовательность исходной ДНК[1].

Сборка

В процессе сборки исходной последовательности ДНК перекрывающиеся прочтения собираются в более крупные последовательности, называемые контигами. Контиги представляют собой непрерывные части восстанавливаемой последовательности ДНК. Контиги в свою очередь объединяются в ещё более крупные последовательности — скаффолды — которые уже не обязательно являются непрерывными частями исходной ДНК и могут содержать пропуски. Если секвенирование проводилось методом парных прочтений, то расстояние между контигами в скаффолде может быть выведено на основании информации о позиции спаренных прочтений[10]. В зависимости от расстояния между контигами могут быть использованы различные методы для заполнения пропусков в скаффолдах. Если зазор мал (5—20 т.п.н.), то данная область амплифицируется с помощью ПЦР, а затем секвенируется. Если зазор большой (> 20 т.п.н.), то пропущенный фрагмент клонируют в специальных векторах, таких как искусственная бактериальная хромосома, с последующим секвенированием вектора[11].

Секвенирование парных прочтений

По мере того, как стали секвенировать всё более и более длинные последовательности ДНК, стало понятно, что полезно бывает секвенировать обе цепи ДНК. Во-первых, нередки случаи, когда из-за особенностей конформации ДНК определение нуклеотида на некоторой позиции на одной из цепей крайне затруднительно, тогда как на второй цепи нуклеотид в той же позиции может быть легко определён. Во-вторых, информация о взаимном расположении спаренных прочтений может быть использована для определения расстояния между контигами в скаффолде. Модификация метода дробовика, при которой секвенируются обе цепи ДНК, называется методом секвенирования парных прочтений или «двуствольным» методом дробовика. Данный метод получил широкое распространение и использовался, в частности, при секвенировании генома человека[5].

При секвенировании парных прочтений ДНК разрезается на случайные фрагменты, которые затем группируются по весу (обычно 2, 10, 50 и 150 т.п.н.) и клонируются в векторах. Клоны секвенируют с обоих концов с использованием метода обрыва цепи, в результате которого образуются две коротких последовательности. Каждая последовательность называется конечным прочтением или просто прочтением, а две считанные последовательности с одного и того же клона — парными концевыми. Так как длина прочтений при использовании метода обрыва цепи обычно не превышает 1000 пар оснований, то во всех, кроме самых маленьких клонов, парные концы будут перекрываться редко[12].

Первое опубликованное описание использования метода секвенирования парных концов датировано 1990 годом[13]. Эта работа была посвящена секвенированию человеческого гена гипоксантин-гуанинфосфорибозилтрансферазы, но парные концы в ней использовались лишь для устранения пропусков в последовательности после применения метода дробовика в его классической форме. В 1991 году было опубликовано первое теоретическое описание секвенирования парных концов в его полноценной форме[14], которое предполагало использование фрагментов постоянной длины. В то время считалось, что при секвенировании парных концов оптимально использовать фрагменты, длина которых втрое больше длины прочтений. В 1995 году было показано[12], что при секвенировании парных концов возможно использовать фрагменты разных размеров, тем самым продемонстрировано, что данный подход может быть использован для секвенирования длинных последовательностей ДНК. Впоследствии данный подход активно использовался при секвенировании геномов различных организмов: генома гемофильной палочки в 1995 году[15], генома дрозофилы (плодовой мушки) в 2000 году[16] и наконец генома человека[5] в 2001 году.

Покрытие

Покрытие — это среднее число прочтений, покрывающих одну позицию в реконструированной последовательности. Оно может быть рассчитано исходя из длины исходного генома (), количества прочтений(), и средней длины прочтения (), как: . Также иногда покрытием называется доля позиций генома, покрываемых прочтениями. Высокое покрытие в методе дробовика необходимо, поскольку оно позволяет избавиться от ошибок сборки, связанных с наличием в ДНК повторяющихся последовательностей[17].

Иерархическое секвенирование методом дробовика

Во время полногеномного секвенирования методом дробовика (верх) целый геном разрезается случайным образом на фрагменты, которые затем секвенируются и собираются в целую последовательность. Во время иерархического секвенирования методом дробовика (низ) геном сначала разбивается на крупные фрагменты. После упорядочивания этих фрагментов, они разбиваются на более мелкие части, которые уже могут быть подвергнуты секвенированию

Мотивация

Теоретически метод дробовика может быть применён к геномам любого размера, однако изначально возможность его реального применения для полногеномного секвенирования ставилась под сомнение и из-за технических сложностей, возникающих при обработке больших объёмов данных, и из-за дополнительных сложностей, возникающих в связи с наличием огромного количества повторяющихся участков в больших геномах[18]. Возникновение метода иерархического секвенирования сделало возможным применение метода дробовика к большим геномам на практике.

Метод

Амплифицированный геном сначала режут на крупные куски (50—200 т.п.н.) и клонируют в бактериальном хозяине с использованием искусственной бактериальной хромосомы. Поскольку несколько копий генома были разрезаны случайным образом, фрагменты, также именующиеся BAC-контигами, содержащиеся в этих клонах, имеют разные концы, а значит можно найти скаффолд, имеющий удовлетворительное покрытие и покрывающий весь геном целиком. Такой скаффолд называется покрывающим путём[19].

Набор BAC контигов, покрывающих всю рассматриваю область генома, составляют покрывающий путь

После того как покрывающий путь найден, BAC-контиги, формирующие этот путь, режутся случайным образом на более мелкие фрагменты, которые затем секвенируются с помощью метода дробовика. Хотя нуклеотидные последовательности BAC контигов неизвестны, можно определить их расположение друг относительно друга, а эту информацию впоследствии использовать для построения покрывающего пути[19].

Перекрывающиеся клоны могут быть идентифицированы несколькими способами. Один из способов — это использование небольшой радиоактивно или химически помеченной последовательности ДНК (STS). Такая последовательность гибридизируется на микрочипе, на котором воспроизводятся клоны[19]. Таким образом идентифицируются все клоны, содержащие помеченную последовательность. Конец одного из этих клонов секвенируется и используется как новая STS-последовательность. Такой итеративный процесс называется хромосомной ходьбой[20].

Другой способ идентификации пересекающихся клонов заключается в использовании ферментов рестрикции. Определённый участок генома обрабатывается набором нуклеаз рестрикции, после чего производится сравнение размеров полученных фрагментов ДНК. Это позволяет построить рестрикционную карту, на которой указано положение каждого сайта рестрикции относительно других участков[19]. Такой метод геномного отображения называется рестрикционным картированием, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне[21].

Необходимость построения обширной BAC-библиотеки и выбора покрывающего пути делает метод иерархического секвенирования значительно более медленным и трудоёмким в сравнении с полногеномным секвенированием методом дробовика. И теперь, когда технологии позволяют производить необходимые объёмы вычислений достаточно быстро, а данные стали достаточно достоверными, полногеномное секвенирование методом дробовика вытесняет иерархическое секвенирование, так как является более эффективным как из соображений скорости, так и из соображения издержек[18].

Метод дробовика и методы секвенирования нового поколения

Классический метод дробовика был основан на методе Сэнгера и являлся наиболее передовым методом секвенирования геномов приблизительно до 2005 года. Метод дробовика применяется и по сей день, однако на смену ему пришли новые технологии секвенирования, в отношении которых часто используется собирательное название технологии секвенирования нового поколения. Эти технологии производят более короткие прочтения (порядка 25—500 п.н.), но с очень высокой скоростью (порядка миллиона прочтений в день)[3]. Как следствие, увеличивается покрытие, но процесс сборки генома из прочтений становится более вычислительно трудоёмким. Итого методы секвенирования нового поколения в сравнении с методом дробовика требуют больших вычислительных ресурсов, однако позволяют получить последовательность полного генома за более короткий срок[22].

Примечания

  1. 1 2 3 4 5 6 Staden R. A strategy of DNA sequencing employing computer program (англ.) // Nucleic Acids Research. — 1979. — Vol. 6, no. 7. Архивировано 5 марта 2016 года.
  2. Sanger F., Nicklen S., Coulson A. R. DNA sequencing with chain-terminating inhibitors (англ.) // PNAS. — 1977. — Vol. 74, no. 12. — P. 5463—5467. Архивировано 2 апреля 2017 года.
  3. 1 2 Voelkerding K. V., Dames S. A., Durtschi J. D. Next Generation Sequencing: From Basic Research to Diagnostics (англ.) // Clinical Chemistry. — 2009. — Vol. 55, no. 4. — P. 41—47. Архивировано 14 мая 2016 года.
  4. Jason de Koning A. P., Gu W., Castoe T. A. et al. Repetitive Elements May Comprise Over Two-Thirds of the Human Genome (англ.) // PLoS Genetics. — 2011. — Vol. 7, no. 12. Архивировано 2 июля 2017 года.
  5. 1 2 3 Lander E. S., Linton L. M., Birren B. et al. Initial sequencing and analysis of the human genome (англ.) // Nature. — 2001. — Vol. 409, no. 6822. — P. 860—921. Архивировано 15 июня 2018 года.
  6. Gardner R. C., Howarth A. J., Hahn P., Brown-Luedi M., Shepherd R. J., Messing J. The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing (англ.) // Nucleic Acids Research. — 1981. — Vol. 9, no. 12. — P. 2871—2888. Архивировано 15 сентября 2019 года.
  7. Doctrow B. Profile of Joachim Messing (англ.) // PNAS. — 2016. — Vol. 113, no. 29. — P. 7935—7937. Архивировано 26 мая 2018 года.
  8. Staden R. A strategy of DNA sequencing employing computer programs (англ.) // Nucleic Acids Research. — 1979. — Vol. 6, no. 7. — P. 2601—2610. Архивировано 1 декабря 2020 года.
  9. Anderson S. Shotgun DNA sequencing using cloned DNase I-generated fragments (англ.) // Nucleic Acids Research. — 1981. — Vol. 9, no. 13. — P. 3015—3027. Архивировано 22 декабря 2015 года.
  10. Fullwood M. J., Wei C. L., Liu E. T. et al. Next-generation DNA sequencing of paired-end tags (PET) for transcriptome and genome analyses (англ.) // Genome Research. — 2009. — Vol. 19, no. 4. — P. 521—532. Архивировано 20 мая 2016 года.
  11. Gregory S. Contig Assembly (англ.) // Encyclopedia of Life Sciences. — 2005. Архивировано 24 июля 2017 года.
  12. 1 2 Roach J. C., Boysen C., Wang K., Hood L. Pairwise end sequencing: a unified approach to genomic mapping and sequencing (англ.) // Genomics. — 1995. — Vol. 26, no. 2. — P. 345—353. Архивировано 2 октября 2016 года.
  13. Edwards A., Caskey T. Closure strategies for random DNA sequencing (англ.) // A Companion to Methods in Enzymology. — 1991. — Vol. 3, no. 1. — P. 41—47. Архивировано 24 сентября 2015 года.
  14. Edwards A., Voss H., Rice P., Civitello A., Stegemann J., Schwager C., Zimmerman J., Erfle H., Caskey T., Ansorge W. Automated DNA sequencing of the human HPRT locus (англ.) // Genomics. — 1990. — Vol. 6, no. 4. — P. 593—608. Архивировано 24 декабря 2013 года.
  15. Fleischmann R. D. et al. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd (англ.) // Science. — 1995. — Vol. 269, no. 5223. — P. 496—512. Архивировано 7 марта 2016 года.
  16. Adams M. D. et al. The genome sequence of Drosophila melanogaster (англ.) // Science. — 2000. — Vol. 287, no. 5461. — P. 2185—2195. Архивировано 12 апреля 2016 года.
  17. Meyerson M., Gabriel S., Getz G. Advances in understanding cancer genomes through second-generation sequencing. (англ.) // Nature Reviews Genetics. — 2010. — Vol. 11, no. 10. — P. 685—696. Архивировано 14 декабря 2015 года.
  18. 1 2 Venter J. C. Shotgunning the Human Genome: A Personal View (англ.) // Encyclopedia of Life Sciences. — 2006.
  19. 1 2 3 4 Dear P. H. Genome Mapping (англ.) // Encyclopedia of Life Sciences. — 2005. Архивировано 3 июня 2016 года.
  20. Chinault A. C., Carbon J. Overlap hybridization screening: Isolation and characterization of overlapping DNA fragments surrounding the leu2 gene on yeast chromosome III (англ.) // Gene. — 1979. — Vol. 5, no. 2. — P. 111—126.
  21. Gibson G., Muse S. V. A Primer of Genome Science. (англ.) // Encyclopedia of Life Sciences. — 2006. — Vol. 3rd, no. 84.
  22. Metzker M. L. Sequencing technologies - the next generation (англ.) // Nature Reviews Genetics. — 2010. — Vol. 11, no. 1. — P. 31—46. Архивировано 4 марта 2016 года.

Ссылки

 

Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia