uk GenBank

GenBank — публічно доступна база даних нуклеотидних послідовностей і супровідних анотацій для більш як 300 000 видів. Дані вносяться як окремими лабораторіями, так і великомасштабними проектами повного секвенування геномів, Патентне відомство США також доповнює GenBank послідовностями із виданих патентів. Розробкою і розповсюдженням GenBank займається Національний центр біотехнологічної інформації. Ця база даних разом із DDBJ та ENA (англ. European Nucleotide Archive), з якими вона щоденно обмінюється даними, входить до Міжнародної співпраці баз даних нуклеотидних послідовностей. Станом на серпень 2014 року GenBank містив 939 775 079 106 пар основ^[1].

GenBank можна використовувати через систему Entrez NCBI, яка інтегрує інформацію із широкого спектра баз даних NCBI. NCBI Nucleotide поділений на три розділи: CoreNucleotide (основна частина), dbEST (Expressed Sequence Tags) і dbGSS (Genome Survey Sequences). Сервіс BLAST дозволяє порівнювати послідовності GenBank між собою та із послідовностями з інших джерел^[2]^[3].

Поділ на розділи

GenBank категоризує послідовності до кількох розділів в залежності від організму джерела або способу отримання даних^[1].

Розділ	Опис	Кількість даних у релізі 203 (8/2014)
PRI	Послідовності приматів	6697769597
ROD	Послідовності гризунів	4467459537
MAM	Послідовності інших ссавців	951689720
VRT	Інші хребетні	3188004508
INV	Послідовності безхребетних	3085847038
PLN	Рослинні послідовності	9012205825
BCT	Бактерійні послідовності	187345
VRL	Вірусні послідовності	2125907663
PHG	Послідовності бактеріофагів	146804958
SYN	Синтетичні послідовності	976696717
UNA	Неанотовані послідовності	187345
WSG	Дані секвенування повного геному методом дробовика (англ. Whole genome shotgun)	774052098731
ENV	Зразки із навколишнього середовища	4297282924
PAT	Запатентовані послідовності	14647872659
TSA	Дані секвенування транскриптому методом дробовика	9323352861
HTC	Дані високопродуктивного секвенування кДНК	671972485
HTG	Дані високопродуктивного секвенування геномної ДНК	25386830568
GSS	Genome survey sequences	24293870378
EST	Expressed sequence tags	42086482490
STS	Sequence tagged sites	640701468

Поділ на розділи за організмами є історичним і не відображає сучасної класифікації. Через це, а також тому, що частина послідовностей певного організму можуть перебувати у розділі за технологією (наприклад, EST або HTG), для пошуку даних за організмом слід використовувати NCBI Taxonomy Browser [Архівовано 19 травня 2020 у Wayback Machine.].

Ідентифікатори і номери доступу послідовностей

Кожному запису, що складається із послідовності і супутньої інформації, присвоюється унікальний номер доступу, спільний для трьох баз даних, що співпрацюють (GenBank, DDBJ, ENA). Цей номер можна знайти у рядку ACCESSION відповідного запису. Він не змінюється впродовж всього часу існування запису, навіть якщо дані оновлюються. Натомість, зміни відображаються за допомогою суфікса номера доступу, що позначає версію. Початковою версією послідовності завжди є '.1'. Кожній версії нуклеотидної послідовності також присвоюється унікальний NCBI ідентифікатор — GI, його можна знайти у рядку VERSION, наприклад U49845.1 GI:1293613. Коли дані про послідовність оновлюються, нова версія отримує інший GI, а версія номера доступу інкрементується. З номером доступу без вказання версії можна знайти найновіші дані. Записи GenBank рекомендується цитувати із використанням номера доступу із вказанням версії^[1].

Завантаження вмісту

Що два місяці NCBI випускає новий повний реліз GenBank, який можна безкоштовно завантажити через FTP. Крім того, щоденно виходять оновлення також вільні до завантаження^[1].

Примітки

↑ ^а ^б ^в ^г Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (2015). GenBank. Nucleic Acids Res. 43(Database issue):D30-5. doi:10.1093/nar/gku1216. PMID 25414350.
↑ GenBank Overview. NCBI. Архів оригіналу за 9 листопада 2015. Процитовано 11 листопада 2015.
↑ Jonathan Pevsner (2009). Bioinformatics and Functional Genomics (вид. 2nd). Wiley. с. 14-23. ISBN 978-0-470-08585-1. Процитовано 11 листопада 2015.{{cite book}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)

Посилання

GenBank Overview. NCBI. Архів оригіналу за 9 листопада 2015. Процитовано 11 листопада 2015.
Sample GenBank Record. NCBI. Архів оригіналу за 10 вересня 2015. Процитовано 11 листопада 2015. — зразок запису на GenBank

[Benson-1] а ^б ^в ^г Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (2015). GenBank. Nucleic Acids Res. 43(Database issue):D30-5. doi:10.1093/nar/gku1216. PMID 25414350.

[genbank-2] GenBank Overview. NCBI. Архів оригіналу за 9 листопада 2015. Процитовано 11 листопада 2015.

[pevsner-3] Jonathan Pevsner (2009). Bioinformatics and Functional Genomics (вид. 2nd). Wiley. с. 14-23. ISBN 978-0-470-08585-1. Процитовано 11 листопада 2015.{{cite book}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)

[1]

[2]

[3]