Секвенування ChIP (ChIP — імунопреципітація хроматину), також відоме як ChIP-seq, — це метод, який використовується для аналізу взаємодії білка з ДНК. ChIP-seq поєднує імунопреципітацію хроматину (ChIP) із масивним паралельним секвенуванням ДНК для ідентифікації сайтів зв’язування ДНК-асоційованих білків. Його можна використовувати для точного відображення глобальних сайтів зв’язування будь-якого цікавого білка. Раніше ChIP-on-chip був найпоширенішим методом, який використовувався для вивчення цих зв’язків між білками та ДНК.
Використання
ChIP-seq в основному використовується для визначення того, як фактори транскрипції та інші асоційовані з хроматином білки впливають на механізми впливу на фенотип. Визначення того, як білки взаємодіють з ДНК для регулювання експресії генів, має важливе значення для повного розуміння багатьох біологічних процесів і хворобливих станів. Ця епігенетична інформація доповнює аналіз генотипу та експресії генів. Технологія ChIP-seq наразі розглядається в основному як альтернатива ChIP-чіпу[en], який потребує гібридизаційного масиву. Це вносить деяку упередженість, оскільки масив обмежений фіксованою кількістю зондів. Вважається, що секвенування, навпаки, має меншу похибку, хоча похибка секвенування різних технологій секвенування ще не повністю вивчена.[1]
Специфічні ділянки ДНК у прямій фізичній взаємодії з факторами транскрипції та іншими білками можна виділити за допомогою імунопреципітації хроматину. ChIP створює бібліотеку цільових ділянок ДНК, пов’язаних з цікавим білком. Масовий паралельний аналіз послідовностей використовується разом із базами даних повногеномних послідовностей для аналізу моделі взаємодії будь-якого білка з ДНК[2] або моделі будь-яких епігенетичних модифікацій хроматину. Це можна застосувати до набору ChIP-здатних білків і модифікацій, таких як фактори транскрипції, полімерази та транскрипційні механізми, структурні білки, модифікації білків і модифікації ДНК.[3] Як альтернатива залежності від специфічних антитіл, були розроблені різні методи для пошуку надмножини всіх збіднених нуклеосомами або порушених нуклеосомами активних регуляторних ділянок у геномі, як-от DNase-Seq[4] і FAIRE-Seq.[5][6]
Процес ChIP-секвенування
Імунопреципітація хроматину (ChIP)
ChIP є потужним методом вибіркового збагачення послідовностей ДНК, зв'язаних певним білком у живих клітинах. Однак широке використання цього методу було обмежено відсутністю достатньо надійного методу ідентифікації всіх збагачених послідовностей ДНК. Протокол вологої лабораторії ChIP містить ChIP і гібридизацію. По суті, існує п’ять частин протоколу ChIP[7], які допомагають краще зрозуміти загальний процес ChIP. Щоб здійснити ChIP, першим кроком є перехресне зшивання[8] за допомогою формальдегіду та великих партій ДНК, щоб отримати корисну кількість. Перехресні зв’язки створюються між білком і ДНК, а також між РНК та іншими білками. Другим кроком є процес фрагментації хроматину, який розщеплює хроматин, щоб отримати високоякісні фрагменти ДНК для аналізу ChIP. Щоб мати найкращий результат для картування генома, ці фрагменти мають бути розрізані так, щоб вони становили менше 500 пар основ[9] кожен. Третій етап називається імунопреципітацією хроматину[7], скороченням чого є ChIP. Процес ChIP покращує специфічні зшиті ДНК-білкові комплекси за допомогою антитіла проти цікавого білка з подальшою інкубацією та центрифугуванням для отримання імунопреципітації. Етап імунопреципітації також дозволяє видалити сайти неспецифічного зв’язування. Четвертий етап — відновлення та очищення ДНК[7], що відбувається шляхом зворотного впливу на перехресний зв’язок між ДНК і білком для їх розділення та очищення ДНК за допомогою екстракції. П’ятим і останнім кроком є етап аналізу протоколу ChIP за допомогою процесу qPCR, ChIP-on-chip (гібридний масив) або секвенування ChIP. Олігонуклеотидні адаптери потім додаються до невеликих ділянок ДНК, які були зв'язані з цікавим білком, щоб уможливити масове паралельне секвенування[en]. За допомогою аналізу послідовності можуть бути ідентифіковані та інтерпретовані геном або його область, з якою був зв’язаний білок.[7]
Секвенування
Після вибору розміру всі отримані фрагменти ChIP-ДНК секвенуються одночасно за допомогою секвенатора генома. Один цикл секвенування може сканувати геномні асоціації з високою роздільною здатністю, тобто ознаки можуть бути розташовані точно в хромосомах. ЧІП-чіп, навпаки, вимагає великих наборів масивів мозаїк (Tiling array) для нижчої роздільної здатності.[10]
Контроль якості
ChIP-seq пропонує нам швидкий аналіз, однак необхідно провести контроль якості, щоб переконатися, що отримані результати надійні:
Ненадлишкова фракція: ділянки низької складності слід видалити, оскільки вони неінформативні та можуть заважати відображенню в еталонному геномі.[11]
Фрагменти в піках: співвідношення зчитувань, які розташовані в піках, до зчитувань, які розташовані там, де немає піку.[11]
Чутливість
Чутливість цієї технології залежить від глибини секвенування (тобто кількості відображених тегів послідовності), розміру геному та розподілу цільового фактора. Глибина секвенування прямо корелює з вартістю. Якщо велику кількість зв’язуючих речовин у великих геномах необхідно картувати з високою чутливістю, вартість буде висока, оскільки знадобиться надзвичайно велика кількість тегів послідовності. Це на відміну від чіпа ChIP, у якому вартість не корелює з чутливістю.[12][13]
На відміну від методів ChIP на основі мірочипів, точність аналізу ChIP-seq не обмежується відстанню між попередньо визначеними зондами. Інтегруючи велику кількість коротких зчитувань, можна отримати високоточну локалізацію сайту зв’язування. У порівнянні з ChIP-чіпом, дані ChIP-seq можна використовувати для визначення місця зв’язування в межах кількох десятків пар основ від фактичного сайту зв’язування білка. Щільність міток у сайтах зв’язування є хорошим індикатором афінності зв’язування білка з ДНК[14], що полегшує кількісну оцінку та порівняння афінності зв’язування білка з різними ділянками ДНК.[15]
Сучасні дослідження
Асоціація ДНК STAT1: ChIP-seq використовувався для вивчення мішеней STAT1 у клітинах HeLa S3, які є клонами лінії HeLa, які використовуються для аналізу клітинних популяцій.[16] Потім продуктивність ChIP-seq порівнювали з альтернативними методами взаємодії білок-ДНК ChIP-PCR і ChIP-чіп.[17]
Нуклеосомна архітектура промоторів: за допомогою ChIP-seq було встановлено, що дріжджові гени, мабуть, мають мінімальну вільну від нуклеосом область промотора розміром 150 bp, у якій РНК-полімераза може ініціювати транскрипцію.[18]
Збереження фактора транскрипції: ChIP-seq використовувався для порівняння збереження транскрипційного фактора у передньому мозку та тканині серця в ембріональних мишей. Автори визначили та перевірили серцеву функціональність підсилювачів транскрипції та визначили, що підсилювачі транскрипції для серця менш консервативні, ніж для переднього мозку на тій самій стадії розвитку.[19]
Повногеномне ChIP-seq: Секвенування ChIP було завершено на хробаку C. elegans, щоб дослідити сайти зв’язування 22 транскрипційних факторів у всьому геномі. До 20% анотованих генів-кандидатів було віднесено до факторів транскрипції. Декілька факторів транскрипції були віднесені до некодуючих ділянок РНК і можуть залежати від змін розвитку або середовища. Також були визначені функції деяких факторів транскрипції. Деякі з факторів транскрипції регулюють гени, які контролюють інші фактори транскрипції. Ці гени не регулюються іншими факторами. Більшість факторів транскрипції служать і мішенями, і регуляторами інших факторів, демонструючи мережу регуляції.[20]
Виведення регуляторної мережі: було показано, що сигнал ChIP-seq модифікації гістону більше корелює з мотивами факторів транскрипції на промоторах порівняно з рівнем РНК.[21] Тому автор припустив, що використання модифікації гістонів ChIP-seq забезпечить більш надійний висновок про генно-регуляторні мережі порівняно з іншими методами, заснованими на експресії.[21]
ChIP-seq пропонує альтернативу ChIP-чіпу[en]. Експериментальні дані ChIP-seq STAT1 мають високий ступінь подібності до результатів, отриманих за допомогою ChIP-чіпа для того самого типу експерименту, з більш ніж 64% піків у спільних геномних областях. Оскільки дані є зчитуванням послідовності, ChIP-seq пропонує конвеєр швидкого аналізу, якщо високоякісна послідовність геному доступна для картування зчитування, а геном не має повторюваного вмісту, який заплутує процес картування. ChIP-seq також має потенціал для виявлення мутацій у послідовностях сайтів зв’язування, які можуть безпосередньо підтримувати будь-які спостережувані зміни в зв’язуванні білка та регуляції генів.
Обчислювальний аналіз
Як і багато інших високопродуктивних підходів секвенування, ChIP-seq генерує надзвичайно великі набори даних, для яких потрібні відповідні методи обчислювального аналізу. Щоб передбачити сайти зв’язування ДНК на основі даних кількості читань ChIP-seq, були розроблені методи пікового виклику. Один зі способів — це MACS, який емпірично моделює розмір зсуву тегів ChIP-Seq і використовує його для покращення просторової роздільної здатності прогнозованих сайтів зв’язування.[22] MACS оптимізовано для піків вищої роздільної здатності, тоді як інший популярний алгоритм, SICER, запрограмований на виклик ширших піків, що охоплюють від кілобаз до мегабаз, щоб шукати ширші домени хроматину. SICER більш корисний для міток гістонів, що охоплюють тіла генів. Більш строгий математичний метод BCP (Bayesian Change Point) можна використовувати як для гострих, так і для широких піків із вищою швидкістю обчислення[23], див. порівняння інструментів виклику піків ChIP-seq.[24]
Іншою важливою обчислювальною проблемою є диференціальний піковий виклик (differential peak calling), який визначає значні відмінності в двох сигналах ChIP-seq від різних біологічних умов. Диференціальні пікові абоненти сегментують два сигнали ChIP-seq і ідентифікують диференціальні піки за допомогою прихованих марковських моделей. Прикладами двоступеневих диференціальних пікових викликів є ChIPDiff[25] і ODIN[26].
Щоб зменшити кількість фальшивих сайтів від ChIP-seq, можна використовувати кілька експериментальних контролів для виявлення сайтів зв’язування з експерименту IP. Bay2Ctrls приймає байєсівську модель для інтеграції контролю введення ДНК для IP, макету IP і відповідного контролю введення ДНК для прогнозування сайтів зв’язування з IP.[27] Цей підхід особливо ефективний для складних зразків, таких як цілі модельні організми. Крім того, аналіз показує, що для складних зразків фальшиві контролі IP значно перевершують вхідні контролі ДНК, ймовірно, через активні геноми зразків.[27]
Секвенування CUT&RUN, націлене на антитіла контрольоване розщеплення мікрококовою нуклеазою замість ChIP, що дозволяє покращити співвідношення сигнал/шум під час секвенування.
Секвенування CUT&Tag, контрольоване розщеплення, націлене на антитіла, транспозазою Tn5 замість ChIP, що забезпечує покращене співвідношення сигнал/шум під час секвенування.
Sono-Seq, ідентичний ChIP-Seq, але без етапу імунопреципітації.
HITS-CLIP[28][29] (також званий CLIP-Seq), для пошуку взаємодії з РНК, а не з ДНК.
PAR-CLIP, інший метод ідентифікації сайтів зв’язування клітинних РНК-зв’язуючих білків (RBP).
RIP-Chip, та сама мета та перші кроки, але не використовує методи перехресного зшивання та використовує мікрочип замість секвенування
SELEX, метод пошуку консенсусної зв’язувальної послідовності
Competition-ChIP для вимірювання відносної динаміки заміни в ДНК.
ChiRP-Seq для вимірювання РНК-зв’язаної ДНК і білків.
ChIP-exo використовує обробку екзонуклеазою для досягнення роздільної здатності до однієї пари основ
ChIP-nexus покращила версію ChIP-exo для досягнення роздільної здатності до однієї пари основ.
DRIP-seq використовує антитіло S9.6 для осадження триланцюгових гібридів DND:РНК, які називаються R-петлями.
TCP-seq, принципово аналогічний метод вимірювання динаміки трансляції мРНК.
Телефонні картки використовують транспозазу для позначення послідовності зв’язування фактора транскрипції.[30]
Каталог ReMap: Інтегративний і уніфікований аналіз ChIP-Seq регуляторних елементів із +2800 наборів даних ChIP-seq, що дає каталог із 80 мільйонів піків від 485 регуляторів транскрипції.[31]
База даних ChIPBase: база даних для вивчення карт зв’язування факторів транскрипції з даних ChIP-Seq. Він надає найповніший набір даних ChIP-Seq для різних типів клітин/тканин і станів.
База даних GeneProf і інструмент аналізу: GeneProf — це вільнодоступне, просте у використанні середовище аналізу для даних ChIP-seq і RNA-seq, яке постачається з великою базою даних готових проаналізованих публічних експериментів, наприклад, щодо зв’язування факторів транскрипції та модифікацій гістонів.