Количественный анализ экспрессии геновКоличественный анализ экспрессии генов — анализ транскриптома, измерение транскрипционной активности гена с помощью определения количества его продукта, матричной РНК (мРНК), универсальной для большей части генов. При этом конечным продуктом экспрессии генов как правило являются белки, а не мРНК. МетодыМетоды для измерения количества мРНК :
Количественный анализ экспрессии с помощью RNA-SeqВ результате секвенирования РНК создаётся библиотека ридов (или библиотека прочтений). Длина рида варьируется от 25 до 200 нуклеотидов в зависимости от выбранного метода секвенирования. После чего риды картируются (или выравниваются) на референсный геном. Риды могут быть выравнены сразу на несколько областей генома или на разные изоформы одного гена. Технология позволяет измерять лишь относительное количество транскрипта в клетке. Самый простой подход — рассматривать только однозначно выравненные риды на аннотированные модели генов. В этом случае величина RPKM[2] (reads per kilobase per million mapped reads — количество прочтений на килобазу на картированные риды) является подходящей количественной мерой экспрессии транскрипта[2]: , где — количество прочтений, попавших на транскрипт, — длина транскрипта, — общее количество прочтений. Эта формула является оценкой максимального правдоподобия при полиномиальной модели картирования ридов на транскрипты[3] Однако многие прочтения не могут быть однозначно картированы. Например, при дупликациях гена, так как в таком случае не понятно, куда именно картировать геном. Также информация о структуре генов (альтернативный сплайсинг, альтернативные промоторы, разные сайты полиаденилирования) в высших эукариотах недостаточно изучена даже на модельных организмах, что также осложняет однозначное трактование полученных результатов. Поэтому используют подходы, позволяющие картирование с установлением точек сплайсинга[4] и последующей сборкой транскриптома[5]. В настоящее время существует большое разнообразие моделей для вычисления количества транскрипта. их можно разделить в зависимости от следующих основных свойств[6]:
В настоящее время существуют широкий спектр программ для количественного анализа экспрессии генов: Cufflinks[7], IsoEM, HTSeq, RSEM[8], MISO. Данные методы одинаково активно используются при оценки количества транскриптома, однако некоторые нюансы в работе заложенных алгоритмов могут сделать одну программу предпочтительней другой в зависимости от ситуации. HTSeqПростой подход, при котором считается количество ридов, которые пересекаются с данным геномом. При этом в программе заложены различные определения факта пересечения рида с геном. Далее экспрессию можно определять через RPKM[8]. CufflinksВ данном алгоритме сначала происходит картирование библиотеки кДНК на геном для построения сплайсируемого выравнивания при помощи ещё одной программы TopHat. Затем на основании выравнивания строят граф с парными ридами кДНК в вершинах, где ребро проводится, если два парных рида могут находиться в одном транскрипте. На основании графа восстанавливаются возможные изоформы (как минимальное покрытие графа). В результате, риды картируются на построенные транскрипты. В рамках статистической модели, вероятность принадлежности рида изоформе пропорциональна количеству транскрипта, и на этом основании строится функция максимального правдоподобия, где максимум функции максимального правдоподобия отвечает искомому количеству транскриптов[5]. MISOMISO (Mixture of Isoforms) представляет собой вероятностный фрэймворк, который количественно определяет уровень экспрессии альтернативно сплайсированных генов по данным RNA-Seq и идентифицирует дифференциально регулируемые изоформы или экзоны в образцах. В основе статистическая модель для оценки количества изоформ гена(MISO). MISO рассматривает уровень экспрессии набора изоформ как случайную переменную и оценивает распределение по значениям этой переменной. Алгоритм оценки основан на выборке и относится к методам Монте Карло по схеме марковской цепи («MCMC»). Систематические ошибки и воспроизводимостьВ результате секвенирования РНК происходят систематические ошибки, которые могут значительно влиять на оценку экспрессии. Многие биохимические особенности не удаётся обнаружить и учесть их влияние, однако, некоторые ошибки, такие как неслучайное и неравномерное по длине фрагментирование, всё же возможно учитывать до некоторой степени[9]. Для коррекции ошибок используют реплики. Существует два вида реплик: технические и биологические. Технические реплики предполагают секвенирование одного и того же биологического материала несколько раз. Биологические же реплики предполагают секвенирование различного биологического материала. Из отсеквенированных фрагментов прочитывается лишь небольшая часть. Часть ридов, относящихся к фиксированному гену, будет несколько отличаться для образца и небольшой рассматриваемой части ввиду случайного выбора этой части. Если часть ридов данного гена в образце равна p, то часть ридов, попавших на ген подчиняется биномиальному распределению или распределению Пуассона со средним p. Для оценки этой части p нужны технические реплики. В случае биологических реплик, вариация в экспрессии не объясняется распределением Пуассона. В этому случае используется отрицательное биномиальное или обобщённое пуассоновское распределения. При этом сохраняется допущение, что вариация зависит от среднего экспрессии. Ввиду малого количества биологических реплик, вариация оценивается с помощью различных регрессионных методов[10]. Анализ экспрессии генов с помощью ДНК-микрочиповДНК-микрочип представляет собой небольшую поверхность, на которую нанесены фрагменты одноцепочечной ДНК с известной последовательностью. Эти фрагменты выступают в роли зондов, с которыми гибридизуются комплементарные им цепи ДНК из исследуемого образца. Существует два различных типа ДНК-микрочипов — олигонуклеотидные микрочипы и кДНК-микрочипы[11]. С помощью кДНК-микрочипов удобно исследовать изменения в уровнях экспрессии генов в случаях, например, различных заболеваний. Из двух образцов клеток (контрольного и исследуемого) выделяется РНК, из которой обратной транскрипцией получают кДНК. Каждая из полученных проб окрашивается каким-либо красителем (обычно используются Cy3 и Cy5). Меченые образцы наносятся на микрочип одновременно, и после отмывки негибридизовавшихся молекул производится измерение флуоресценции с помощью сканирующего конфокального микроскопа[12]. При подготовке образца для анализа на олигонуклеотидном микрочипе на матрице полученной кДНК в присутствии метки (например, биотина или флюоресцеина) синтезируется кРНК. В условиях повышенной температуры меченая кРНК гибридизуется с зондами на микрочипе. Для нормализации, значения о связывании с мутированным олигонуклеотидом вычитаются из получившихся при анализе данных. Более того, поскольку для каждого гена создаётся примерно 25 различных зондов, итоговые значения для них высчитываются как среднее нормализованных интенсивностей всех этих проб[12]. Гибридизация на микрочипах, является очень сильным методом для одновременной оценки уровней экспрессии всех генов в исследуемом образце. Однако, природа данной техники исследования такова, что для получения достоверных качественных и количественных данных требуется аккуратный анализ полученных в эксперименте значений. Необходимо нормировать данные и максимально повысить соотношение сигнал/шум, поскольку изменения профилей экспрессии в сравниваемых образцах могут быть невелики[11]. Перед началом обработки данные представляют собой цифровое изображение интенсивностей флуоресценций различных каналов. В первую очередь проводится вычитание флуоресценции подложки из флуоресценции каждой конкретной пробы. Возможны два варианта — либо для каждой пробы высчитывается флуоресценция подложки непосредственно рядом с ней, либо считают среднюю флуоресценции подложки на всем микрочипе. Первый вариант считается более правильным, поскольку флуоресценция различных участком микрочипа может отличаться[12]. Вслед за вычитанием фона проводится нормировка интенсивностей флуоресценции красок. Флуоресценция красок и их слияние с зондами зависит от последовательности гена, условий проведения каждой конкретной гибридизации, качества микрочипа и от условий и длительности их хранения. Нормализацию проводят либо основываясь на флуоресценции проб, соответствующим генам домашнего хозяйства, либо внося на микрочип и в образец известное количество экзогенной, несвойственной исследуемым клеткам мРНК. Для получения более достоверных значений на разные области одного микрочипа наносятся одинаковые образцы ДНК. Индекс качества для микрочипа определяется уровнем различия значений данных для идентичных образцов в разных пробах[12]. Однако, несмотря на все это, получаемые в экспериментах данные не являются количественной оценкой экспрессии генов. Получаемые для одного гена результаты могут варьировать от лаборатории к лаборатории и от одного микрочипа к другому. Подобные эксперименты позволяют оценить качественные изменения профилей экспрессии в различных образцах[11]. ПрименениеРанее учёные классифицировали различные типы рака основываясь лишь на том, какой орган был поражён. С помощью ДНК-микрочипов станет возможным классифицировать опухоли по паттернам активности генов в клетках. Это позволит разрабатывать лекарства, предназначенные для конкретного вида ракового заболевания. Кроме того, анализ профилей экспрессии в обработанных и необработанных лекарством клетках позволит учёным понять, как именно препарат влияет на клетки. Кроме того, зачастую в исследуемом образце опухоли присутствуют клетки разных клонов, которые могут значительно отличаться по профилю экспрессии генов. Оценка уровня экспрессии генов отдельных единичных клеток злокачественного новообразования позволит точнее прогнозировать дальнейшее развитие опухоли и её метастазов[13]. В лабораторных исследованиях методы количественного анализа экспрессии генов находят применение в ряде опытов, связанных с изучением экспрессий различных генов. В экспериментах, где клетки содержались в каких-либо условиях, отличных от нормальных, в большинстве своём обнаруживаются изменения в профилях экспрессии генов. Результаты подобных исследований проливают свет на механизмы клеточного ответа на изменения окружающей среды. Также уровни экспрессии генов активно меняются в ходе эмбрионального и постэмбрионального развитий, когда на смену одним белкам приходят другие, регулирующие процессы роста и формирования организма. Совместные изменения уровней экспрессии нескольких генов при смене каких-либо параметров могут говорить о взаимодействии продуктов этих генов в клетке[13]. Анализ экспрессии геновКоличественный анализ экспрессии генов проводится на нескольких уровнях и с разными целями[14],[15]: 1) Определение изменении экспрессии отдельного гена в зависимости от условий эксперимента (обработки образца). 2) Кластерный анализ генов по общей функциональности, взаимодействию, совместной регуляции. В данном случае используют методы сокращения размерности и методы визуализации. Как пример: метод главных компонент и кластеризация. Анализируют последовательности ДНК для нахождения регуляторных районов, мотивов. 3) Выявление и понимание сетей взаимодействия генов и белков, отвечающих наблюдаемым результатам измерения. Таким образом, анализ изменения экспрессии можно рассматривать как кластеризацию генов на «изменившиеся» и «неизменившиеся»[14]. Систематические ошибки и воспроизводимостьАнализ изменения экспрессии генов может осложняться из-за плохой воспроизводимости, возникающей из-за большого количества сложно взаимосвязанных факторов, взаимодействующих на разных уровнях и на различных этапах эксперимента. Все вариации можно разделить на биологические, экспериментальные и технические источники вариации. К техническим источникам вариаций в полученных результатах относят: погрешность при изготовлении микрочипов, различия в технологиях получения и обработки изображения, способов выделения сигналов и обработки данных[15]. БиологическиеСчитается, что наибольший вклад во возникновение вариаций вносят различия индивидуальных уровней экспрессии генов в различных клетках и популяциях клеток. Различия обнаруживают не только между клиническими образцами (содержащими клетки различных типов), но даже между образцами моноклональных «идентичных» культур, являющиеся клонами одной клетки и содержащихся в «идентичных» условиях встречаются различия. Эти различия объясняются влиянием микроокружения (например, не совсем равномерным содержанием питательных веществ, градиентом температуры), различиями в фазе роста клеток в культуре, периодами быстрого изменения экспрессии генов и многими другими случайными воздействиями, неподдающимися контролю, такими как влияние клеток друг на друга и случайное распределение небольшого количества молекул транскрипционных факторов (экспрессия определённых генов может существенно зависеть от нескольких молекул)[15]. Так же на сохранность РНК влияет наличие вторичной структуры транскрипта[15]. Экспериментальные (подготовка образца)Существенное значение имеет стандартизация всех этапов подготовки образцов (например, изменение температурного режима, состава питательных веществ даже при кратковременном центрифугировании живых клеток может вызвать изменение профиля экспрессии)[15]. Для подготовки образцов бактерий важное значение имеет быстрая деградация РНК в присутствии РНКаз, и в связи с эти следует соблюдать абсолютную стерильность, чтобы избежать превдевременной деградации РНК. Наилучшей стратегией подготовки образца мРНК считают минимальное время обработки при условиях, «замораживающих» уровень мРНК на уровне в момент взятия образца, и ингибирование активности РНКаз[15], ферментов, разрушающих РНК[15]. НормализацияПри сравнении профилей экспрессии генов образцов применяют нормализацию, учитывающую источники экспериментальной и биологической вариации[16]:
Для систематических вариаций (считают одинаково воздействующими на сравниваемые образцы) используют следующие методы[16]:
При этом простые подходы к нормализации учитывают лишь суммарное количество фрагментов сравниваемых образцов, а малое количество генов повысивших экспрессию может привести к ложному выявлению значительного количества генов снизивших экспрессию[16]. Также часто вместе или вместо значений количества картируемых фрагментов используют величины RPKM — Read Per Kilobase per Million mapped reads либо FPKM — Fragments Per Kilobase per Million mapped reads[16]. МетодыВсе методы нормализации предполагают, что большая часть генов в сравниваемых образцах экспрессируется одинаково и доля генов снизивших экспрессию (downregulated) более или менее равна доле повысивших (upregulated). TMM (Trimmed Mean of M-values) и используемый в пакете DESeq[17]. Для поиска используется сравнение двух групп образцов и поиск генов, чьи уровни экспрессии значимо отличаются между двумя группами. Для каждого гена проверяют изменилась ли его экспрессия. Предполагают, что данные являются набором повторных измерений для каждого гена и , представляющих измеренный уровень экспрессии или его логарифм в исследуемом (treatment) и контрольном (control) образцах. Используемые методы можно разделить на непрерывные (t-тест) и дискретные (PPDE)[18][19]. При анализе данных, полученных с использованием микрочипов, полученные измерения трактуют как непрерывные величины (логнормальное распределение). При анализе данных RNA-Seq используют Пуассоновское распределение, обратное биномиальное и даже бета-биномиальное[20]. Фиксированный порог относительного изменения экспрессииВ ранних работах использовали подход при котором ген считался дифференциально экспрессируемым, если относительное изменение его экспрессии превысило некоторый порог (обычно 2)[21]. Простой t-тестt-тест — хорошо известный критерий оценки равенства средних с учётом вариации. Рассчитывают нормализованное расстояние, используя выборочные средние и контрольного и исследуемого образцов соответственно и их дисперсии и , по формуле[22] , где и . Известно что распределение t близко к распределению Стьюдента с количеством степеней свободы f, где[22] . При превышении t некоторого порога, зависящего от выбранного уровня значимости, ген считают изменившим экспрессию[22]. Так как в t-тесте расстояние нормализуют выборочным стандартным отклонением, его применение предпочтительнее, чем использование фиксированного порога относительного изменения экспрессии[22]. Основная проблема применения t-теста заключена в малом количестве повторностей измерения и вследствие дороговизны или сложности эксперимента[22]. Регуляризованный t-тестДанный метод используют для оценки вариабельности гена при помощи информации о других генах. Значения логарифма экспрессии генов моделируют как независимые нормальные распределения, параметризуемые соответствующими средними и дисперсиями[23].
Для и принимают априорные вероятности — scaled inverse gamma и — распределено нормально[23]. Показано, что существует взаимоотношение между значением и вариацией экспрессии. При близких значениях экспрессии наблюдают близкие значения вариации экспрессии. Таким образом возможно приложение априорного знания в Байесовой статистике для получения лучших оценок вариации экспрессии отдельного гена, используя значения измеренного уровня экспрессии значительного числа других генов с близким уровнем экспрессии из того же эксперимента[23]. , где Для точечных оценок используют среднее апостериорной оценки (MP) либо моду (MAP — maximum a posteriori)[24]. В гибкой реализации, фоновую дисперсию экспрессии гена вычисляют, принимая во внимание гены, соседствующие с рассматриваемым, например 100 генов попадающие в симметричное окно по уровню экспрессии[24]. Хотя этот метод не исключает необходимости повторностей измерений, его использование позволяет значительно сократить число ложно-положительных находок даже при небольшом количестве повторов[24]. Оценка вероятности дифференциальной экспрессииPPDE (Posterior Probability of Differential Expression), постариорная вероятность дифференциальной экспрессии[25]. По причине зашумлённости и вариабельности измеряемых данных ожидают получение ложно-положительных и ложно-отрицательных находок дифференциально экспрессирующихся генов[26]. Интуитивным способом оценки уровня ложно-положительных находок является сравнение измерений полученных с одного контрольного образца, при этом экспрессия генов не должна измениться[26]. Предложена также более формальная вычислительная реализация такого подхода: априорные знания основываются на наблюдении, что в случае отсутствия изменений экспрессии генов p-value по каждому гену должно быть распределено равномерно между 0 и 1 (доля генов ниже любого значения p равна p и доля выше равна 1-p). В случае наличия изменений распределение значений p-value для генов будет «стягиваться» больше к 0 чем к 1, то есть будет подмножество дифференциально экпрессирующихся генов с «значимыми» p-value. Это распределение моделируют взвешенной комбинацией равномерного и неравномерного распределений. Для каждого гена рассчитывают вероятность его ассоциации с неравномерным распределением — PPDE[27]. При моделировании используют смесь бета-распределений[27], где равномерное является частным случаем[27].
Обычно используют EM-алгоритм для определения весов в смеси[27]. Апостериорную вероятность дифференциальной экспрессии рассчитывают[27].
Часто в реализации предполагают, что значения p-value получены из распределения t-test как новые данные и строят вероятностную модель с ними[27]. АлгоритмыИсходными данными методов/программ анализа дифференциально экспрессирующихся генов являются матрицы, содержащие данные о количестве фрагментов, картированных на ген/экзон для каждого образца в эксперименте RNA-Seq. В основном данные отсчётов используются прямо (baySeq [28] , EBSeq [29], ShrinkSeq [30], edgeR [31], DESeq [17], NBPSeq [32] и TSPM [33]), но существуют алгоритмы, преобразующие отсчёты и использующие алгоритмы, предназначенные для анализа данных, полученных гибридизационными микрочипами ( NOISeq [34] и SAMseq [35]). Значительно ускорить обработку данных по РНК позволяют «лёгкие алгоритмы» Sailfish[36] МоделиПараметрическиеПризнано, что для анализа дифференциальной экспрессии критично получение надёжной оценки параметра дисперсии для каждого гена, в этом направлении сосредоточено много усилий. Получение этой оценки осложнено малым размером выборки в большинстве экспериментов RNA-seq, что мотивирует разделение информации между генами для получения более точных оценок. Первым предположением было принять, что параметр дисперсии одинаков для всех генов, что позволяло оценивать его, используя все имеющиеся данные методом условного максимального правдоподобия. DESeq, edgeR, NBPSeq используют разделение данных генов для оценки дисперсии, различия заключаются в способе. В edgeR используют менее ограничивающий подход — дисперсию определяют для каждого гена, но индивидуальные оценки «стягивают» к общей дисперсии методом взвешенного правдоподобияe dgeR [31],[17],[32]. Большая часть параметрических моделей (baySeq, DESeq, edgeR и NBPSeq) использует модель обратного биномиального распределения для объяснения избытка дисперсии[31],[17],[32]. TSPM (Two-Stage Poisson Model) основана на модели Пуассона для отсчётов, расширенной с помощью подхода квази-правдоподобия для описания избытка дисперсии данных. Первым шагом каждый ген тестируют индивидуально на наличие избыточной дисперсии, чтобы решить какую из двух модель использовать для анализа дифференциальной экспрессии. Тестирование дифференциальной экспрессии основано на асимптотической статистике, которая предполагает, что общее количество фрагментов для каждого гена не слишком мало. Авторы рекомендуют отбрасывать гены, для которых общее число фрагментов менее 10. Также важно присутствие в данных генов без избыточной дисперсии[33]). ShrinkSeq позволяет пользователю выбрать из набора распределений, включая обратное биномиальное и обратное биномиальное с избыточным числом нулевых значений[30]. DESeq, edgeR, NBPSeq используют классический подход проверки гипотезы[31],[32]. baySeq, EBSeq, ShrinkSeq используют байесову статистику[28][29][30]. В DESeq и NBPSeq получают оценки дисперсии, моделируя наблюдаемую зависимость между средним и дисперсией локальной или параметрической регрессией. В NBPSeq используют полученные значения дисперсии, в DESeq используют консервативный подход — выбирают наибольшее значение дисперсии (из оценки с разделением информации о других генах и оценки дисперсии для индивидуального гена). В edgeR, DESeq и NBPSeq значимость дифференциальной экспрессии тестируют разновидностью точного теста (для сравнения двух групп) либо обобщённой линейной моделью[17][31][32]. В baySeq пользователь задаёт коллекцию моделей, разбивающих образцы на группы. В группе предполагают одинаковые параметры основного распределения. Затем оценивают апостериорную вероятность каждой модели для каждого из генов. Информация из всего набора генов используется для формирования эмпирического априорного распределения для параметров обратного биномиального распределения[28]. EBSeq использует подобный подход, но предполагает параметрическую форму априорного распределения параметров, с гиперпараметрами, разделяемыми между всеми генами и оцениваемыми по данным[29]. НепараметрическиеВ NOISeq и SAMSeq — непараметрические методы, не предполагают какого-либо распределения для данных[37],[38] . SAMSeq основан на статистике Вилкоксона, усреднённой по нескольким оценкам данных с использованием пермутаций, для оценки FDR (false discovery rate). Эти оценки используют для определения q-value для каждого гена[38]. В NOISeq определяют распределение крастности изменения и различия абсолютных значений экспрессии между образцами при различных условиях и сравнивают это распределение с полученным при сравнении образцов при одних условиях (называют «распределением шума»). Кратко, для каждого гена рассчитывают статистику, определяемую как доля точек из распределения шума, соответствующих более низкой кротности изменения и разности абсолютных значений экспрессии, чем полученные для интересующего гена в исходных данных[37]. Множественное сравнениеПри сравнение экспрессии генов в нескольких экспериментах либо проводят множественные попарные сравнения, либо используют модели, в которых сравниваются группы экспериментов. В случае, когда рассматривается Κ воздействий (например, лечение), Τ0…Τκ-1, на экспрессию генов, можно использовать несколько принципиально отличающихся планов сравнения[39][40].
При сравнение большого количества экспериментов необходимо использовать поправку на множественное сравнение (FDR, FWER, adjusted p-value или другие)[43], чтобы исключить возможность случайного получить значимое различие в экспрессии генов. Использование только попарных сравнений при анализе большого количества групп экспериментов (факторов) не оптимально, поскольку требует значительных временных затрат. В подобных случаях более рационально использовать модели, учитывающие воздействия нескольких факторов[39][40].
Дизайн мультифакторных сравненийЭксперименты, в которых рассматривается воздействие нескольких факторов, используются практически те же математические подходы (регрессионный анализ, байесовская статистика), что и при однофакторном анализе, но более сложный дизайн групповых сравнений. Вот некоторые из них[45].
Примечания
Ссылки
|