武汉爱基百客生物科技有限公司

https://igenebook.biomart.cn

公众号

扫一扫
进入手机商铺

公司新闻

要做 ChIP-seq?这些干货了解一下

发布时间:2019-06-21 10:44 |  点击次数:

什么是 ChIP-seq?

ChIP-seq 是染色质免疫沉淀测序的简称。 基本上,ChIP-seq 是与 DNA 结合蛋白共沉淀的基因组 DNA 片段的测序。 以这种方式最常研究的 DNA 结合蛋白是转录因子(例如 p53 或 NFκB),染色质修饰酶(例如 p300,组蛋白去乙酰化酶),与基因组 DNA 相互作用的组蛋白修饰(例如 H3K4me3)和转录复合物成分(例如 RNA polII)。 从技术上讲,这项技术可以无偏见地识别与特定 DNA 结合蛋白相关的基因组中的所有 DNA 片段。 我们说「无偏见」,因为免疫沉淀物中的所有 DNA 都会被测序,因此该技术不需要预先知道精确的 DNA 结合位点。

为什么 ChIP-seq 比别的方法能更好地找到 DNA 结合位点?

ChIP 本身已经出现了一段时间。这是 DNA 结合蛋白与其同源 DNA 免疫沉淀的地方,通过定量 PCR 评估特定位点 DNA 结合的存在。 这种方法的问题在于只能研究已知序列的单个位点。

克服这一限制的另一种技术是 DAM-ID,其中目的蛋白与大肠杆菌 DNA 腺嘌呤甲基转移酶(DAM)融合。 当这种融合蛋白在细胞中表达时,与其结合位点相邻的 DNA 中的腺嘌呤将被甲基化。 然后可以通过甲基化敏感性限制性核酸内切酶绘图来鉴定这些位点。 但是这项技术很麻烦,并且需要超表载体,限制了对转染细胞系的分析。

在 ChIP 微阵列中避免了这些问题,其中 ChIP 与 DNA 杂交阵列(芯片)技术偶联。用目的蛋白结合的 DNA 以探针的形式杂交到整个基因组或者基因组特定部分(例如启动子区域)形成 DNA 微阵列。 这是与 ChIP-seq 最接近的方法,但其映射精度较低,读数的动态范围明显较小。 图 2 中比较了两种技术的分辨率和灵敏度。此外,所有杂交方法都会掩盖重复序列。 我们发现功能性转录因子结合位点的重要部分(10% 至 30% 之间)在重复序列上,使用 ChIP 微阵列时会丢失这些信息。 然而,当特定的结合位点在许多实验条件下被重复询问时,我们仍然使用具有定制阵列的 ChIP 芯片。

ChIP-seq 有哪些限制因素?

粗略地说,ChIP-seq 有三个决定其成功的关键步骤。第一步也是最重要的一步就是抗体的选择;第二个是实际的测序,受到几个潜在偏差影响;第三个是算法分析,包括映射和峰值调用。

显然,第一个要求是,抗体对研究蛋白具有一定的特异性:可以用一组重组蛋白质或用不同蛋白靶标转染的细胞系进行测试。然后,抗体必须能够免疫沉淀靶蛋白。并非所有的抗体都可以免疫沉淀,即使这样做,ChIP 的效果可能也不会很好。理想情况下,早期的研究将确定已知的蛋白的基因组结合位点,并且这些位点可用于优化 ChIP 条件。

第二个问题是测序,这对于许多生物学家来说是一个「黑匣子」,他们熟悉输入和输出,但可能不清楚引入两者之间的潜在偏差。 下一代测序方法需要批量处理 DNA 片段和大规模平行测序。这意味着即使加接头,PCR 扩增或杂交中有轻微的偏差,都可能导致数据集中 10M 或更多 reads 出现一些与平台相关的偏差。 技术仍在发展,不同的格式有不同的偏见。 出于这个原因,在 ChIP-seq 实验中使用「Input DNA」(没有 ChIP 的基因组 DNA)作为对照是重要的,以便可以鉴定和调整测序偏差。

第三个问题是映射,其中带有短 tags(大约 25-35bp)可能在高度同源性区域或重复区域中不明确。 随着 tags 序列变长,这不是一个问题,但是碱基调用和测序错误会限制可映射性。 只有 50% 的 reads 可映射并不少见,尽管更多的「智能」映射算法考虑到了测序错误或多态性,可映射性显着增加。 在 ChIP-seq 中,映射序列 tags 的密度是成功的主要决定因素。 Illumina 的 ELAND 算法和 MAQ(质量装配和比对)曾经是可选择的短读取映射器,但新一代更高效的程序,如 Bowtie,BWA(Burrows-Wheeler 对齐工具)和 BFAST(Blat-like Fast Accurate 搜索工具)正逐渐取代它们。

高峰呼叫是怎么完成的?

现在有大量的免费和商业的调峰软件包。 峰呼叫算法寻找「峰」 - tags 显著富集的区域,通常被认为反映了转录因子与该区域的结合。 虽然一些软件包只是简单地聚合映射 tags 而不考虑链,但其他软件包使用链信息来更敏感地定位峰。一些峰值调用算法需要用户提供一个对照样品,而另一些算法可以不用,但是 ChIP-seq 在进行 reads 测序时存在几种已知的偏差来源,因此没有对照样品的峰的可靠度是非常不可靠的,应该避免。 通常基于 ChIP 样品和对照样品的比较,使用诸如 P 值或错误发现率(FDR)等度量值来量化峰值中的置信度,尽管不同的峰值调用包在完成该操作时会有所不同。

在表 1 中列出了一些公开可用的峰值调用算法,虽然峰值调用者之间的性能差异尚未得到很好的理解,但可以获得一些优秀和详细的评论。 表中未列出的其他软件包包括 GLITR,USeq,QuEST,CisGenome,Vancouver Short Read 分析软件包,spp,CCAT,ERANGE 和 ZINBA。 许多商业软件包还包含峰值调用功能。

测序偏差有哪些来源?

在下一代测序中一般描述了许多类型的系统偏差,特别是 ChIP-seq。一些平台已经发现了对 C + G 丰富区域进行测序的偏好 [11]。基因组中特定短同源序列的出现频率、基因组扩增和重复元件会造成映射偏差。因此需要对照样品,通常通过测序 Input DNA(没有 ChIP 的基因组 DNA)。然而,即使在对照样品中,某些偏差似乎仍然存在; 特别是基因组标记如转录起始位点,甚至在对照样品中往往具有更多的 reads[12]。由于非均匀剪切,染色质结构也在 ChIP 实验中引入了 DNA 物理操作的偏差 [13]。特别地,异染色质比常染色质更难剪切,并且因此在序列 reads 中数量不足。因此转录基因中的区域似乎比沉默基因中的更多。一些流程使用 PCR 步骤,这可能导致 reads 的虚假复制。因此,大多数工作流程都会删除多个相同的 reads 副本。

所有的映射算法都试图以减少报告偏差的方式均一化背景。正如我们已经说过的,最好的方法是从正在研究的细胞中获得 Input DNA 对照,尽管一些方案通过取样策略寻求内部标准化。在癌细胞系中,基因扩增的区域可能带来进一步的问题。假阳性峰呼叫在扩增区域中很常见,因为这些区域在基因组 DNA 样本中过度表达。扩增的区域可以「标记」,然后可以将 reads 数量均一化为估计的拷贝数。但是,除非样品的测序深度非常高,否则这些区域 reads 的高噪声(针对 ChIP 和对照文库)可能会对拷贝数产生不可靠的估计值,并随后产生不可靠的均一化值。因此,即使均一化也不足以将假阳性减少到基线水平。尽管这可被接受如果以发现个别结合位点(接下来是实验验证)为目标,那么使用全基因组结合位点以建立基于序列的转录因子结合模型可能需要模型中扩增区域的完全掩蔽以减少噪音对输入数据的影响。

您说 ChIP-seq 可以用于组蛋白修饰的基因组分析 - 但是肯定无法通过映射短序列来完成?

确实,大多数峰值调用算法都是在考虑转录因子的情况下设计的,这些因子通常与短序列元素(大约 10 bp)结合。 组蛋白标记有时通过几个核小体(数百个碱基对)或在某些情况下几千或几万个碱基对广泛富集。 这意味着 peaks 可能在富含组蛋白修饰的区域中过度呼叫(即,该算法呼叫出若干个 peaks,而人们倾向于将整个区域视为一个富集单元),或者算法无法认定那些微弱但始终富集到底是不是富集区域,因为根据标准算法,这些区域没有足够富集被计算称为一个 peak。 由于测序不够深,在实际富集的区域也可能存在明显差距。 为了避免这种情况,必须适当调整峰值调用参数。

如何协调取决于预期的应用。 有时,计算具有基因组标记(例如基因)的 reads 数量的相关性统计数据,或者计算一组这样的标记周围的平均 tags 密度曲线就足够了。 如果需要精确划分富含组蛋白标记的区域,可以使用峰值调用软件包,并明确支持更长时间和更广泛的富集区域,如 SICER 或 CCAT。

你怎么知道测序足够了?

基本问题是文库是否已经达到了渐近饱和点,超过这个点就不会发现新的结合位点。可以尝试通过模拟来估计结合饱和度。 通过在测序 reads 中连续较小的随机子集上运行峰值调用算法,可以针对 reads 的数量(在 x 轴上)绘制检测到的 peaks 的数量(在 y 轴上)。这通常会(但不总是)导致曲线在开始时迅速上升,但随后开始饱和。 曲线可以外推以估计它将开始出现平滑时的测序 reads 数量。 以这种方式估算精确的饱和点可能不是很严格,但通常只需要近似就足够了。显然,结合更广泛的因子(如某些组蛋白标记)需要更多的序列才能达到饱和。 一个奇怪的现象是,一些 DNA 结合因子(如 RNA polII)具有明显的饱和特征,但对其他因子来说,饱和度不太明显。 尽管确切的原因尚不清楚,但可能有两个结合位点群,一个具有高亲和力,另一个具有较低的亲和力和较好的识别序列简并性,因此在基因组中更为丰富。 更多的测序将主要发现更低亲和力的位点。 因此,出于实际的目的,可能更为现实的目标是预测 reads 数量,以满足给定目标富集比(最小富集饱和比,MSER)以上的 peaks 的检测。

可以并行定量比较一个文库与另一个文库吗?

通常希望评估随着时间,或在配体如核激素受体活化之后转录因子在基因组规模上结合的变化。为了实现这一点,需要随着时间的推移执行多个 ChIP-seqs,并定量比较每个位点转录因子的占有率。 理论上,人们应该能够并行比较两个文库。 但是,应该记住可能会在文库之间产生差异的偏向。 其中包括 DNA 片段化流程,交联时间,测序平台以及比对中使用的软件和参数的差异。 预处理步骤,如删除相同的 reads 和扩增区域(见上文),也必须以一致的方式完成。 最后,测序 reads 的深度需要与每个 peaks 的 tags 计数相当,甚至 peaks 的数量也会与总的测序 tags 成正比。

利用 ChIP-seq 可以得到什么?

一个具体的贡献是鉴定新的调控元件—例如,已经在小鼠脑中使用 p300 结合位点鉴定出新的组织特异性增强子。关于组蛋白修饰的 ChIP-seq 研究已经获得了以前了解的基因组功能区域的新见解。使用由组蛋白修饰定义的关于功能域的全基因组信息,Guttman 等人预测并验证了许多的非编码 RNAs。

然而,也许 ChIP-seq 方法的最重要贡献是在基因组规模上提供蛋白质-DNA 相互作用的「群体」分析。这表明单个转录因子是根据结合位点识别 motif 的简并性,与其他共定位转录因子共存以及与转录起始位点的距离不同而采用不同的基因调控机制。在许多情况下,给定转录因子的基因调节机制对每个特定的结合位点都是特定的。只有通过对基因组中整个结合位点范围的分析才能发现一些更高的功能原理。作为一个例子,ChIP-seq 分析胚胎干细胞(ES)细胞发育中的 13 个转录因子揭示了调控元件组成「增强体」。这些信息提供了关于 ES 细胞分化中转录因子介导的整合信号传导通路的见解。

最后,我们最近使用了一种称为染色质相互作用分析的 ChIP-seq 修饰方法,使用配对末端标签测序(ChIA-PET),其中染色质相互作用可以识别基因组中的雌激素受体结合位点 [22]。 这种三维染色质相互作用图表明 DNA 拓扑结构可能在转录调控中起重要作用。

我们对 ChIP-seq 有哪些更多期望?

随着对技术的理解和技术的成熟,实验质量标准将发生转变。 此外,分析的深度,细节和广度将取决于研究的科学问题。 然而,鉴于我们现在知道的情况,我们可以预测可能接受的实验证据的新阈值。 首先,用于 ChIP-seq 特异性的抗体是什么? 我们知道结合的动力学将根据主要 DNA 结合蛋白和其辅因子的丰度而改变。 因此,在比较不同的细胞系时,需要考虑特定的生物化学「状态」,其中包括目的转录因子的表达水平。 将更强调重叠多个 DNA 结合蛋白的结合位点图以提供更全面的相互作用和复合物形成图。