Bismark 是一个用于处理甲基化测序数据的工具,特别是针对二硫化处理的 DNA 测序数据。它的主要功能是将测序读段比对到参考基因组,并提取甲基化信息。以下是 Bismark 的基本原理和工作流程:
1. 二硫化处理的背景
在二硫化处理的过程中,DNA 样本会经过化学处理,使得未甲基化的胞嘧啶(C)转变为尿嘧啶(U),而甲基化的胞嘧啶则保持不变。在后续的 PCR 扩增和测序过程中,尿嘧啶会被替换为胸腺嘧啶(T),因此在测序数据中,甲基化和未甲基化的胞嘧啶会以不同的方式表现出来。
1. 亚硫酸氢盐处理 (Bisulfite Treatment) 的化学反应:
- 目标: 区分甲基化的胞嘧啶 (5mC) 和未甲基化的胞嘧啶 (C)。
-
过程:
- DNA 样本与亚硫酸氢盐 (bisulfite) 试剂反应。
- 亚硫酸氢盐会与胞嘧啶发生脱氨基反应,将其转化为尿嘧啶 (U)。
- 关键点: 5-甲基胞嘧啶 (5mC) 由于甲基基团的存在,对亚硫酸氢盐的脱氨基反应具有抵抗性,因此不会被转化,仍然保持为 5mC。
-
结果:
- 未甲基化的胞嘧啶 (C) → 尿嘧啶 (U)
- 甲基化的胞嘧啶 (5mC) → 保持不变 (5mC)
2. 测序过程 (Sequencing):
- 原理: 大多数测序平台(例如 Illumina)在测序过程中会将尿嘧啶 (U) 读取为胸腺嘧啶 (T)。这是因为 U 和 T 在 DNA 复制过程中都与腺嘌呤 (A) 配对,测序仪无法区分它们。
-
结果:
- 原本是未甲基化的胞嘧啶 (C) 的位置,经过亚硫酸氢盐处理后变成尿嘧啶 (U),测序时被读作胸腺嘧啶 (T)。
- 原本是甲基化的胞嘧啶 (5mC) 的位置,经过亚硫酸氢盐处理后保持不变,测序时仍然被读作胞嘧啶 (C)。
3. 综合理解:
-
比较: 通过比较测序结果和原始基因组序列,我们可以推断出哪些胞嘧啶发生了甲基化。
- 如果基因组上某个胞嘧啶位点在测序结果中显示为胸腺嘧啶 (T),则说明该位点在原始 DNA 样本中是未甲基化的。
- 如果基因组上某个胞嘧啶位点在测序结果中仍然显示为胞嘧啶 (C),则说明该位点在原始 DNA 样本中是甲基化的。
说明:
假设我们有一段 DNA 序列:
原始 DNA: 5'-ATGC**C**G**5mC**G**C**T-3'
其中,加粗的 C 表示胞嘧啶,5mC 表示甲基化的胞嘧啶。
- 亚硫酸氢盐处理后:
处理后 DNA: 5'-ATGU**U**G**5mC**GU**U**T-3'
- 测序后 (U 被读作 T):
测序结果: 5'-ATG**T**TG**C**GT**T**T-3'
- 与原始基因组比较:
原始 DNA: 5'-ATGC**C**G**5mC**G**C**T-3'
测序结果: 5'-ATG**T**TG**C**GT**T**T-3'
通过比较,我们可以发现:
- 第二个胞嘧啶 (原本未甲基化) 在测序结果中变成了 T,说明它被亚硫酸氢盐转化了,因此是未甲基化的。
- 第三个胞嘧啶 (原本已甲基化) 在测序结果中仍然是 C,说明它没有被亚硫酸氢盐转化,因此是甲基化的。
一句话总结:最后能够测到的C都是甲基化的
2. Bismark 的工作流程
Bismark 的工作流程主要包括以下几个步骤:
a. 生成双链比对基因组
Bismark 首先会根据参考基因组生成一个双链比对的基因组索引。这一过程会考虑到二硫化处理的影响,生成两个版本的基因组:一个是原始的参考基因组,另一个是将所有的 C 替换为 T 的版本。
b. 比对测序读段
接下来,Bismark 使用比对工具(如 Bowtie2)将测序读段比对到上述生成的双链基因组索引中。比对的结果会生成一个 BAM 文件,记录每个读段在基因组中的位置。
c. 提取甲基化信息
在比对完成后,Bismark 会分析 BAM 文件,提取每个胞嘧啶的甲基化状态。具体来说,它会检查每个 C 的位置,判断其在测序读段中的表现(是 C 还是 T),从而推断出该位置的甲基化状态。
d. 输出结果
最后,Bismark 会将提取的甲基化信息输出为不同格式的文件(如 bedGraph、Methylation Calls 等),供后续分析使用。
3. 结果分析
Bismark 生成的结果可以用于多种下游分析,例如:
- 甲基化水平的比较
- 甲基化模式的研究
- 甲基化与基因表达之间的关系分析
【信息由网络或者个人提供,如有涉及版权请联系COOY资源网邮箱处理】
暂无评论内容