OsT-FsT分析

一、OsT-FsT分析的原理

1. 背景和目的

  • 目的:检测代谢物水平上的选择标记,揭示不同群体(如野生种和栽培种)在代谢产物上的差异,进而理解驯化过程中的代谢选择和用途差异。

2. 关键概念

  • FsT(Fixation Index):遗传学中衡量群体间遗传分化程度的指标,值域为0到1。

    • FsT = 0:表示群体间没有遗传分化,即基因频率完全相同。
    • FsT = 1:表示群体间完全分化,没有共享的基因变异。
  • OsT(Phenotypic FsT):是表型特征(如代谢物含量)的FsT模拟物,用于衡量群体间表型的分化程度。

3. OsT的计算

  • 定义:OsT = ( frac{omega}{omega_2 + 2Omega_2} )

    • (omega):群体间的变异(表型变异的“组间”差异)。
    • (omega_2):群体内的变异(表型变异的“组内”差异)。
    • (Omega_2):环境变异或误差项,通常在重复测量或实验设计中估计。
  • 直观理解:OsT衡量的是群体间的表型差异占总变异的比例。

4. 原理

  • 核心思想:比较表型分化(OsT)和遗传分化(FsT),如果某个代谢物的OsT显著高于中性预期的分布,可能暗示该代谢物受到了正向选择。

  • 中性假设:假设在没有选择的情况下,表型分化程度应与遗传分化程度相匹配。

  • 检测选择:通过模拟(如蒙特卡洛模拟)生成中性条件下的OsT-FsT分布,然后将观察到的OsT与之比较,计算P值,判断是否显著偏离中性分布。


二、详细步骤

1. 数据准备

  • 基因型数据:用于计算FsT,需要不同群体的基因型数据(SNP数据)。

    • 过滤:使用没有缺失值的四倍同义转换SNP,删除位于选择区域的SNP,以获得中性的FsT估计。
  • 表型数据:代谢物的含量测量值,需包含群体信息和重复测量。

2. 计算FsT

  • 方法:采用Weir and Cockerham(1984)的方法计算FsT。

  • 步骤

    • 计算群体内和群体间的基因频率差异
    • 估计FsT值:可以使用统计软件或编程语言中的遗传分析库,如Python的scikit-allel,R的hierfstat等。

3. 计算OsT

  • 使用方差分析(ANOVA)

    • 模型:以代谢物含量为响应变量,群体为固定效应,重复为随机效应。
  • 步骤

    • 计算群体间方差((omega))
    • 计算群体内方差((omega_2))
    • 计算环境变异或误差项((Omega_2))
    • 计算OsT:使用之前的公式。

4. 生成中性OsT-FsT分布

  • 模拟过程

    • 重复次数:通常为1000次或更多。

    • 步骤

      1. 随机抽取FsT值:从中性SNP的FsT分布中随机抽样。

      2. 模拟(omega)值:根据FsT值和(omega_2)计算得到。

        • 使用公式:(omega = frac{2 times FsT times (omega_2 + 2Omega_2)}{1 – FsT})
      3. 计算模拟的OsT值:使用模拟的(omega)和真实的(omega_2)、(Omega_2)计算OsT。

  • 目的是:建立中性条件下OsT的期望分布,以此作为参照。

5. 统计检验

  • 计算P值

    • 将观察到的OsT与模拟的中性OsT分布进行比较

    • P值:等于模拟值中大于等于观察到的OsT值的比例。

  • 判定显著性

    • 通常采用显著性水平(如0.05)判断代谢物是否受到选择。

三、代码实现

使用以下库:

  • Pandas:用于数据处理。
  • NumPy:用于数值计算。
  • SciPy:用于统计分析。
  • statsmodels:用于方差分析(ANOVA)。

1. 导入所需库

import pandas as pd
import numpy as np
from scipy import stats
import statsmodels.api as sm
from statsmodels.formula.api import ols

2. 示例数据准备

假设:

  • 我们有基因型数据,计算得到了中性SNP的FsT分布。

  • 有代谢物的表型数据,包括群体信息和重复测量。

# 示例FsT数据(中性SNPs)
fst_neutral = np.random.beta(a=0.5, b=5, size=10000)  # 生成FsT分布

# 示例表型数据
# 假设有两个群体,每个群体有重复测量
data = pd.DataFrame({
    'Metabolite': np.random.normal(loc=0, scale=1, size=100),
    'Population': ['Pop1'] * 50 + ['Pop2'] * 50,
    'Replicate': list(range(1, 51)) * 2
})

3. 计算OsT

# 使用ANOVA计算群体间和群体内的变异
model = ols('Metabolite ~ C(Population)', data=data).fit()
anova_table = sm.stats.anova_lm(model, typ=2)

# 提取方差分量
ms_between = anova_table['sum_sq']['C(Population)'] / anova_table['df']['C(Population)']
ms_within = anova_table['sum_sq']['Residual'] / anova_table['df']['Residual']

# 群体间方差(ω)
omega = ms_between - ms_within

# 群体内方差(ω2)
omega2 = ms_within

# OsT计算
OsT_observed = omega / (omega2 + 2 * omega2)

4. 生成中性OsT-FsT分布

# 模拟参数
n_simulations = 1000  # 模拟次数
OsT_simulated = []

for _ in range(n_simulations):
    # 从中性FsT分布中随机抽取一个FsT值
    fst_sample = np.random.choice(fst_neutral)
    
    # 使用公式计算模拟的ω
    omega_sim = (2 * fst_sample * (omega2 + 2 * omega2)) / (1 - fst_sample)
    
    # 计算模拟的OsT
    OsT_sim = omega_sim / (omega2 + 2 * omega2)
    
    OsT_simulated.append(OsT_sim)

# 转换为NumPy数组
OsT_simulated = np.array(OsT_simulated)

5. 统计检验

# 计算P值:OsT_simulated中大于等于OsT_observed的比例
p_value = np.mean(OsT_simulated >= OsT_observed)

print(f'观察到的OsT值:{OsT_observed:.4f}')
print(f'模拟的OsT平均值:{np.mean(OsT_simulated):.4f}')
print(f'P值:{p_value:.4f}')

6. 结果解读

  • 如果P值小于显著性水平(如0.05),则认为该代谢物的表型分化显著高于中性预期,可能受到了选择压力。

7. 可视化结果

import matplotlib.pyplot as plt

# 绘制模拟的OsT分布直方图
plt.hist(OsT_simulated, bins=30, alpha=0.7, label='中性OsT分布')

# 绘制观察到的OsT值
plt.axvline(OsT_observed, color='red', linestyle='--', label='观察到的OsT')

plt.xlabel('OsT值')
plt.ylabel('频数')
plt.title('OsT-FsT分析')
plt.legend()
plt.show()

四、总结

  • OsT-FsT分析是一种将遗传分化与表型分化相结合的方法,用于检测可能受到自然选择的特征。

  • 关键步骤

    1. 计算FsT:衡量遗传分化程度。

    2. 计算OsT:衡量表型分化程度。

    3. 模拟中性分布:建立在中性条件下的OsT期望分布。

    4. 统计检验:比较观察值与中性分布,计算P值。

【信息由网络或者个人提供,如有涉及版权请联系COOY资源网邮箱处理】

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容