OsT-FsT分析COOY全球资源网-软件资源-干货分享-知识求知COOY全球资源网

一、OsT-FsT分析的原理

1. 背景和目的

目的：检测代谢物水平上的选择标记，揭示不同群体（如野生种和栽培种）在代谢产物上的差异，进而理解驯化过程中的代谢选择和用途差异。

2. 关键概念

FsT（Fixation Index）：遗传学中衡量群体间遗传分化程度的指标，值域为0到1。
- FsT = 0：表示群体间没有遗传分化，即基因频率完全相同。
- FsT = 1：表示群体间完全分化，没有共享的基因变异。
OsT（Phenotypic FsT）：是表型特征（如代谢物含量）的FsT模拟物，用于衡量群体间表型的分化程度。

3. OsT的计算

定义：OsT = ( frac{omega}{omega_2 + 2Omega_2} )
- (omega)：群体间的变异（表型变异的“组间”差异）。
- (omega_2)：群体内的变异（表型变异的“组内”差异）。
- (Omega_2)：环境变异或误差项，通常在重复测量或实验设计中估计。
直观理解：OsT衡量的是群体间的表型差异占总变异的比例。

4. 原理

核心思想：比较表型分化（OsT）和遗传分化（FsT），如果某个代谢物的OsT显著高于中性预期的分布，可能暗示该代谢物受到了正向选择。
中性假设：假设在没有选择的情况下，表型分化程度应与遗传分化程度相匹配。
检测选择：通过模拟（如蒙特卡洛模拟）生成中性条件下的OsT-FsT分布，然后将观察到的OsT与之比较，计算P值，判断是否显著偏离中性分布。

二、详细步骤

1. 数据准备

基因型数据：用于计算FsT，需要不同群体的基因型数据（SNP数据）。
- 过滤：使用没有缺失值的四倍同义转换SNP，删除位于选择区域的SNP，以获得中性的FsT估计。
表型数据：代谢物的含量测量值，需包含群体信息和重复测量。

2. 计算FsT

方法：采用Weir and Cockerham（1984）的方法计算FsT。
步骤：
- 计算群体内和群体间的基因频率差异。
- 估计FsT值：可以使用统计软件或编程语言中的遗传分析库，如Python的scikit-allel，R的hierfstat等。

3. 计算OsT

使用方差分析（ANOVA）：
- 模型：以代谢物含量为响应变量，群体为固定效应，重复为随机效应。
步骤：
- 计算群体间方差（(omega)）。
- 计算群体内方差（(omega_2)）。
- 计算环境变异或误差项（(Omega_2)）。
- 计算OsT：使用之前的公式。

4. 生成中性OsT-FsT分布

模拟过程：
- 重复次数：通常为1000次或更多。
- 步骤：
  1. 随机抽取FsT值：从中性SNP的FsT分布中随机抽样。
  2. 模拟(omega)值：根据FsT值和(omega_2)计算得到。
    - 使用公式：(omega = frac{2 times FsT times (omega_2 + 2Omega_2)}{1 – FsT})
  3. 计算模拟的OsT值：使用模拟的(omega)和真实的(omega_2)、(Omega_2)计算OsT。
目的是：建立中性条件下OsT的期望分布，以此作为参照。

5. 统计检验

计算P值：
- 将观察到的OsT与模拟的中性OsT分布进行比较。
- P值：等于模拟值中大于等于观察到的OsT值的比例。
判定显著性：
- 通常采用显著性水平（如0.05）判断代谢物是否受到选择。

三、代码实现

使用以下库：

Pandas：用于数据处理。
NumPy：用于数值计算。
SciPy：用于统计分析。
statsmodels：用于方差分析（ANOVA）。

1. 导入所需库

import pandas as pd
import numpy as np
from scipy import stats
import statsmodels.api as sm
from statsmodels.formula.api import ols

2. 示例数据准备

假设：

我们有基因型数据，计算得到了中性SNP的FsT分布。
有代谢物的表型数据，包括群体信息和重复测量。

# 示例FsT数据（中性SNPs）
fst_neutral = np.random.beta(a=0.5, b=5, size=10000)  # 生成FsT分布

# 示例表型数据
# 假设有两个群体，每个群体有重复测量
data = pd.DataFrame({
    'Metabolite': np.random.normal(loc=0, scale=1, size=100),
    'Population': ['Pop1'] * 50 + ['Pop2'] * 50,
    'Replicate': list(range(1, 51)) * 2
})

3. 计算OsT

# 使用ANOVA计算群体间和群体内的变异
model = ols('Metabolite ~ C(Population)', data=data).fit()
anova_table = sm.stats.anova_lm(model, typ=2)

# 提取方差分量
ms_between = anova_table['sum_sq']['C(Population)'] / anova_table['df']['C(Population)']
ms_within = anova_table['sum_sq']['Residual'] / anova_table['df']['Residual']

# 群体间方差（ω）
omega = ms_between - ms_within

# 群体内方差（ω2）
omega2 = ms_within

# OsT计算
OsT_observed = omega / (omega2 + 2 * omega2)

4. 生成中性OsT-FsT分布

# 模拟参数
n_simulations = 1000  # 模拟次数
OsT_simulated = []

for _ in range(n_simulations):
    # 从中性FsT分布中随机抽取一个FsT值
    fst_sample = np.random.choice(fst_neutral)
    
    # 使用公式计算模拟的ω
    omega_sim = (2 * fst_sample * (omega2 + 2 * omega2)) / (1 - fst_sample)
    
    # 计算模拟的OsT
    OsT_sim = omega_sim / (omega2 + 2 * omega2)
    
    OsT_simulated.append(OsT_sim)

# 转换为NumPy数组
OsT_simulated = np.array(OsT_simulated)

5. 统计检验

# 计算P值：OsT_simulated中大于等于OsT_observed的比例
p_value = np.mean(OsT_simulated >= OsT_observed)

print(f'观察到的OsT值：{OsT_observed:.4f}')
print(f'模拟的OsT平均值：{np.mean(OsT_simulated):.4f}')
print(f'P值：{p_value:.4f}')

6. 结果解读

如果P值小于显著性水平（如0.05），则认为该代谢物的表型分化显著高于中性预期，可能受到了选择压力。

7. 可视化结果

import matplotlib.pyplot as plt

# 绘制模拟的OsT分布直方图
plt.hist(OsT_simulated, bins=30, alpha=0.7, label='中性OsT分布')

# 绘制观察到的OsT值
plt.axvline(OsT_observed, color='red', linestyle='--', label='观察到的OsT')

plt.xlabel('OsT值')
plt.ylabel('频数')
plt.title('OsT-FsT分析')
plt.legend()
plt.show()

四、总结

OsT-FsT分析是一种将遗传分化与表型分化相结合的方法，用于检测可能受到自然选择的特征。
关键步骤：
1. 计算FsT：衡量遗传分化程度。
2. 计算OsT：衡量表型分化程度。
3. 模拟中性分布：建立在中性条件下的OsT期望分布。
4. 统计检验：比较观察值与中性分布，计算P值。

【信息由网络或者个人提供，如有涉及版权请联系COOY资源网邮箱处理】

本平台（www.cooy.cn）的一切软件、教程及内容信息仅限用于学习和研究，付费仅为收集整理归类费用；不得将上述内容用于商业或者非法用途，否则一切后果用户自行承担负责。本平台资源、内容、信息均来自来自用户上传，版权争议及其他问题与本平台无关。您必须在下载后的24个小时之内从您的电脑或手机中彻底删除上述下载内容，如果您喜欢该程序或内容，请支持正版以获取更好的服务。我们非常重视版权问题，如有侵权请发送邮件至下方邮件（655465@qq.com），敬请谅解！如发现违法违规内容，请联系下方邮箱举报，我们收到后将会第一时间处理。

THE END

其他

OsT-FsT分析

一、OsT-FsT分析的原理

1. 背景和目的

2. 关键概念

3. OsT的计算

4. 原理

二、详细步骤

1. 数据准备

2. 计算FsT

3. 计算OsT

4. 生成中性OsT-FsT分布

5. 统计检验

三、代码实现

1. 导入所需库

2. 示例数据准备

3. 计算OsT

4. 生成中性OsT-FsT分布

5. 统计检验

6. 结果解读

7. 可视化结果

四、总结

请登录后发表评论