我们的方法采用MATLAB编写,介绍了一种通过隐马尔可夫模型(HMM)识别SNP和Indel的新方法。该模型通过读取带有Phred + 33编码质量得分的SAM文件和参考基因组(FASTA文件)来确定每个位置最可能的突变状态。它生成TXT格式的状态信息报告变体,并提供了将TXT格式转换为变体调用文件(VCF)格式的代码。用户可以从解压缩包中获取并使用该程序。在MATLAB中,将当前工作目录更改为“ vi-HMM”文件夹,其中包含按组织存储的子文件夹和代码。要运行程序,请将“ vi-HMM”及其子目录添加到MATLAB路径中(使用命令>> addpath(genpath(pwd)))。分析所需的数据必须放置在名为“数据”的文件夹中,该程序提供了随附的示例数据(ref.fa,example.sam和truevar.txt),这些数据基于一个包含四个隐藏状态的HMM模型:“匹配”,“SNP”,“删除”和“插入”,具有过渡概率矩阵T和发射概率矩阵E。详细的数据模拟信息可供参考。