本代码库提供基于MATLAB的非参数化模型,用于预测嗜酸嗜热菌DNA结合蛋白HTa的结合位点。该模型利用LASSO回归算法,并结合MNase-seq数据进行峰值检测和评分,进而评估HTa蛋白在不同基因组区域的结合差异。

代码使用方法:

  1. 运行LASSO_Input_file_generation.R脚本生成LASSO模型的输入文件。
  2. 使用MATLAB R2018a版本运行AH_LASSO_script.m脚本,输入步骤1生成的模型文件,得到LASSO模型系数。
  3. 运行LASSO_output_file_generation.R脚本,输入步骤2得到的模型系数以及计算得到的Kmers丰度,生成最终的预测结果。
  4. 运行Peak_detection_and_scoring_on_indep_bwFile.R脚本,利用Bioconductor NucleR包对不同MNase-seq数据进行峰值检测和评分,并计算其相对不对称性,用于评估HTa蛋白在不同基因组区域的结合差异。

依赖:

  • MATLAB R2018a
  • R
  • Bioconductor NucleR包