本代码库提供基于MATLAB的非参数化模型,用于预测嗜酸嗜热菌DNA结合蛋白HTa的结合位点。该模型利用LASSO回归算法,并结合MNase-seq数据进行峰值检测和评分,进而评估HTa蛋白在不同基因组区域的结合差异。
代码使用方法:
- 运行
LASSO_Input_file_generation.R
脚本生成LASSO模型的输入文件。 - 使用MATLAB R2018a版本运行
AH_LASSO_script.m
脚本,输入步骤1生成的模型文件,得到LASSO模型系数。 - 运行
LASSO_output_file_generation.R
脚本,输入步骤2得到的模型系数以及计算得到的Kmers丰度,生成最终的预测结果。 - 运行
Peak_detection_and_scoring_on_indep_bwFile.R
脚本,利用Bioconductor NucleR包对不同MNase-seq数据进行峰值检测和评分,并计算其相对不对称性,用于评估HTa蛋白在不同基因组区域的结合差异。
依赖:
- MATLAB R2018a
- R
- Bioconductor NucleR包