医疗保健行业包含大量敏感数据,需要小心地进行处理。糖尿病作为一种全球范围内严重的致命疾病,急需一种可靠的预测系统来帮助医疗专业人员做出诊断。不同的机器学习技术可用于从不同角度检查数据,并提炼出有价值的信息。通过应用某些数据挖掘技术,大数据的可访问性可用性将带来更有用的知识。研究的主要目标是识别新模式,解释这些模式,为用户提供重要且有用的信息糖尿病会导致心脏病、肾病、神经损伤和失明。因此,高效挖掘糖尿病数据是一个至关重要的问题。本研究使用数据挖掘技术和方法,寻找合适的技术来对糖尿病数据集进行分类并提取模式在本研究中,应用了医学生物信息学分析来预测糖尿病。我们使用WEKA软件作为挖掘工具,对Pima Indian糖尿病数据库(来自UCI存储库)进行分析,目的是建立有效的预测和诊断模型。在本研究中,采用自举重采样技术提高准确性,并将朴素贝叶斯决策树KNN进行对比,以比较其性能。