在这个项目中,中国股票市场日线级别数据的分析通过机器学习方法进行,主要数据来源于tusharesina这两个平台。tushare提供了丰富的API接口,供用户获取历史股票交易数据,包括开盘价、收盘价、最高价、最低价和成交量等关键指标,而sina则提供了市场新闻和情绪分析数据,帮助分析行业动态。该模型的核心算法是支持向量机(SVM),这是一种常用于分类和回归任务的监督学习方法。在金融领域,SVM通过分析历史数据来预测未来的股票走势,找出最优决策边界。然而,项目还计划进行其他算法的对比研究,可能涉及神经网络随机森林线性回归等算法,每种算法有其独特优势,选择哪种算法取决于数据特性和具体需求。

大数据处理在此项目中扮演着重要角色,涉及对大量历史交易数据的清洗、整合与分析。除了股票价格,还可能包括公司财务报告、新闻资讯和投资者行为等其他数据,这些都需要强大的数据存储和处理框架,如HadoopSpark等。项目的算法设计需要考虑到数据结构和算法优化,例如使用高效的排序、搜索和聚类算法,以挖掘数据中的趋势和模式。最后,项目还使用了人工智能技术,尤其是深度学习,通过对历史数据的学习与自我优化,来提升预测准确性。