信息技术的快速发展促成了大数据时代的到来,大数据已成为信息社会的重要资源,为人们更深入地感知、认识和控制物理世界提供了丰富信息。然而随着数据规模的扩大,劣质数据也随之增加,导致大数据质量低下,极大地降低了其可用性,这一问题在信息社会中日益严重。近年来,学术界和工业界对数据可用性问题展开了深入研究,并取得了一系列重要成果。介绍了数据可用性的基本概念,讨论了其面临的挑战和研究问题,综述了相关的研究成果,并探索了未来大数据可用性研究的方向。
大数据质量问题与可用性研究综述.pdf
相关推荐
数据质量问题及应对策略
“坏数据”的定义难以精确界定。它并非只是缺失值、格式错误的记录和繁琐的文件格式等技术问题,还包括那些浪费时间、导致加班、令人沮丧的数据。例如,无法访问的数据、曾经拥有但丢失的数据,以及今天与昨天不一致的数据等等。简而言之,“坏数据”是阻碍工作进展的数据。从存储问题到表示不佳,再到政策误导,导致“坏数据”的原因多种多样。任何数据科学从业者都难免会遇到这类问题。为此,我们编撰了这本“坏数据手册”,汇集了来自数据领域各个层面的 19 位专业人士的经验分享,他们讲述了自己遇到的数据问题以及如何解决这些问题的经历。
Hadoop
1
2024-06-22
数据恢复与高可用性实施指南
详细探讨了数据恢复与高可用性(High Availability, HA)的概念及其在数据库系统中的应用。高可用性是确保应用程序和服务持续运行的能力,即使面对硬件故障、软件错误或网络中断等意外情况时也能保证系统的稳定性和数据的完整性。文章特别强调了IBM DB2数据库管理系统在实现高可用性方面的策略和技术,包括热备援功能(HADR)、故障转移集群和数据分区。另外,文章还介绍了数据恢复的重要性及使用DB2时的备份和恢复策略,如完全备份、增量备份、日志备份和快照恢复。最后,为了保证数据库系统的高可用性和数据恢复的有效性,文章提供了制定灾难恢复计划和定期恢复测试的实施策略。
DB2
0
2024-08-16
MySQL 高可用性运营
MySQL 高可用性运营
莫晓东
2018 年 1 月 13 日
MySQL
7
2024-05-20
提升PostgreSQL的可用性
推广课程——学习提升PostgreSQL可用性的课程,欢迎大家下载学习。
PostgreSQL
3
2024-07-13
MySQL高可用性指南
对于有意深入学习MySQL的读者,这本书提供了全面的MySQL集群部署和管理指南,内容涵盖了MySQL的高可用性和集群管理等关键领域,适合希望提升数据库管理能力的读者。
MySQL
2
2024-07-25
构建HDFS高可用性安装与测试
为了安装HDFS的高可用性环境,选择安装CentOS7-X64,确保选用带GUI的服务器版本,即使是非管理节点也可选择最小安装和开发工具。在安装过程中,务必选择支持Infiniband的选项,以确保搭建的HDFS集群在性能和稳定性上达到高标准。
Hadoop
2
2024-07-16
数据库高可用性探讨
探讨了数据库高可用性的重要性及其解决方案,详细介绍了Oracle的RAC、Data Guard、Streams、GoldenGate、SharePlex等技术原理和特点,分析它们之间的差异。
Oracle
0
2024-09-22
构建高可用性HDFS集群
这份文档详细阐述了如何构建高可用的HDFS(Hadoop分布式文件系统)集群。通过配置NameNode的HA(高可用性)机制,确保即使单个NameNode发生故障,整个HDFS集群仍然能够正常运作,保障数据的可靠性和服务的连续性。
Hadoop
2
2024-05-19
MySQL高可用性方案优化
针对MySQL高可用性的解决方案进行优化,以确保系统稳定性和数据可靠性。
MySQL
0
2024-09-01