Kudu：快速分析高速数据

Apache Kudu详解

Kudu是Cloudera开源的列式存储系统，专为Hadoop生态系统设计。它支持常见的技术特性，并能在一般商用硬件上运行，实现了水平扩展和高可用性。

Hadoop 10 2024-07-14

Apache Kudu简介及其在数据分析中的应用

Apache Kudu是Apache Hadoop生态系统中的一个开源列存储引擎，与Hadoop环境中的大多数数据处理框架兼容。它提供了完整的存储解决方案，支持快速数据分析和查询。Apache Kudu项目最初源自于Cloudera的内部开发，为大数据分析提供高效的数据存储和访问能力。

spark 9 2024-07-13

Kudu Java 实战: 操控数据指南

Kudu Java 实战: 操控数据指南这份指南将带您领略如何使用 Kudu Java 客户端进行数据库基础操作，包括：连接 Kudu 集群: 建立与 Kudu 集群的安全连接，为数据操作打下基础。创建 Kudu 表: 定义表结构，包含列名、数据类型和主键等信息，构建数据存储的框架。插入数据: 将数据写入 Kudu 表中，支持单条插入和批量插入操作。查询数据: 使用灵活的查询语句检索 Kudu 表中的数据，满足各种数据分析需求。更新数据: 修改 Kudu 表中已有的数据，保持数据实时更新。删除数据: 从 Kudu 表中移除不需要的数据，确保数据有效性和一致性

Hadoop 9 2024-04-30

深入解析 Kudu 架构

Kudu 采用了独特的存储架构，融合了行式存储和列式存储的优势。其核心组件包括： Tablet：数据存储的基本单元，类似于 Bigtable 中的 Tablet 或 HBase 中的 Region。每个 Tablet 包含多个 RowSet，并按主键范围进行分区。 RowSet：Tablet 中数据的组织单位，分为内存中的 MemRowSet 和磁盘上的 DiskRowSet。MemRowSet 负责处理写入操作，而 DiskRowSet 则负责存储历史数据。 Tablet Server：负责管理 Tablet，处理数据读写请求，并与 Master Server 进行通信。 Master S

Hadoop 7 2024-04-30

Kudu-1.7.0+cdh5.15.1

Kudu-1.7.0+cdh5.15.1，大数据存储，支持Spark，可与Cloudera Hadoop Distribution 5.15.1配合使用。

spark 12 2024-04-29

快速入门聚类分析

非统计或数学专业人士也能轻松上手聚类分析！只需三分钟，了解聚类的目的、分类、步骤，助您解决问题，思路清晰，操作简便。

算法与数据结构 9 2024-04-29

Redis：高速缓存利器

Redis 是一款内存数据库，以其卓越的性能和灵活性而闻名。它常被用作缓存，显著提升应用程序的响应速度。核心优势：高性能：数据存储在内存中，读写速度极快，适用于对延迟敏感的应用场景。数据结构丰富：支持多种数据结构，例如字符串、列表、集合、哈希表等，赋予开发者更大的灵活性和效率。持久化选项：可选择将数据持久化到磁盘，确保数据的安全性。发布/订阅：支持消息的发布/订阅模式，方便构建实时应用程序。应用场景：缓存：加速数据库查询，提升应用程序性能。会话存储：管理用户会话数据，例如购物车信息、登录状态等。排行榜：实时更新排行榜数据，例如游戏排名、社交

Redis 14 2024-05-21

高速数据链挖掘算法优化探索

评估了VFDT，一种用于构建决策树的随机系统，其能够在固定的内存和时间内处理每个样本。它通过建立Hoeffding树来提供决策支持，并利用Hoeffding约束保证在处理高速数据链时的高精度。

数据挖掘 10 2024-07-16

Apache Kudu 1.15.0版本下载

在Hadoop生态系统中，现存的数据输入和分析解决方案有限且效率不高。Apache Kudu基于列的数据存储技术，提供了解决快速输入和快速分析之间平衡的方法。

Hadoop 9 2024-07-31