浙大

当前话题为您枚举了最新的 浙大。在这里,您可以轻松访问广泛的教程、示例代码和实用工具,帮助您有效地学习和应用这些核心编程技术。查看页面下方的资源列表,快速下载您需要的资料。我们的资源覆盖从基础到高级的各种主题,无论您是初学者还是有经验的开发者,都能找到有价值的信息。

浙大数据集成讲解
数据集成与模式集成 数据集成是指将来自多个数据源的数据整合到一个统一的存储中,而模式集成则是整合不同数据源的元数据,为数据集成提供基础。 实体识别与数据冲突 实体识别是指匹配来自不同数据源的现实世界实体,例如将数据源A中的“cust-id”与数据源B中的“customer_no”匹配。 在数据集成过程中,需要检测并解决数据值的冲突。同一实体在不同数据源中的属性值可能存在差异,其原因可能是不同的数据表示方式或度量标准等。
浙大数据挖掘教程
浙大数据挖掘课件助您掌握数据挖掘技能。
[浙大-数据挖掘].1-106.csf [浙大-数据挖掘].1-106.csf
[浙大-数据挖掘].1-106.csf [浙大-数据挖掘].1-106.csf
浙大大数据分类系统详解
数据挖掘系统的分类涵盖了一般功能、描述性数据挖掘和预测性数据挖掘等不同视角。根据挖掘的数据库类型、知识类型、技术使用和应用等多个维度进行分类。
大数据体系结构-浙大解析
联机分析挖掘的体系结构包括数据仓库、元数据、多维数据库、OLAM引擎、OLAP引擎和用户图形界面。API用于数据方体、数据库和数据清理、集成。Layer3为OLAP/OLAM,Layer2为多维数据库,Layer1为数据存储,Layer4为用户界面。数据过滤与集成、约束数据挖掘以及挖掘结果均包含在内。
事实星座模式示例:解读浙大大数据
事实星座模式示例:以销售数据为例 销售事实表(Sales Fact Table) | 字段名 | 描述 ||---|---|| time_key | 时间维度键 || item_key | 商品维度键 || branch_key | 分支机构维度键 || location_key | 地理位置维度键 || units_sold | 销售数量 || dollars_sold | 销售额 || avg_sales | 平均销售额 | 运输事实表(Shipping Fact Table) | 字段名 | 描述 ||---|---|| time_key | 时间维度键 || item_key | 商品维度键 || shipper_key | 承运商维度键 || from_location | 起始地维度键 || to_location | 目的地维度键 || dollars_cost | 运输成本 || units_shipped | 运输数量 | 时间维度表(Time Dimension) | 字段名 | 描述 ||---|---|| time_key | 时间维度键 || day_of_the_week | 星期几 || month | 月份 || quarter | 季度 || year | 年份 | 地理位置维度表(Location Dimension) | 字段名 | 描述 ||---|---|| location_key | 地理位置维度键 || street | 街道 || city | 城市 || province_or_state | 省/州 || country | 国家 | 商品维度表(Item Dimension) | 字段名 | 描述 ||---|---|| item_key | 商品维度键 || item_name | 商品名称 || brand | 品牌 || type | 类型 || supplier_type | 供应商类型 | 分支机构维度表(Branch Dimension) | 字段名 | 描述 ||---|---|| branch_key | 分支机构维度键 || branch_name | 分支机构名称 || branch_type | 分支机构类型 | 承运商维度表(Shipper Dimension) | 字段名 | 描述 ||---|---|| shipper_key | 承运商维度键 || shipper_name | 承运商名称 || location_key | 承运商地理位置维度键 || shipper_type | 承运商类型 |
浙大关于大数据的元数据解析
大数据领域中,元数据与数据相辅相成,共同构建数据仓库的模型结构。元数据主要描述数据模型的结构信息。在数据仓库中,元数据的重要用途包括:作为目录,帮助决策支持系统分析数据仓库内容;作为数据仓库与操作性数据库间的映射标准;指导细节数据与稍加综合数据之间的汇总算法,以及指导稍加综合数据与高度综合数据之间的汇总算法。
浙大探讨大数据的数据压缩策略
数据仓库中存储了大量数据,进行复杂的数据分析与挖掘通常耗时较长。数据压缩策略可以有效减少数据集大小,同时保持几乎相同的分析结果,例如数据立方体聚集和维归约。在数据压缩后,节省的挖掘时间可以超过归约过程中的消耗。
浙大关于大数据的解析和下载
数值区域的自然划分可以使数据更加直观和易于理解。按照3-4-5规则,根据数据集的极值分布,我们将数值区域划分为不同的等宽子区间,以便更好地呈现数据分布情况。例如,对于年薪的划分,我们采用了【10,000~20,000】,【20,000~30,000】,【30,000~40,000】等区间,这种自然划分方法能够有效避免数据分析结果的扭曲。
使用DMQL定义雪花模式的浙大大数据讲解
示例:利用DMQL语言定义雪花模式,创建立方体销售雪花[时间、商品、分支、位置]:销售额 = 美元销售总额之和,平均销售额 = 美元销售总额的平均数,销售单位数 = 总数定义维度时间为(时间键、星期几、月份、季度、年份)定义维度商品为(商品键、商品名称、品牌、类型、供应商(供应商键、供应商类型))定义维度分支为(分支键、分支名称、分支类型)定义维度位置为(位置键、街道、城市(城市键、省或州、国家))。