最新实例
Scala 2.10安装配置教程
Scala 的安装流程其实挺,只要你走对了顺序,基本上不会踩坑。这套教程里把JDK、Scala、还有开发神器IntelliJ IDEA的安装全都拆解清楚了,新手跟着一步步来就行。JDK 是 Scala 运行的底层依赖,先装它准没错。教程用的是 1.8 版本,稳定兼容性也比较好。装好后别忘了加上JAVA_HOME和path环境变量,不然你后面运行javac会报错。接下来是 Scala 本体,教程推荐的是 2.10 这个版本,虽然不是最新的,但在多老项目里还挺常见。下载地址和安装步骤都列得蛮清楚,还配了图,操作起来省心。IDEA 的安装部分也实用,用的是社区版,对大多数人来说已经够用了。顺手装个S
PySpark数据分析课程课件
PySpark 数据课程的课件源码,挺适合想入门或深入学习数据的小伙伴。虽然视频加密了,无法上传,但课程的课件提取了出来,内容还是蛮实用的。了如何使用 PySpark 进行数据、清洗和,适合用来提升你的 Python 数据技能。课程结合了实际操作,了多常见的数据技巧,挺适合那些想快速入门的开发者,甚至可以拿来做项目练手。如果你有一定基础,能更好地理解其中的高效技巧,提升你的项目实践能力哦。
Spark Spark2 2..3.0Hadoop2无Hive版3.0Hadoop2版本(不含Hive)
Spark 2.3.0 的版本更新挺有意思,尤其是这款spark-2.3.0-bin-hadoop2-without-hive,它最大的特点就是不带 Hive 的 JAR 包。你可以在不依赖 Hive 的情况下,使用SparkHive 上的数据,挺适合有独立 Hive 集群的同学。如果你是那种 Spark 能独立数据,又不想完全依赖 Hive 功能的开发者,这个版本就蛮合适的。其实,Spark的性能提升蛮,支持批、交互式查询和实时流。就算是没有 Hive JAR 包,你依旧可以通过配置文件来接入 Hive 的元数据。只要在配置文件里设置好spark.sql.hive.metastore.uri
艾瑞咨询2020年中国数据中心行业发展洞察
中国的数据中心行业正在迎来新一轮的增长,尤其是 5G、物联网和工业互联网等技术的成熟,带动了数据中心的需求暴增。艾瑞咨询的这份报告,深入了数据中心的分类、发展环境及市场趋势,给出了未来的行业发展路径。如果你对数据中心的前景感兴趣,这份报告能给你不少启发。除了行业趋势,报告还涵盖了如何借助云计算、大数据等技术提升行业效率,挺值得关注的。
2015年中国车主十一出行大数据报告
十一期间车主的出行偏好、时间分布还有高速通行习惯,看完这份 2015 年的大数据报告,感觉挺有意思的。报告里有大量的可视化图表,得蛮细致,尤其是节前节后车流高峰对比,做前端交互项目的时候能直接拿来参考数据结构和用户行为模型。
SBT 0.13.15构建工具
Scala 老项目的好搭子——SBT 0.13.15,虽然是老版本,但在不少旧系统里还蛮常见的。安装也不复杂,准备好JDK 1.6+,下个包、配下PATH环境变量,跑个sbt version就能验证搞定。它的构建逻辑比较清晰,用Build.scala文件配好依赖、结构清楚点就 OK,像src/main/scala和src/test/java这类目录都是固定套路。嗯,依赖啥的就交给libraryDependencies去管,SBT 自己会拉。命令操作也都挺顺手的,像compile编译、test测试、package打包,控制台敲一敲就完事儿了。第一次跑的话要下载一堆 jar,慢点正常,耐心等下就好
Spark企业级实战指南
Spark 企业级实战这本书挺适合有一定基础的开发者,尤其是想深入了解 Spark 在企业中的实际应用的朋友。它的内容比较全面,从典型的企业案例讲起,再到深入 Spark 的内核源码,内容相当有深度。你要是对大数据有兴趣,这本书肯定能给你带来不少启发哦。是它的中文版 PDF,带有目录,挺方便查阅的。无论是你要在公司项目中用到 Spark,还是自己探索一些底层实现,都能从中获得多实用的知识。你如果想从源码角度理解 Spark 的工作原理,看到它是怎么海量数据的,真的是不错的选择。
驱动器未格式化提示数据恢复方法
遇到“驱动器中的磁盘未被格式化,想现在格式化吗?”的提示,硬盘分区出了问题。别急,直接格式化会丢失数据,得先恢复数据再修复分区。你可以通过一些靠谱的数据恢复软件来,比如“极光数据恢复”就挺好用。操作步骤不复杂,先安装并运行软件,扫描一下出问题的分区,快速扫描找不到的话可以深度扫描,恢复文件之后再复制到其他盘。,修复分区时要小心,最好先备份恢复的数据,避免二次损坏。记住,恢复前不要往有问题的分区写数据,避免覆盖丢失的文件。如果不确定操作,可以找专业的服务。
Advanced Analytics with Spark 2nd Edition数据挖掘与案例实战
案例驱动的 Spark 教程,挺适合你想深入搞数据挖掘的时候翻一翻的。《Advanced Analytics with Spark 第二版》里的例子都比较贴地气,像是推荐系统、异常检测这种,拿来就能跑。 源码全公开,结构清晰,改起来也方便。你可以直接上 Spark 高级数据源码 看看,里面的数据集和脚本都帮你准备好了,响应也快。 Spark的RDD和DataFrame切换逻辑,在书里讲得挺透的。比如用filter用户行为数据,或者通过groupBy做简单聚合,流程都清楚,适合新手跟着练。 如果你想知道实际数据问题怎么影响结果,推荐顺手读下 数据挖掘案例:缺失天气属性的影响,和主书内容衔接挺紧的
基于Spark技术的网络大数据分析平台搭建与应用
基于 Spark 技术的网络大数据平台,算是我用过比较顺手的一套系统,适合电信行业那种又杂又多的信令数据。平台的实时性和扩展性都挺不错,响应快,数据量上来以后直接加节点就能顶住,不用重新折腾架构,省心。平台底层是Spark,你知道它和传统的 Hadoop 比,胜在内存计算快,尤其是迭代算法,比如推荐系统、聚类那类,跑得挺溜。核心用的是RDD和Dataset,想灵活点还可以用DataFrame那套 API。信令数据这块,主要是网络里的控制消息,类似拨打电话、发短信时系统之间的沟通。用 Spark 来,效率真心高,问题定位、网络调优都靠它来加速,效果蛮的。顺带提一句,它还能和HBase打配合,数据