在HDFS中,NameNode是系统的核心节点,它存储了各类元数据的信息,并负责管理文件系统的命名空间和客户端对文件的访问。但是,在Hadoop1.0版本中,NameNode只有一个,一旦这个NameNode发生故障,就会导致整个Hadoop集群不可用,也就是发生了单点故障问题。 查看全文>>
大数据技术文章2022-06-28 |传智教育 |大数据培训,HDFS高可用框架
大数据分析有完善的操作步骤,先分析什么,后分析什么,各个分析点之间都有逻辑联系,体系化的分析形成,使工作更加高效便捷,数据更有说服力。 查看全文>>
大数据技术文章2021-04-22 |传智教育 |大数据业务分析步骤,数据的收集,整理,展现和工作报告
Hadoop发行版本分为开源社区版和商业版,社区版是指由Apache软件基金会维护的版本,是官方维护的版本体系。商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本。 查看全文>>
大数据技术文章2021-04-14 |传智教育 |大数据Hadoop,HDFS,MapReduce
Apache Hive是Hadoop上的SQL引擎,也是大数据系统中重要的数据仓库工具,Spark SQL支持访问Hive数据仓库,然后在Spark引擎中进行统计分析。接下来介绍通过Spark SQL操作Hive数据仓库的具体实现步骤。 查看全文>>
大数据技术文章2021-04-14 |传智教育 |Hive数据仓库的操作, Spark SQL实现Hive数据仓库的操作
DataFrame提供了两种语法风格,即DSL风格语法和SQL风格语法,二者在功能上并无区别,仅仅是根据用户习惯,自定义选择操作方式。接下来,我们通过两种语法风格,分别讲解DataFrame操作的具体方法。 查看全文>>
大数据技术文章2021-04-14 |传智教育 |DataFrame操作,DataFrame的常用操作
Spark可以通过并行集合创建RDD。即从一个已经存在的集合、数组上,通过SparkContext对象调用parallelize()方法创建RDD。 查看全文>>
大数据技术文章2021-03-23 |传智教育 |Spark方法创建RDD
在Windows系统下开发Scala代码,可以使用本地环境测试,下载文件后计算机无法像人一样直观的感受字段的实际含义,通过反射机制可以推断包含特定类型对象的Schema信息,因此我们需要先完成Schema的开发。 查看全文>>
大数据技术文章2021-03-23 |传智教育 |Schema,RDD转化之Schema的开发
创建SparkSession对象可以通过“SparkSession.builder().getOrCreate()”方法获取,但当我们使用Spark-Shell编写程序时,Spark-Shell客户端会默认提供了一个名为“sc”的SparkContext对象和一个名为“spark”的SparkSession对象,因此我们可以直接使用这两个对象 查看全文>>
大数据技术文章2021-03-23 |传智教育 |创建DataFrame,