大数据

Spark RDD常用Transformation函数

2019-10-24Poseidon阅读(987)评论(0)赞(0)

（1）union union将两个RDD数据集元素合并，类似两个集合的并集 union函数参数： RDD与另外一个RDD进行Union操作之后，两个数据集中的存在的重复元素代码如下：（2）intersection 方法返回两个RDD数据...

2019-10-24Poseidon阅读(923)评论(0)赞(0)

（1）map map函数方法参数： //使用示例（2）filter 方法参数：使用示例（3）flatMap 方法参数：使用示例：（4）mapPartitions(func) mapPartitions是map的一个变种。map的输...

2019-10-23Poseidon阅读(858)评论(0)赞(0)

（1）Spark运行模式目前最为常用的Spark运行模式有： local：本地线程方式运行，主要用于开发调试Spark应用程序 Standalone：利用Spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构...

2019-10-22Poseidon阅读(826)评论(0)赞(0)

（1）DataFrame简介 DataFrames在Spark-1.3.0中引入，主要解决使用Spark RDD API使用的门槛，使熟悉R语言等的数据分析师能够快速上手Spark下的数据分析工作，极大地扩大了Spark使用者的数量，由于D...

2019-10-18Poseidon阅读(868)评论(0)赞(0)

Spark SQL简介 Spark SQL是Spark的五大核心模块之一，用于在Spark平台之上处理结构化数据，利用Spark SQL可以构建大数据平台上的数据仓库，它具有如下特点：（1）能够无缝地将SQL语句集成到Spark应用程序当...

2019-10-18Poseidon阅读(906)评论(0)赞(0)

弹性分布式数据集（RDD，Resilient Distributed Datasets），由Berkeley实验室于2011年提出，原始论文名字：Resilient Distributed Datasets: A Fault-Toleran...

2019-10-18Poseidon阅读(866)评论(0)赞(0)

2019-10-18Poseidon阅读(902)评论(0)赞(0)

Hadoop将Spark作为自己生态圈的一部分，但Spark完全可以脱离Hadoop平台，不单依赖于HDFS、Yarn，例如它可以使用Standalone、Mesos进行集群资源管理，它的包容性使得Spark拥有众多的源码贡献者和使用者，其...

2019-10-18Poseidon阅读(962)评论(0)赞(0)

Spark组件使Apache Spark快速可靠。构建了很多这些Spark组件来解决使用Hadoop MapReduce时出现的问题。 Apache Spark具有以下组件： Spark Core Spark Streaming Spar...

2019-10-17Poseidon阅读(849)评论(0)赞(0)

Spark Shell: Spark的shell提供了一种学习API的简单方法，以及一种以交互方式分析数据的强大工具。 Spark Session: 在早期版本的Spark中，Spark Context是Spark的入口点。对于每个其他A...