91coding-程序员的天堂91coding

欢迎回家
我们一直在改变

【今日观点】 Spark RDD常用Transformation函数

(1)union union将两个RDD数据集元素合并,类似两个集合的并集 union函数参数: RDD与另外一个RDD进行Union操作之后,两个数据集中的存在的重复元素 代码如下: (2)intersection 方法返回两个RDD数据...

最新发布 第3页

HBase

HBase的基本概念

Poseidon阅读(14)评论(0)赞(0)

Hbase入门 HBase是一个分布式的、面向列的开源数据库,该技术来源于 FayChang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File Syste...

Hive

Hive的JVM重用和并行化

Poseidon阅读(6)评论(0)赞(0)

JVM重用 因为Hive语句最终要转换为一系列的MapReduce Job的,而每一个MapReduce Job是由一系列的Map Task和Reduce Task组成的,默认情况下,MapReduce中一个Map Task或者一个Redu...

Hive

Hive的性能优化

Poseidon阅读(10)评论(0)赞(0)

Hadoop启动开销大,如果每次只做小数量的输入输出,利用率将会很低。所以用好Hadoop的首要任务是增大每次任务所搭载的数据量。Hadoop的核心能力是parition和sort,因而这也是优化的根本。 Hive优化时,把hive Sql...

Hive

Hive与MapReduce执行过程

Poseidon阅读(10)评论(0)赞(0)

Hive语句最终是要转换为MapReduce程序放到Hadoop上去执行的,如果想深入了解Hive,并能够很好地优化Hive语句,了解MapReduce的执行过程至关重要,因为只有知道了MapReduce程序是怎么执行的,才能了解Hive语...

Hive

Hive的自定义函数

Poseidon阅读(10)评论(0)赞(0)

Hive内置函数 Hive中自带了大量的内置函数,详细可参看如下资源: 官方文档: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageMa...

Hive

Hive的排序

Poseidon阅读(5)评论(0)赞(0)

Order By select * from user_leads order by user_id Hive中的Order By达到的效果和SQL Server中是一样的,会对查询结果进行全局排序,但是Hive语句最终要转换为MapRed...

Hive

Hive的JOIN语法

Poseidon阅读(8)评论(0)赞(0)

Hive Join的限制 只支持等值连接 Hive支持类似SQL Server的大部分Join操作,但是注意只支持等值连接,并不支持不等连接。原因是Hive语句最终是要转换为MapReduce程序来执行的,但是MapReduce程序很难实现...

Hive

Hive的HQL语法

Poseidon阅读(9)评论(0)赞(0)

Select 查询 指定列表 select * from user_leads; select leads_id,user_id,create_time from user_leads; select e.leads_id from use...

Hive

Hive的DML语法

Poseidon阅读(11)评论(0)赞(0)

向Hive中加载数据 加载到普通表 可以将本地文本文件内容批量加载到Hive表中,要求文本文件中的格式和Hive表的定义一致,包括:字段个数、字段顺序、列分隔符都要一致。 这里的user_info表的表定义是以\t作为列分隔符,所以准备好数...

其他

线程基础

Martin阅读(30)评论(0)赞(0)

什么是线程   官方解释:线程是操作系统能够进行运算调度的最小单位,包含于进程之中,是进程中的实际运作单位。也就是说线程是代码运行的载体,我们所编写的代码都是在线程上跑的,以一个最简单的 hellowWorld 为例: 结果为: 在程序运行...

91CODING 小白轻松上手,大牛稳健进步

关于我们免责声明