当前位置: 首页 > >

Spark,Hadoop,Hive

发布时间:

不同的业务场景决定了不同的系统架构选型。Hadoop 用于分布式存储和 Map-Reduce 计算,Spark 用于分布式机器学*,Hive 则是分布式数据库。Hive 和 Spark 是大数据领域内为不同目的而构建的不同产品。二者都有不可替代的优势。Hive 是一个基于Hadoop 的分布式数据库,Spark 则是一个用于数据分析的框架。


学* Spark ,从大方向说,算子大致可以分为以下两类:


(1)Transformation 变换 / 转换算子:这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个 RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发。


(2)Action 行动算子:这类算子会触发 SparkContext 提交 job 作业,并将数据输出到 Spark 系统。



?



?



Hadoop 必知必会


内容包括:Hadoop Shell ,HDFS 命令有 hadoop fs 和 hdfs dfs 两种风格,都可使用,效果相同。




Hive?必知必会


Hive 的本质是将 SQL 语句转换为 MapReduce 或者 spark 等任务执行,并可以针对数据仓库进行分布式交互查询。


内容包括:Hive 内置函数速查表?,具体有关系、数学及逻辑运算符、数值计算、日期函数、条件函数、字符串函数、聚合函数、高级函数及窗口函数等





?



友情链接: