Lazy loaded image
🗒️大数据学习01 Spark简介
字数 366阅读时长 1 分钟
2024-1-12
2025-2-26
type
status
date
slug
summary
tags
category
icon
password
comments

Spark简介

Spark的诞生是基于解决Hadoop数据处理慢的问题 Spark 2013年6月成为Apache基金会下成员。

与Hadoop不同

提示:这里可以添加要学的内容 1.Spark是一种包含流处理能力的处理框架,主要侧重于内存计算以及处理优化机制加快批处理的工作负载的运行速度。 2.Hadoop 基于一次性数据计算:框架在处理数据的时候,会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到我们的介质中。
notion image
磁盘io严重影响性能
3.Spark提供了更加丰富的数据处理模型,基于内存进行数据的多次迭代,可以更好支持数据挖掘算法和图形计算。
4.实际应用场景如果内存限制较大,则仍会选用Mapper Reduce

Spark的核心模块

提示:这里可以添加计划学习的时间 例如: 1、 Apache Spark Core: 整个Spark的核心,其他的模块都是基于core来实现的 2、 Spark SQL:Spark操作结构化数据的功能模块 3、 Spark Streaming:Spark对流式数据进行处理的功能模块 4、Spark Milb:对机器学习相关进行处理 5、Sparl Graphx:对图形挖掘进行处理
notion image
 
上一篇
MariaDB的安装与配置
下一篇
大数据学习02 Spark入门项目 快速上手

评论
Loading...