云数据库虚拟主机(云服务器云虚拟主机)
179
2022-07-13
spark作为目前领先的大数据处理引擎,为我们的生活提供了各种意想不到的收获。那它究竟有些什么特殊的本领呢?下面就由小编带大家了解一下spark有什么作用以及如何使用spark设置driver内存。
spark是什么有什么特点
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。
Spark具有如下几个主要特点:
运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍;
容易使用:Spark支持使用Scala、Java、Python和R语言进行编程,简洁的API设计有助于用户轻松构建并行程序,并且可以通过Spark Shell进行交互式编程;
通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件,这些组件可以无缝整合在同一个应用中,足以应对复杂的计算;
运行模式多样:Spark可运行于独立的集群模式中,或者运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。
spark有什么作用
它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。会这些东西你就成为一个专业的大数据开发工程师了,月薪2W都是小毛毛雨
如何使用spark设置driver内存
Driver负责任务的调度,和Executor、AM之间的消息通信。当任务数变多,任务平行度增大时,Driver内存都需要相应增大。
您可以根据实际任务数量的多少,为Driver设置一个合适的内存。
将“spark-defaults.conf”中的“spark.driver.memory”配置项设置为合适大小。
在使用spark-submit命令时,添加“--driver-memory MEM”参数设置内存。
以上就是小编给大家介绍的全部内容咯,我们从spark是什么,有什么特点,到spark有什么作用,再到如何使用spark设置driver内存这三方面,详细的了解了本文,希望对大家有所帮助。
发表评论
暂时没有评论,来抢沙发吧~