spark history server 配置

Spark history server 日志配置,方便查看历史作业信息和日志

主要修改yarn-site.xml 、spark-defaults.conf、spark-env.sh 三个配置文件,具体步骤如下:

1.1  yarn-site.xml 配置(需要重启所有的nodemanager)
 <property>
     <name>yarn.log-aggregation-enable</name>
     <value>true</value>
 </property>


1.2 conf/spark-defaults.conf 和spark-env.sh 配置修改

修改 spark-defaults.conf,添加如下内容:
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://master:9000/directory
spark.driver.memory              64g
spark.eventLog.compress true

修改spark-env.sh,添加如下内容:
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=7777 -Dspark.history.fs.logDirectory=hdfs://master:9000/directory"

启动服务
./start-history-server.sh

启动完成后,查看进程:
org.apache.spark.deploy.history.HistoryServer

1.3 启动yarn的history
bin/spark-submit  --class  org.apache.spark.examples.SparkPi \
--master yarn-cluster \
--num-executors 3 \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
lib/spark-examples*.jar  10

spark on yarn 方式开启historyserver,这个时候我们需要启动hadoop的historyserver。
Hadoop启动jobhistoryserver来实现web查看作业的历史运行情况,由于在启动hdfs和Yarn进程之后,jobhistoryserver进程并没有启动,需要手动启动,
启动的方法是通过(注意:必须是两个命令):
./mr-jobhistory-daemon.sh start historyserver
./yarn-daemon.sh start timelineserver

启动完成后,查看进程
org.apache.hadoop.yarn.server.applicationhistoryservice.ApplicationHistoryServer
org.apache.hadoop.mapreduce.v2.hs.JobHistoryServer

1.4 运行SparkPi 后验证结果


参考资料:
[1]spark on yarn 方式开启historyserver
[2]Spark 官方文档
[3] hadoop yarn jobhistoryserver 配置

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页