搭建 Spark HA 高可用集群

2021-05-19

字数统计: 703字 | 阅读时长≈ 3分

搭建 Spark HA 高可用集群

下载Spark

http://spark.apache.org/downloads.html

解压Spark

sudo tar -zxvf spark-3.1.1-bin-hadoop2.7.tgz -C /export/servers/ && cd /export/servers/ 

sudo mv spark-3.1.1-bin-hadoop2.7/ spark

cd spark/config && cp spark-env.sh.template spark-env.sh

添加到spark-env.sh

# 配置JAVA环境变量
export JAVA_HOME=/export/servers/jdk
# 指定Matser的IP
export SPARK_MASTER_HOST=hadoop01
# 指定Master的端口
export SPARK_MASTER_PORT=7077

添加 works

1 2	hadoop02 hadoop03

分发到另外两台电脑上

1 2	scp -r spark hadoop02:/export/servers/spark scp -r spark hadoop03:/export/servers/spark

启动

1	sbin/start-all.sh

zookeeper 高可用搭建

zoo.cfg

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/export/data/zookeeper/zkdata
clientPort=2181
server.1=IP1:2888:3888
server.2=IP2:2888:3888
server.3=IP3:2888:3888

修改spark-env.sh

export SPARK_MASTER_PORT=7077
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=IP1:2181,IP2:2181,IP3:2181
-Dspark.deploy.zookeeper.dir=/spark"

将spark-env覆盖其他电脑

scp -r spark hadoop02:/export/servers/spark
scp -r spark hadoop03:/export/servers/spark

/export/servers/spark/sbin/start-all.sh 

# 到备用电脑启动备用master
/export/servers/spark/sbin/start-master.sh

浏览器查看spark: hadoop01:8080

一键启动所有Zookeeper集群

vi start_all_zk.sh

#! /bin/sh

for host in hadoop01 hadoop02 hadoop03
do
    ssh $host "source /etc/profile; zkServer.sh start"
    echo "$host zk is runing"
done

体验第一个Spark程序

bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master spark://hadoop01:7077,spark://hadoop03:7077,spark://hadoop03:7077 \
--executor-memory 1G  \
--total-executor-cores 1 \
examples/jars/spark-examples_2.12-3.1.1.jar \
10


bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master spark://hadoop01:7077 \
--num-executors 10 \
--driver-memory 2g \
--executor-memory 1g \
--executor-cores 2 \
--queue thequeue \
examples/jars/spark-examples*.jar \
10

##　启动spark-shell

用户可以使用scala编写spark程序，输入一条语句立即执行结果，即 REPL(Read-Eval-Pring Loop 交互式解释器)

1	bin/spark-shell --master <master-url>

参数名称	功能描述
local	使用一个Worker线程本地化运行Spark
local[*]	本地运行Spark,其工作线程数量与本机CPU逻辑核心数量相同
local[N]	使用N个Worker线程本地化运行Spark（根据运行机器的CPU核数设定）
spark://host:port	在standalone模式下，链接到指定的Spark集群，默认端口7077
yarn-client	以客户端模式链接Yarn集群，集群的位置可以在 HADOOP_CONF_DIR 环境变量中配置
yarn-cluster	以集群模式连接Yarn集群，集群的位置可以在 HADOOP_CONF_DIR 环境变量中配置
mesos://host:port	连接到指定的Mesos集群，默认端口5050

运行spark-shell读取HDFS文件

创建文件 /spark/test/words.txt

mkdir -p /spark/test/ vi /spark/test/words.txt 

# hello hadoop
# hello spark
# helll word

整合Spark与HDFS

修改 Spark-env.sh,添加 HADOOP_CONF_DIR 配置参数。

# 指定HDFS配置文件目录
export HADOOP_CONF_DIR=/export/servers/hadoop-2.10.1/etc/hadoop

# 启动 hadoop 和 spark 集群服务，重新启动服务。

# 启动 Spark-shell 交互式界面
bin/spark-shell --master local[2]

# 上传到HDFS
hadoop fs -mkdir -p /spark/test
hadoop fs -put /spark/test/words.txt /spark/test

scala> sc.textFile("/spark/test/words.txt").
flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

本文作者： MISAKIGA
本文链接： https://misakiga.github.io/2021/05/19/big-data/搭建SparkHA集群/
版权声明： 本博客所有文章除特别声明外，均采用 MIT 许可协议。转载请注明出处！