搭建 Spark HA 高可用集群
下载Spark
http://spark.apache.org/downloads.html
解压Spark
1 | sudo tar -zxvf spark-3.1.1-bin-hadoop2.7.tgz -C /export/servers/ && cd /export/servers/ |
添加到spark-env.sh
1 | # 配置JAVA环境变量 |
添加 works
1 | hadoop02 |
分发到另外两台电脑上
1 | scp -r spark hadoop02:/export/servers/spark |
启动
1 | sbin/start-all.sh |
zookeeper 高可用搭建
zoo.cfg
1 | tickTime=2000 |
修改spark-env.sh
1 | export SPARK_MASTER_PORT=7077 |
将spark-env覆盖其他电脑
1 | scp -r spark hadoop02:/export/servers/spark |
浏览器查看spark: hadoop01:8080
一键启动所有Zookeeper集群
vi start_all_zk.sh
1 |
|
体验第一个Spark程序
1 | bin/spark-submit --class org.apache.spark.examples.SparkPi \ |
## 启动spark-shell
用户可以使用scala编写spark程序,输入一条语句立即执行结果,即 REPL(Read-Eval-Pring Loop 交互式解释器)
1 | bin/spark-shell --master <master-url> |
| 参数名称 | 功能描述 |
|---|---|
| local | 使用一个Worker线程本地化运行Spark |
| local[*] | 本地运行Spark,其工作线程数量与本机CPU逻辑核心数量相同 |
| local[N] | 使用N个Worker线程本地化运行Spark(根据运行机器的CPU核数设定) |
| spark://host:port | 在standalone模式下,链接到指定的Spark集群,默认端口7077 |
| yarn-client | 以客户端模式链接Yarn集群,集群的位置可以在 HADOOP_CONF_DIR 环境变量中配置 |
| yarn-cluster | 以集群模式连接Yarn集群,集群的位置可以在 HADOOP_CONF_DIR 环境变量中配置 |
| mesos://host:port | 连接到指定的Mesos集群,默认端口5050 |
运行spark-shell读取HDFS文件
创建文件 /spark/test/words.txt
1 | mkdir -p /spark/test/ vi /spark/test/words.txt |
整合Spark与HDFS
修改 Spark-env.sh,添加 HADOOP_CONF_DIR 配置参数。
1 | # 指定HDFS配置文件目录 |
- 本文作者: MISAKIGA
- 本文链接: https://misakiga.github.io/2021/05/19/big-data/搭建SparkHA集群/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!
