从零开始搭建我们的Spark平台

1、准备centeros环境

为了搭建一个真正的的集群环境，并且要做到高可用的架构，我们至少准备三个虚拟机来作为集群节点。因此我购买了三台阿里云的服务器，来作为我们的集群节点。

注意到，master是主节点，而slave顾名思义就是奴隶，自然就是为主节点工作的节点。实际上，在我们这个集群中，master和slave并没有那么明确的区分，因为事实上他们都在“努力地工作”。当然在搭建集群的时候，我们依然要明确这个概念。

2、下载jdk

1、下载jdk1.8 tar.gz包

wget https://download.oracle.com/otn-pub/java/jdk/8u201-b09/42970487e3af4f5aa5bca3f542482c60/jdk-8u201-linux-x64.tar.gz

2、解压

tar -zxvf jdk-8u201-linux-x64.tar.gz

解压之后得到

3、配置环境变量

修改profile

vi /etc/profile

添加如下

export JAVA_HOME=/usr/local/java1.8/jdk1.8.0_201
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

source使其生效

source /etc/profile

查看是否生效

java -version

看到如图内容表示已经成功。

以上操作三台虚拟机一模一样！
以上操作三台虚拟机一模一样！
以上操作三台虚拟机一模一样！

3、安装zookeeper

下载zookeeper包

wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar.gz

解压

tar -zxvf zookeeper-3.4.13.tar.gz

cd zookeeper-3.4.13/conf

拷贝配置文件模板

cp zoo_sample.cfg zoo.cfg

拷贝后修改zoo.cfg内容

dataDir=/home/hadoop/data/zkdata
dataLogDir=/home/hadoop/log/zklog

server.1=master:2888:3888
server.2=slave1:2888:3888

配置环境变量

export ZOOKEEPER_HOME=/usr/local/zookeeper/zookeeper-3.4.13
export PATH=$PATH:$ZOOKEEPER_HOME/bin

使环境变量生效

source /etc/profile

注意到前面配置文件中这句话，配置了数据目录

dataDir=/home/hadoop/data/zkdata

cd /home/hadoop/data/zkdata/
echo 3 > myid

这里需要特别注意这个

echo 1 > myid

这是对于这个配置，因此在master中我们echo 1，而对于slave1则是 echo 2，对于slave2则是 echo 3

server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

配置完启动测试

zkServer.sh start

启动后查看是否启动成功

zkServer.sh status

以上操作三台虚拟机都要进行！只有echo 不一样
以上操作三台虚拟机都要进行！只有echo 不一样
以上操作三台虚拟机都要进行！只有echo 不一样

在master中启动后查看状态

在salve1中启动后查看状态

这里面的Mode是不一样的，这是zookeeper的选举机制，至于该机制如何运行，这里按下不表。后续会有专门说明。至此，zookeeper集群已经搭建完成

4、安装hadoop

1、通过wget下载hadoop-2.7.7.tar.gz

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

2、下载后解压

解压出一个hadoop-2.7.7目录

tar -zxvf hadoop-2.7.7

3、配置hadoop环境变量

修改profile

vi /etc/profile

增加hadoop环境变量

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使环境变量生效

source /etc/profile

配置完之后，查看是否生效

 hadoop version

进入hadoop-2.7.7/etc/hadoop中
编辑core-site.xml

vi core-site.xml

增加configuration


    
    
        fs.defaultFS
        hdfs://myha01/
    

    
    
        hadoop.tmp.dir
        /home/hadoop/data/hadoopdata/
    

    
    
        ha.zookeeper.quorum
        master:2181,slave1:2181,slave2:2181
    

    
    
        ha.zookeeper.session-timeout.ms
        1000
        ms

拷贝mapred-site.xml.template

cp mapred-site.xml.template mapred-site.xml

编辑mapred-site.xml

vi mapred-site.xml

增加如下内容


    
    
        mapreduce.framework.name
        yarn
    

    
    
        mapreduce.jobhistory.address
        master:10020
    

    
    
        mapreduce.jobhistory.webapp.address
        master:19888

编辑hdfs-site.xml

vi hdfs-site.xml

增加如下内容



    
    
        dfs.replication
        1
    

    
    
        dfs.namenode.name.dir
        /home/hadoop/data/hadoopdata/dfs/name
    
    
        dfs.datanode.data.dir
        /home/hadoop/data/hadoopdata/dfs/data
    

    
    
        dfs.webhdfs.enabled
        true
    

    
    
        dfs.nameservices
        myha01
    

    
    
        dfs.ha.namenodes.myha01
        nn1,nn2
    

    
    
        dfs.namenode.rpc-address.myha01.nn1
        master:9000

编辑yarn-site.xml

vi yarn-site.xml

增加如下内容


  
    
        yarn.resourcemanager.ha.enabled
        true
    

    
    
        yarn.resourcemanager.cluster-id
        yrc
    

    
    
        yarn.resourcemanager.ha.rm-ids
        rm1,rm2
    

    
    
        yarn.resourcemanager.hostname.rm1
        slave1
    

    
        yarn.resourcemanager.hostname.rm2
        slave2
    

    
    
        yarn.resourcemanager.zk-address
        master:2181,slave1:2181,slave2:2181
    

    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    

    
        yarn.log-aggregation-enable
        true
    

    
        yarn.log-aggregation.retain-seconds
        86400
    

    
    
        yarn.resourcemanager.recovery.enabled
        true
    

    
    
        yarn.resourcemanager.store.class
        org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore

最后编辑salves

master
slave1
slave2

以上操作三台虚拟机一模一样！
以上操作三台虚拟机一模一样！
以上操作三台虚拟机一模一样！

接着就可以启动hadoop
首先在三个节点上启动journalnode，切记三个节点都要操作

hadoop-daemon.sh start journalnode

操作完成后用jps命令查看，可以看到

其中QuorumPeerMain是zookeeper，JournalNode则是我启动的内容
接着对主节点的namenode进行格式化

hadoop namenode -format

注意标红色方框的地方
完成格式化后查看/home/hadoop/data/hadoopdata目录下的内容

目录中的内容拷贝到slave1上，slave1是我们的备用节点，我们需要他来支撑高可用模式，当master宕机的时候，slave1马上能够顶替其继续工作。

cd..
scp -r hadoopdata/ root@slave1:hadoopdata/

这样就确保了主备节点都保持一样的格式化内容

接着就可以启动hadoop

首先在master节点启动HDFS

start-dfs.sh

接着启动start-yarn.sh ,注意start-yarn.sh需要在slave2中启动

start-yarn.sh

分别用jps查看三个主机

master

slave1

slave2

这里注意到master和slave1都有namenode，实际上只有一个是active状态的，另一个则是standby状态。如何证实呢，我们在浏览器中输入master:50700,可以访问

在浏览器中输入slave1:50700,可以访问

另一种方式，是查看我们配置的两个节点

hdfs haadmin -getServiceState nn1
hdfs haadmin -getServiceState nn2

5、spark安装

下载spark

wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

解压

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz

cd spark-2.4.0-bin-hadoop2.7/conf

拷贝配置文件spark-env.sh.template

cp spark-env.sh.template spark-env.sh

编辑spark-env.sh

vi spark-env.sh

增加内容

export JAVA_HOME=/usr/local/java1.8/jdk1.8.0_201

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.7
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.7/etc/hadoop

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181 -Dspark.deploy.zookeeper.dir=/spark"
export SPARK_WORKER_MEMORY=300m
export SPARK_WORKER_CORES=1

其中java的环境变量、hadoop环境变量请从系统环境变量中拷贝，后面SPARK_WORKER_MEMORY是spark运行的内存，SPARK_WORKER_CORES是spark使用的CPU核数

以上操作三台虚拟机一模一样！
以上操作三台虚拟机一模一样！
以上操作三台虚拟机一模一样！

配置系统环境变量

 vi /etc/profile

增加内容

export SPARK_HOME=/usr/local/spark/spark-2.4.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

拷贝slaves.template 文件

cp slaves.template slaves

使环境变量生效

source  /etc/profile

编辑slaves

vi slaves

增加内容

master
slave1
slave2

最后我们启动spark，注意即便配置了spark的环境变量，由于start-all.sh和hadoop的start-all.sh冲突，因此我们必须进入到spark的启动目录下，才能执行启动所有的操作。
进入启动目录

cd spark-2.4.0-bin-hadoop2.7/sbin

执行启动

./start-all.sh

执行完成后，用jps查看三个节点下的状态
master：

slave1：

slave2：

注意到三个节点都有了spark的worker进程，只有master当中有Master进程。

访问master:8080

至此我们就拥有了正式的spark环境。

6、尝试使用

由于我们已经配置了环境变量，故可以输入spark-shell直接开始。

 spark-shell

这里我们就进入了spark-shell.

然后进行编码

val lise = List(1,2,3,4,5)
val data = sc.parallelize(lise)
data.foreach(println)

或者我们进入spark-python

pyspark

查看sparkContext

大数据实战丨如何快速搭建一个自己的Spark分布式架构

从零开始搭建我们的Spark平台

相关推荐

java:Cassandra入门与实战——下

广联达终于出免费造价软件了，这五款真好用，准确率高达100%

开源库libmodbus的用法

Tekla 2023钢结构设计软件安装教程附下载方法

配置GitLab流水线和门禁系统

MySql中json类型数据的查询以及在MyBatis-Plus中的使用

推荐五个优秀的富文本编辑器富文本编辑器app

BIOS/UEFI模式下如何分区 uefi分区教程

立即下载Galaxy Z Flip 6和Fold 6的壁纸 - SamMobile

亿图图示免费VIP会员兑换码激活码礼品券

大数据实战丨如何快速搭建一个自己的Spark分布式架构

从零开始搭建我们的Spark平台

相关推荐

java:Cassandra入门与实战——下

广联达终于出免费造价软件了，这五款真好用，准确率高达100%

开源库libmodbus的用法

Tekla 2023钢结构设计软件安装教程附下载方法

配置GitLab流水线和门禁系统

MySql中json类型数据的查询以及在MyBatis-Plus中的使用

推荐五个优秀的富文本编辑器 富文本编辑器app

BIOS/UEFI模式下如何分区 uefi分区教程

立即下载Galaxy Z Flip 6和Fold 6的壁纸 - SamMobile

亿图图示 免费VIP会员兑换码激活码礼品券

推荐五个优秀的富文本编辑器富文本编辑器app

亿图图示免费VIP会员兑换码激活码礼品券