跳过正文

Spark系列 - 本地环境的搭建

·544 字·
大数据 Spark 环境安装
EZ
作者
EZ
Take it EZ!
目录
Spark - 这篇文章属于一个选集。
§ 2: 本文

本篇文章将介绍如何在本地 Mac 环境下搭建 Spark,包括安装 JDK、配置环境变量、安装和配置 Spark 以及安装 PySpark。


1. 安装JDK
#

首先,我们需要安装 Java 开发工具包(JDK),推荐安装 Java 11 版本。

  • 使用 Homebrew 安装 Java 11:

    brew install java11
    
  • 编辑 .zshrc 文件以配置 Java 环境变量:

    vim ~/.zshrc
    
    • .zshrc 文件中添加以下内容,保存并退出:
      export JAVA_HOME="/opt/homebrew/opt/openjdk@11"
      export PATH="$JAVA_HOME/bin:$PATH"
      
    • 使修改完后的.zshrc文件生效
      source ~/.zshrc
      
  • 检查 Java 配置是否成功:

    java -version
    # 输出
    openjdk version "11.0.23" 2024-04-16
    OpenJDK Runtime Environment Homebrew (build 11.0.23+0)
    OpenJDK 64-Bit Server VM Homebrew (build 11.0.23+0, mixed mode)
    
    echo $JAVA_HOME
    # 输出
    /opt/homebrew/opt/openjdk@11
    

2. 安装 Apache Spark
#

接下来,我们将安装并配置 Apache Spark。

  • Apache Spark 官方网站下载最新或合适的版本。

  • 创建 Spark 文件夹

    # 注:ez为用户名,需替换为自己的用户名
    mkdir /Users/ez/spark
    
  • 解压下载的 Spark 文件到创建的文件夹中:

    tar -zxvf /Users/ez/Downloads/spark-3.5.1-bin-hadoop3.tar -C /Users/ez/spark
    
  • 配置 Spark 环境变量:

    # 编辑 .zshrc 文件
    vim ~/.zshrc
    
    # 添加下面的路径,并保存退出
    export SPARK_HOME="/Users/ez/spark/spark-3.5.1-bin-hadoop3"
    export PATH="$SPARK_HOME/bin:$PATH"
    
    # 使文件生效
    source ~/.zshrc
    
  • 检查 Spark 配置是否成功:

    echo $SPARK_HOME
    # 输出
    /Users/ez/spark/spark-3.5.1-bin-hadoop3
    
    • 在 Python 中检查
      import os
      spark_home = os.environ.get('SPARK_HOME')
      print(f"SPARK_HOME is set to: {spark_home}")   
      # 输出的结果应于上面的一致
      
    • 使用Spark Shell检查
      spark-shell
      

3. 安装 pyspark
#

最后,我们需要安装 PySpark,以便在 Python 中使用 Spark。

  • 使用 pip 安装 PySpark:
    pip install pyspark
    

完成以上步骤后,你已经在本地 Mac 环境中成功搭建了 Spark,可以开始进一步学习或进行数据处理。如果遇到任何问题,请确保每个步骤的环境变量配置正确。

希望本文对你在 Mac 上安装和配置 Spark 有所帮助!

Spark - 这篇文章属于一个选集。
§ 2: 本文

相关文章

Spark系列 - 初识大数据
·2952 字
大数据 Spark Hadoop 数据库
这篇文章初步介绍了大数据、Hadoop 和 Spark 这三个关键方面。本文提供了一个简要的概述,为读者进一步了解大数据处理提供了基础。
AB测试系列 - AB测试里的统计学 PART 2
·2670 字
AB测试 统计 数据分析
本文主要讨论在AB测试中遇到的统计学知识点,主要包括:最小样本量计算、实验时间计算、以及一些其他相关的统计知识点。
AB测试系列 - AB测试里的统计学 PART 1
·3793 字
AB测试 统计 数据分析
本文主要讨论在AB测试中遇到的统计学知识点,主要包括:效应大小、MDE、置信区间、假设检验等等。
AB测试系列 - 如何提升测试的可靠性
·4400 字
AB测试 统计 数据分析
本文主要讨论如何去确保AB测试的有效性,简单地开启AB测试无法保证其实验结果是否有效,需要结合具体的业务场景及一些科学的方法进行验证。
AB测试系列 - 理清业务问题
·3940 字
AB测试 统计 数据分析
在做AB测试前,我们必须要理清业务相关的问题。这方面会涉及到公司层面、产品层面、功能层面等相关重要的内容及指标,本文会对这方面做出详细的介绍。
SQL系列 - 查询语句
··3747 字
SQL 数据库 数据分析
本文主要描述如何对 SQL 里的数据进行查询。