本篇文章将介绍如何在本地 Mac 环境下搭建 Spark,包括安装 JDK、配置环境变量、安装和配置 Spark 以及安装 PySpark。
1. 安装JDK #
首先,我们需要安装 Java 开发工具包(JDK),推荐安装 Java 11 版本。
-
使用 Homebrew 安装 Java 11:
brew install java11
-
编辑
.zshrc
文件以配置 Java 环境变量:vim ~/.zshrc
- 在
.zshrc
文件中添加以下内容,保存并退出:export JAVA_HOME="/opt/homebrew/opt/openjdk@11" export PATH="$JAVA_HOME/bin:$PATH"
- 使修改完后的
.zshrc
文件生效source ~/.zshrc
- 在
-
检查 Java 配置是否成功:
java -version # 输出 openjdk version "11.0.23" 2024-04-16 OpenJDK Runtime Environment Homebrew (build 11.0.23+0) OpenJDK 64-Bit Server VM Homebrew (build 11.0.23+0, mixed mode)
echo $JAVA_HOME # 输出 /opt/homebrew/opt/openjdk@11
2. 安装 Apache Spark #
接下来,我们将安装并配置 Apache Spark。
-
从 Apache Spark 官方网站下载最新或合适的版本。
-
创建 Spark 文件夹
# 注:ez为用户名,需替换为自己的用户名 mkdir /Users/ez/spark
-
解压下载的 Spark 文件到创建的文件夹中:
tar -zxvf /Users/ez/Downloads/spark-3.5.1-bin-hadoop3.tar -C /Users/ez/spark
-
配置 Spark 环境变量:
# 编辑 .zshrc 文件 vim ~/.zshrc # 添加下面的路径,并保存退出 export SPARK_HOME="/Users/ez/spark/spark-3.5.1-bin-hadoop3" export PATH="$SPARK_HOME/bin:$PATH" # 使文件生效 source ~/.zshrc
-
检查 Spark 配置是否成功:
echo $SPARK_HOME # 输出 /Users/ez/spark/spark-3.5.1-bin-hadoop3
- 在 Python 中检查
import os spark_home = os.environ.get('SPARK_HOME') print(f"SPARK_HOME is set to: {spark_home}") # 输出的结果应于上面的一致
- 使用Spark Shell检查
spark-shell
- 在 Python 中检查
3. 安装 pyspark #
最后,我们需要安装 PySpark,以便在 Python 中使用 Spark。
- 使用 pip 安装 PySpark:
pip install pyspark
完成以上步骤后,你已经在本地 Mac 环境中成功搭建了 Spark,可以开始进一步学习或进行数据处理。如果遇到任何问题,请确保每个步骤的环境变量配置正确。
希望本文对你在 Mac 上安装和配置 Spark 有所帮助!