Spark系列 - 本地环境的搭建

Spark - 这篇文章属于一个选集。

§ 1: Spark系列 - 初识大数据

§ 2: 本文

§ 3: Spark系列 - 配置Spark

§ 4: Spark系列 - 数据读取

§ 5: Spark系列 - 数据存储

§ 6: Spark系列 - 数据转换（I）

§ 7: Spark系列 - 数据转换（II）

§ 8: Spark系列 - 数据聚合

§ 9: Spark系列 - 数据合并

本篇文章将介绍如何在本地 Mac 环境下搭建 Spark，包括安装 JDK、配置环境变量、安装和配置 Spark 以及安装 PySpark。

1. 安装JDK
#

首先，我们需要安装 Java 开发工具包（JDK），推荐安装 Java 11 版本。

使用 Homebrew 安装 Java 11：
```
brew install java11
```
编辑 .zshrc 文件以配置 Java 环境变量：
```
vim ~/.zshrc
```
- 在.zshrc 文件中添加以下内容，保存并退出：
```
export JAVA_HOME="/opt/homebrew/opt/openjdk@11"
export PATH="$JAVA_HOME/bin:$PATH"
```
- 使修改完后的.zshrc文件生效
```
source ~/.zshrc
```

检查 Java 配置是否成功：

java -version
# 输出
openjdk version "11.0.23" 2024-04-16
OpenJDK Runtime Environment Homebrew (build 11.0.23+0)
OpenJDK 64-Bit Server VM Homebrew (build 11.0.23+0, mixed mode)

echo $JAVA_HOME
# 输出
/opt/homebrew/opt/openjdk@11

2. 安装 Apache Spark
#

接下来，我们将安装并配置 Apache Spark。

从 Apache Spark 官方网站下载最新或合适的版本。

创建 Spark 文件夹

# 注：ez为用户名，需替换为自己的用户名
mkdir /Users/ez/spark

解压下载的 Spark 文件到创建的文件夹中：

tar -zxvf /Users/ez/Downloads/spark-3.5.1-bin-hadoop3.tar -C /Users/ez/spark

配置 Spark 环境变量：

# 编辑 .zshrc 文件
vim ~/.zshrc

# 添加下面的路径，并保存退出
export SPARK_HOME="/Users/ez/spark/spark-3.5.1-bin-hadoop3"
export PATH="$SPARK_HOME/bin:$PATH"

# 使文件生效
source ~/.zshrc

检查 Spark 配置是否成功：

echo $SPARK_HOME
# 输出
/Users/ez/spark/spark-3.5.1-bin-hadoop3

在 Python 中检查

import os
spark_home = os.environ.get('SPARK_HOME')
print(f"SPARK_HOME is set to: {spark_home}")   
# 输出的结果应于上面的一致

使用Spark Shell检查
```
spark-shell
```

3. 安装 pyspark
#

最后，我们需要安装 PySpark，以便在 Python 中使用 Spark。

使用 pip 安装 PySpark：
```
pip install pyspark
```

完成以上步骤后，你已经在本地 Mac 环境中成功搭建了 Spark，可以开始进一步学习或进行数据处理。如果遇到任何问题，请确保每个步骤的环境变量配置正确。

希望本文对你在 Mac 上安装和配置 Spark 有所帮助！

Spark - 这篇文章属于一个选集。

§ 1: Spark系列 - 初识大数据

§ 2: 本文

§ 3: Spark系列 - 配置Spark

§ 4: Spark系列 - 数据读取

§ 5: Spark系列 - 数据存储

§ 6: Spark系列 - 数据转换（I）

§ 7: Spark系列 - 数据转换（II）

§ 8: Spark系列 - 数据聚合

§ 9: Spark系列 - 数据合并

Spark系列 - 初识大数据

2024-05-20·2952 字

大数据 Spark Hadoop 数据库

这篇文章初步介绍了大数据、Hadoop 和 Spark 这三个关键方面。本文提供了一个简要的概述，为读者进一步了解大数据处理提供了基础。

AB测试系列 - AB测试里的统计学 PART 2

2024-04-22·2670 字

AB测试统计数据分析

本文主要讨论在AB测试中遇到的统计学知识点，主要包括：最小样本量计算、实验时间计算、以及一些其他相关的统计知识点。

AB测试系列 - AB测试里的统计学 PART 1

2024-04-15·3793 字

AB测试统计数据分析

本文主要讨论在AB测试中遇到的统计学知识点，主要包括：效应大小、MDE、置信区间、假设检验等等。

AB测试系列 - 如何提升测试的可靠性

2024-04-08·4400 字

AB测试统计数据分析

本文主要讨论如何去确保AB测试的有效性，简单地开启AB测试无法保证其实验结果是否有效，需要结合具体的业务场景及一些科学的方法进行验证。

2024-03-18·更新于: 2024-06-17·3747 字

SQL 数据库数据分析

本文主要描述如何对 SQL 里的数据进行查询。

1. 安装JDK #

2. 安装 Apache Spark #

3. 安装 pyspark #

相关文章

1. 安装JDK
#

2. 安装 Apache Spark
#

3. 安装 pyspark
#