在linxu上搭建miniconda和pyspark环境
下载安装miniconda
下载miniconda
从清华大学镜像站中下载miniconda,下载地址https://mirrors.bfsu.edu.cn/anaconda/miniconda/,下载Miniconda3-latest-Linux-x86_64.sh
安装miniconda
执行bash Miniconda3-latest-Linux-x86_64.sh
按照指引完成安装。
安装时可以完成一次conda初始化,初始化脚本会在用户.bashrc
中增加初始化操作。安装成功以后需要重新打开一次console,即可进入conda默认环境中。使用conda list
可以查询默认环境中已经安装的包。
修改miniconda默认源
在用户目录(如:/home/xxxuser/
)下面新建一个.condarc
,添加如下内容,即可修改miniconda默认源为清华大学镜像源1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch-lts: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud运行
conda clean -i
清除索引缓存,保证用的是镜像站提供的索引。参考资料
安装pyspark
安装方式
conda环境中可以使用pip和conda安装包。conda安装pyspark是由社区维护到,具体命令可以参考conda install -h
命令说明。下文使用spark推荐到pip方式安装。1
pip instal pyspark
此外,还可以通过
PYSPARK_HADOOP_VERSION
指定Hadoop版本。1
PYSPARK_HADOOP_VERSION=2 pip instal pyspark
其中 PYSPARK_HADOOP_VERSION值可以是:
- without: Spark pre-built with user-provided Apache Hadoop
- 2: Spark pre-built for Apache Hadoop 2.7
- 3: Spark pre-built for Apache Hadoop 3.3 and later (default)
参考资料
https://spark.apache.org/docs/latest/api/python/getting_started/install.html
验证安装是否成功
通过如下代码验证是否安装成功1
from pyspark.sql import SparkSession
pyspark以来JDK,如果没有安装JDK需要先安装JDK。在debian环境下可以执行如下命令查找安装支持JDK
1
2apt-cache search openjdk
sudo apt install openjdk-17-jdk
在linxu上搭建miniconda和pyspark环境