在linxu上搭建miniconda和pyspark环境

下载安装miniconda

  • 下载miniconda
    从清华大学镜像站中下载miniconda,下载地址https://mirrors.bfsu.edu.cn/anaconda/miniconda/,下载Miniconda3-latest-Linux-x86_64.sh

  • 安装miniconda
    执行bash Miniconda3-latest-Linux-x86_64.sh 按照指引完成安装。
    安装时可以完成一次conda初始化,初始化脚本会在用户.bashrc中增加初始化操作。安装成功以后需要重新打开一次console,即可进入conda默认环境中。使用conda list可以查询默认环境中已经安装的包。

  • 修改miniconda默认源
    在用户目录(如:/home/xxxuser/)下面新建一个.condarc,添加如下内容,即可修改miniconda默认源为清华大学镜像源

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    channels:
    - defaults
    show_channel_urls: true
    default_channels:
    - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
    - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
    custom_channels:
    conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
    msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
    bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
    menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
    pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
    pytorch-lts: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
    simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

    运行conda clean -i清除索引缓存,保证用的是镜像站提供的索引。

    参考资料

    请参考https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/

安装pyspark

  • 安装方式
    conda环境中可以使用pip和conda安装包。conda安装pyspark是由社区维护到,具体命令可以参考conda install -h命令说明。下文使用spark推荐到pip方式安装。

    1
    pip instal pyspark

    此外,还可以通过PYSPARK_HADOOP_VERSION指定Hadoop版本。

    1
    PYSPARK_HADOOP_VERSION=2 pip instal pyspark

    其中 PYSPARK_HADOOP_VERSION值可以是:

    • without: Spark pre-built with user-provided Apache Hadoop
    • 2: Spark pre-built for Apache Hadoop 2.7
    • 3: Spark pre-built for Apache Hadoop 3.3 and later (default)

    参考资料

    https://spark.apache.org/docs/latest/api/python/getting_started/install.html

  • 验证安装是否成功
    通过如下代码验证是否安装成功

    1
    from pyspark.sql import SparkSession

    pyspark以来JDK,如果没有安装JDK需要先安装JDK。在debian环境下可以执行如下命令查找安装支持JDK

    1
    2
    apt-cache search openjdk
    sudo apt install openjdk-17-jdk

在linxu上搭建miniconda和pyspark环境

http://mixiang.tech/2023/01/26/2023-01-26-12/

作者

Mixion

发布于

2023-01-26

更新于

2023-01-26

许可协议