编写生产级 PySpark 作业的最佳实践

资料

说明

详细的教程就不说了,看英文文档。目前已经运行了几年,团队开发和维护都比较方便。

目录:

jobs文件夹,可以多级目录,调用的时候,参数里面--job里面写的值就例如这样test.wordcount,标示不同级别的目录。

编译上线

# 安装项目所依赖的包
pip install -U -r requirements.txt -t ./src/libs

# 开始打包上线,最后就是`main.py`, `jobs.zip`, `libs.zip`放到服务器上面就可以运行了。
mkdir ./dist
cp ./src/main.py ./dist
cd ./src && zip -x main.py -x \*libs\* -r ../dist/jobs.zip .
cd ./src/libs && zip -r ../../dist/libs.zip .

results matching ""

    No results matching ""