如何助力Spark大数据分析

2025-04-24 20:41:52

推荐回答（1个）

回答1：

Kubernetes如何助力Spark大数据分析
概述
本文为大家介绍一种容器化的数据服务Spark + OSS on ACK，允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合，允许Spark分布式内存计算，机器学习集群对云上的大数据直接进行分析和保存结果。
先决条件
你已经通过阿里云容器服务创建了一个Kubernetes集群，详细步骤参见创建Kubernetes集群
从容器服务控制台创建一个Spark OSS实例
使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例
1 登录 https://cs.console.aliyun.com/
2 点击 “应用目录”
3 选择 “spark-oss”, 点击 “参数”

3.（可选）修改工作节点数目 Worker.Replicas: 3

6 点击服务，查看外部端点, 点击URL访问Spark集群

7 测试Spark集群
1.打开一个spark-shell
kubectl getpod | grep worker
spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m
kubectl exec -itspark -oss-online2-worker-57894f65d8 -fmzjs--/opt/spark/bin/spark -shell--master spark: //spark-oss-online2-master:7077