码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Spark连接快速入门


    文章最前: 我是Octopus,这个名字来源于我的中文名--章鱼;我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ;这博客是记录我学习的点点滴滴,如果您对 Python、Java、AI、算法有兴趣,可以关注我的动态,一起学习,共同进步。

    Spark Connect 为 Spark 引入了解耦的客户端-服务器架构,允许使用DataFrame API远程连接到 Spark 集群。

    本笔记本通过一个简单的分步示例演示如何使用 Spark Connect 构建在处理数据时需要利用 Spark 强大功能的任何类型的应用程序。

    Spark Connect 包括客户端和服务器组件,我们将向您展示如何设置和使用这两个组件。

    使用 Spark Connect 启动 Spark 服务器

    要启动支持 Spark Connect 会话的 Spark,请运行该start-connect-server.sh脚本。

    !$HOME/sbin/start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:$SPARK_VERSION
    

     连接到 Spark Connect 服务器

    现在 Spark 服务器正在运行,我们可以使用 Spark Connect 远程连接到它。我们通过在运行应用程序的客户端上创建远程 Spark 会话来实现此目的。在此之前,我们需要确保停止现有的常规 Spark 会话,因为它无法与我们即将创建的远程 Spark Connect 会话共存。

    1. from pyspark.sql import SparkSession
    2. SparkSession.builder.master("local[*]").getOrCreate().stop()
    我们上面用来启动服务器的命令将 Spark 配置为以 localhost:15002. 现在我们可以使用以下命令在客户端上创建远程 Spark 会话。
     
    spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()
    

    创建DataFrame

    远程 Spark 会话创建成功后,就可以像常规 Spark 会话一样使用它。因此,您可以使用以下命令创建DataFrame。

    1. from datetime import datetime, date
    2. from pyspark.sql import Row
    3. df = spark.createDataFrame([
    4. Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    5. Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
    6. Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
    7. ])
    8. df.show()
    +---+---+-------+----------+-------------------+
    |  a|  b|      c|         d|                  e|
    +---+---+-------+----------+-------------------+
    |  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
    |  2|3.0|string2|2000-02-01|2000-01-02 12:00:00|
    |  4|5.0|string3|2000-03-01|2000-01-03 12:00:00|
    +---+---+-------+----------+-------------------+

  • 相关阅读:
    errno perror stderr 的关系
    智能家居生态:华为、小米各异
    算法沉淀——穷举、暴搜、深搜、回溯、剪枝综合练习二(leetcode真题剖析)
    Java+JSP+MySQL基于SSM的物流公司物流订单管理系统-计算机毕业设计
    HDFS架构设计理念以及优缺点
    Linux嵌入式学习之Ubuntu入门(六)shell脚本详解
    R语言编写自定义函数对数据进行标准化、使用keras包构建深度学习自动编码器(autoencoder)、使用MSE指标评估自动编码器的效能(重构误差)
    牛客网SQL基础强化
    C#学习 - 表达式、语句
    【树莓派】USB摄像头+python+opencv
  • 原文地址:https://blog.csdn.net/zy345293721/article/details/133814900
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号