DataFrame的操作-使用SQL

1. 实验室名称：
2. 实验项目名称：
3. 实验学时：
4. 实验原理：
5. 实验目的：
6. 实验内容：
7. 实验器材（设备、虚拟机名称）：
8. 实验步骤：
9. 实验结果及分析：
10. 实验结论：
11. 总结及心得体会：
12、实验知识测试
13、实验拓展

申明：未经许可，禁止以任何形式转载，若要引用，请标注链接地址
全文共计5703字，阅读大概需要3分钟

1. 实验室名称：

大数据实验教学系统

2. 实验项目名称：

DataFrame的操作-使用SQL

3. 实验学时：

4. 实验原理：

在SparkSQL对SQL语句的处理和关系型数据库采用了类似的方法，SparkSQL会先将SQL语句进行解析Parse形成一个Tree，然后使用Rule对Tree进行绑定、优化等处理过程，通过模式匹配对不同类型的节点采用不同的操作。而SparkSQL的查询优化器是Catalyst，它负责处理查询语句的解析、绑定、优化和生成物理计划等过程，Catalyst是SparkSQL最核心的部分，其性能优劣将决定整体的性能。

5. 实验目的：

掌握Spark SQL临时视图的创建。
掌握Spark SQL查询。

6. 实验内容：

使用标准SQL对DataFrame进行操作。具体包含如下内容：
1、临时表创建
- createGlobalTempView(name)
- createOrReplaceGlobalTempView(name)
- createOrReplaceTempView(name)
- createTempView(name)
- registerTempTable(name)
- dropTempView(name)
2、Spark SQL查询
- 加载数据集及处理
- 创建临时表并查询
- 创建永久表并查询

7. 实验器材（设备、虚拟机名称）：

硬件：x86_64 ubuntu 16.04服务器
软件：JDK 1.8，Spark-2.3.2，Hadoop-2.7.3，zeppelin-0.8.1

8. 实验步骤：

8.1 环境准备

1、在终端窗口下，输入以下命令，分别启动HDFS集群、Spark集群和Zeppelin服务器：

1.	$ start-dfs.sh
2.	$ cd /opt/spark
3.	$ ./sbin/start-all.sh
4.	$ zeppelin-daemon.sh start
1
2
3
4

2. 将本实验用到的数据集上传到HDFS上。在终端窗口中，执行以下命令：

1.	$ hdfs dfs -mkdir -p /data/dataset/batch
2.	$ hdfs dfs -put /data/dataset/batch/customers.csv /data/dataset/batch/
3.	$ hdfs dfs -put /data/dataset/batch/wc.txt /data/dataset/batch/
1
2
3

3、启动浏览器，打开zeppelin notebook首页，点击【Create new note】链接，创建一个新的笔记本，名字为【rdd_demo】，解释器默认使用【spark】，如下图所示：
在这里插入图片描述

8.2 临时视图的创建

1、使用createGlobalTempView(name)方法为DataFrame创建一个全局的临时表，其生命周期和启动的app的周期一致，既启动的spark应用存在则这个临时的表就一直能访问，直道sparkcontext的stop方法的调用退出应用为止。创建的临时表保存在global_temp这个库中。
在zeppelin中执行如下代码：

1.	var df = spark.read.option("header","true").csv("/data/dataset/batch/customers.csv")
2.	df.createGlobalTempView("xx")
3.	    　
4.	// 查询
5.	spark.sql("select * from global_temp.xx").show(5)
1
2
3
4
5