spark sql 常用语句

mac2022-06-30  73

在spark dataFrame数据结构里面使用sql语句查询数据

(因为是RDD和dataFrame数据是只读的,所以不能做修改,删除操作。)

首先将文本数据转换为DataFrame数据格式

有两种将RDD转换为Dataframe的形式

利用反射机制推断RDD模式使用编程方式定义RDD模式

这里直接读取json文件并转换为dataFrame结构

from pyspark.sql import SparkSession spark=SparkSession.builder.getOrCreate() df = spark.read.json("/user/hadoop/data.json") df.createOrReplaceTempView("data") dataDF = spark.sql("select title from data where title like '%中国%'").show() 查看data表中的所有title select * from data 查看data表中,title包含字符串‘中国’ select title from data where title like '%中国%' 查看data表中,country 的值(去重) SELECT DISTINCT country FROM data 查看平均值 spark.sql("select AVG(id) from data").show() 累加 spark.sql("select COUNT(id) from data").show() 统计有多少行数据 spark.sql("select COUNT(*) AS nums from data").show() 查看id=1的第一条数据的name值 spark.sql("select FIRST(name) AS name from data where id=1").show()

类似使用的函数:LAST MAX MIN SUM

转载于:https://www.cnblogs.com/panfengde/p/11434538.html

最新回复(0)