博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark 的DataFrame常用操作之DSL的风格语法
阅读量:3960 次
发布时间:2019-05-24

本文共 816 字,大约阅读时间需要 2 分钟。

DataFrame提供了一个领域特定语言(DSL)来操作结构化数据。文章的personDF参考前文:

1、查看DataFrame当中的数据

查看DataFrame中的内容,通过调用show方法

personDF.show

在这里插入图片描述

2、查看DataFram当中部分字段的数据

第一种方式查看name字段数据:查看name字段的数据

personDF.select(personDF.col("name")).show

在这里插入图片描述

第二种方式查看name字段数据:查看name字段的另一种写法

personDF.select("name").show

在这里插入图片描述

第三种方式查看name和age字段数据

personDF.select(col("name"),col("age")).show

在这里插入图片描述

第四种方式查看字段数据:查看name和age的数据字段
通过 $ 来进行scala当中字符串的引用,可以使用 $ 来进行字段操作

personDF.select($"name",$"age").show

在这里插入图片描述

3、打印DataFrame的Schema信息

personDF.printSchema

4、查询所有的name和age,并将age+1

personDF.select(col("id"), col("name"), col("age") + 1).show

或者:

personDF.select(personDF("id"), personDF("name"), personDF("age") + 1).show

在这里插入图片描述

5、过滤age大于等于25的,使用filter方法过滤

personDF.filter(col("age") >= 25).show

在这里插入图片描述

6、统计年龄大于30的人数

personDF.filter(col("age")>30).count()

在这里插入图片描述

7、按年龄进行分组并统计相同年龄的人数

personDF.groupBy("age").count().show

在这里插入图片描述

转载地址:http://vgmzi.baihongyu.com/

你可能感兴趣的文章
HTML DOM
查看>>
AJAX 基础
查看>>
JSON 基础
查看>>
J2EE监听器Listener接口大全[转]
查看>>
cookie、session、sessionid 与jsessionid[转]
查看>>
常见Oracle HINT的用法
查看>>
JAVA中各类CACHE机制实现的比较 [转]
查看>>
PL/SQL Developer技巧
查看>>
3-python之PyCharm如何新建项目
查看>>
15-python之while循环嵌套应用场景
查看>>
17-python之for循环
查看>>
18-python之while循环,for循环与else的配合
查看>>
19-python之字符串简单介绍
查看>>
20-python之切片详细介绍
查看>>
P24-c++类继承-01详细的例子演示继承的好处
查看>>
P8-c++对象和类-01默认构造函数详解
查看>>
P1-c++函数详解-01函数的默认参数
查看>>
P3-c++函数详解-03函数模板详细介绍
查看>>
P4-c++函数详解-04函数重载,函数模板和函数模板重载,编译器选择使用哪个函数版本?
查看>>
P5-c++内存模型和名称空间-01头文件相关
查看>>