Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

27 五月

星期三, 27 五月 2020 15:31 Last Updated on 星期三, 27 五月 2020 15:31 0 Comments

文章目录:

②案例实操：

结果：

2、区内排序（sort by ）分区字段 (distribute by)

3、distribute by

4、当分区条件和排序条件相同使用（cluster by）

Cluster by 除了具有distribute by的功能外，还会对该字段进行排序。当distribute by和sort by 字段相同时，可以使用cluster by 代替

②案例实操：

我是按照：nba.name 字母升序排序的，默认数据是乱序。

结果出来如下：

7、总结:

1、全局排序（order by）

order by：全局排序只有一个reduce；多个reduce无用

① 使用order by排序的子句在select 结尾处。

降序：desc

升序：asc 不需要指定，默认是升序

②案例实操：

Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

结果：

Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

2、区内排序（sort by ）分区字段 (distribute by)

设置reduces 个数:

set mapreduce.job.reduces = 3;

distribute by 分区字段 store by 排序字段联合使用

②案例实操：不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapreduce.job.reduces>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

③输出结果：排序字段是NBA.name 可以看出是乱序。

Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

3、distribute by

① 类似于MapReduce中分区partation，对数据进行分区，结合sort by进行使用 distribute by控制在map端如何拆分数据给reduce端。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。

② 二者结合使用的效果：

hive (test_db)> select nba.id,nba.name,nba.city from nba distribute by nba.name sort by nba.id;

结果：
Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

4、当分区条件和排序条件相同使用（cluster by）

① 当分区条件和排序条件相同使用cluster by .

Cluster by 除了具有distribute by的功能外，还会对该字段进行排序。当distribute by和sort by 字段相同时，可以使用cluster by 代替

②案例实操：

Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

我是按照：nba.name 字母升序排序的，默认数据是乱序。

结果出来如下：

Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

5、group by:对检索的数据进行单纯的分组，一般和聚合函数一起使用。

6、partition by:用来辅助查询，缩小查询范围，加快数据的检索速度和对数据按照一定的规格和条件进行管理。

① row_number() over ( partition by order by ）

select nba.id, nba.name, nba.city, row_number() over( partition by nba.name order by nba.id desc ) from nba;

Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

② count(字段) over (partition by… order by …desc)

hive (test_db)> select nba.id,nba.name,nba.city,count(nba.city) over (partition by nba.name order by nba.id desc) from nba;

结果： Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

select nba.id,nba.name,nba.city,max(nba.id) over (partition by nba.name order by nba.id desc) from nba;

max(id)over(parition by name order by id ) 的意思是通过name分组在每一个组当中使用id排序最后求出最大的id

7、总结:

1、今天学到一招：在我们hive中使用over子句窗口函数时要在over 前加聚合函数，不然报错，亲自实战。

2、在聚合函数前面不要忘记加逗号

3、聚合函数如下：

max()

min()

count()

sum()

AVG()

【转载注明出处，还望尊重原创】

【作者水平有限，如有错误欢迎指正 .】

如果我的博客对你有帮助、如果你喜欢我的博客内容，请“” “评论”“”一键三连哦！听说的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。

Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

展开阅读全文

39
评论 36
x
海报

扫一扫，海报
2
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

靠自己A.

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

Hive 四种排序 （亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

文章目录:

1、全局排序 （order by）

① 使用order by排序的子句在select 结尾处。

降序：desc

升序：asc 不需要指定，默认是升序

②案例实操：

结果：

2、区内排序 （sort by ）分区字段 (distribute by)

设置reduces 个数:

set mapreduce.job.reduces = 3;

distribute by 分区字段 store by 排序字段 联合使用

②案例实操：不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapreduce.job.reduces>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

③输出结果：排序字段是NBA.name 可以看出是乱序。

3、distribute by

① 类似于MapReduce中分区partation，对数据进行分区，结合sort by进行使用 distribute by控制在map端如何拆分数据给reduce端。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。

② 二者结合使用的效果：

4、当分区条件和排序条件相同使用（cluster by）

Cluster by 除了具有distribute by的功能外，还会对该字段进行排序。当distribute by和sort by 字段相同时，可以使用cluster by 代替

②案例实操：

我是按照 ：nba.name 字母升序排序的，默认数据是乱序。

结果出来如下：

5、group by:对检索的数据进行单纯的分组，一般和聚合函数一起使用。

6、partition by:用来辅助查询，缩小查询范围，加快数据的检索速度和对数据按照一定的规格和条件进行管理。

① row_number() over ( partition by order by ）

select nba.id, nba.name, nba.city, row_number() over( partition by nba.name order by nba.id desc ) from nba;

② count(字段) over (partition by… order by …desc)

hive (test_db)> select nba.id,nba.name,nba.city,count(nba.city) over (partition by nba.name order by nba.id desc) from nba;

select nba.id,nba.name,nba.city,max(nba.id) over (partition by nba.name order by nba.id desc) from nba;

max(id)over(parition by name order by id ) 的意思是通过name分组 在每一个组当中使用id排序 最后求出最大的id

7、总结:

1、今天学到一招：在我们hive中 使用over子句窗口函数时要在over 前加聚合函数，不然报错，亲自实战。

2、在聚合函数前面不要忘记加逗号

3、聚合函数如下：

max()

min()

count()

sum()

AVG()

【转载注明出处，还望尊重原创 】

【作者水平有限，如有错误欢迎指正 .】

如果我的博客对你有帮助、如果你喜欢我的博客内容，请“” “评论”“”一键三连哦！听说的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录

Hive 四种排序（亲手实战 + 理解，烦请您过目）大数据靠自己A. 的博客-

1、全局排序（order by）

2、区内排序（sort by ）分区字段 (distribute by)

distribute by 分区字段 store by 排序字段联合使用

我是按照：nba.name 字母升序排序的，默认数据是乱序。

max(id)over(parition by name order by id ) 的意思是通过name分组在每一个组当中使用id排序最后求出最大的id

1、今天学到一招：在我们hive中使用over子句窗口函数时要在over 前加聚合函数，不然报错，亲自实战。

【转载注明出处，还望尊重原创】

如果我的博客对你有帮助、如果你喜欢我的博客内容，请`“” “评论”“”`一键三连哦！听说的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。