学习大数据DAY42 hive 分桶表

目录

分桶表

分桶表注意事项

hive 分桶表-创建分桶表

hive 排序关键字

hive 排序语句

上机练习


分桶表

分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形
成合理的分区。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为
细粒度的数据范围划分。
分桶是将数据集分解成更容易管理的若干部分的另一个技术。
分区针对的是数据的存储路径;分桶针对的是数据文件。

分桶表注意事项

分桶策略
Hive 的分桶采用对分桶字段的值进行哈希,然后除以桶的个数求余的方 式决定
该条记录存放在哪个桶当中.
reduce 的个数设置为-1,让 Job 自行决定需要用多少个 reduce 或者将 reduce 的
个数设置为大于等于分桶表的桶数
从 hdfs 中 load 数据到分桶表中,避免本地文件找不到问题
不要使用本地模式

hive 分桶表-创建分桶表

--创建 4 个分桶的分桶表
create table stu_bucket(id int, name string)
clustered by(id)
into 4 buckets
row format delimited fields terminated by '\t';
--设置 mapreduce 数量(二选一)
set mapreduce.job.reduces=3
set mapred.reduce.tasks=3
--向分桶表导入数据
load data inpath
'/student.txt' into table stu_bucket;

hive 排序关键字

hive 排序语句

--使用 order by 排序
select * from student2 order by id
--使用 sort by 排序
select * from student2 sort by class_name desc
--使用 distribute by 分组
set mapreduce.job.reduces=15;
select * from student2 distribute by class_name sort by id desc
insert overwrite
local directory '/root/student2/'
row format delimited fields terminated by '\t'
select * from student2_b
distribute by sex
sort by chinese desc
--使用 cluster by 分组并排序
select * from student2 cluster by class_name

上机练习

然而作业和分桶表并没有关系~
1 清洗函数
2 pyhive 连接函数
3 文件判断
import os,datetime
fpath='/root/'
fname1='2021-12-31.log'
fname2='2021-05-20.log'
fname3='2021-07-02.log'
fname4='2021-07-03.log'
fname5='2021-07-04.log'list_fname=[fname1,fname2,fname3,fname4,fname5]
etl_fname1=f'{fpath}etl_{fname1.strip(".log")}.txt'
etl_fname2=f'{fpath}etl_{fname2.strip(".log")}.txt'
etl_fname3=f'{fpath}etl_{fname3.strip(".log")}.txt'
etl_fname4=f'{fpath}etl_{fname4.strip(".log")}.txt'
etl_fname5=f'{fpath}etl_{fname5.strip(".log")}.txt'
list_etl_fname=[etl_fname1,etl_fname2,etl_fname3,etl_fname4,et
l_fname5]
def etl_data(fpath,fname,etl_fname):
with open(fpath+fname,'r',encoding='utf-8') as f:
with open(etl_fname,'a',encoding='utf-8') as f1:
str1=f.readlines()
for l in str1:
lit=l.split(' ')
# 提取 IP
ip=lit[0]
# 提取时间
date=datetime.datetime.strptime(lit[3],'[%d/%b/
%Y:%H:%M:%S')
date=datetime.datetime.strftime(date,'%Y-%m-%d %
H:%M:%S')
# 提取 URL
url=lit[6]
# 提取系统类型
lit1=l.split('"')
header=lit1[-2]
if header.find('Linux')>=0:
systype='Linux'
elif header.find('Mac OS')>=0:
systype='Mac OS'
elif header.find('Windows')>=0:
systype='Windows'
else:
systype='unknown'
# 提取浏览器类型
if header.find('Chrome')>=0:
browser='Chrome'
elif header.find('Firefox')>=0:
browser='Firefox'
elif header.find('Safari')>=0:
browser='Safari'
elif header.find('Presto')>=0:
browser='Presto'else:
browser='unknown'
# 写入文件
result=f'{ip}\t{date}\t{url}\t{systype}\t{brows
er}\n'
f1.write(result)
f1.close()
f.close()
if __name__=='__main__':
for i in range(5):
etl_data(fpath,list_fname[i],list_etl_fname[i])
load_sql=f"load data local inpath '{list_etl_fname[i]}'
into table log partition
(load_date='{list_fname[i].strip('.log')}')"
hive_command=f'beeline -u
"jdbc:hive2://hadoop100:10000/db_hive" -n root -p 123456 -e
"{load_sql}"'
os.system(hive_command)
4 show partitions log
5 select load_date,count(1) from log group by load_date
内存不够跑不了这句,一句一句来吧。分开写查一个都要 50 多秒。
select count ( 1 ) from log where load_date= '2021-05-20'
select count ( 1 ) from log where load_date= '2021-07-02'
select count ( 1 ) from log where load_date= '2021-07-03'
select count ( 1 ) from log where load_date= '2021-12-31'
select count ( 1 ) from log where load_date= '2021-07-04'

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/871435.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

API容易被攻击,如何做好API安全

随着互联网技术的飞速发展和普及,网络安全问题日益严峻,API(应用程序接口)已成为网络攻击的常见载体之一。API作为不同系统之间数据传输的桥梁,其安全性直接影响到整个系统的稳定性和数据的安全性。 根据Imperva发布的…

【区块链+商贸零售】消费券 2.0 应用方案 | FISCO BCOS应用案例

方案基于FISCO BCOS区块链技术与中间件平台WeBASE,实现新一代消费券安全精准高效发放,实现消费激励, 促进消费循环。同时,方案将用户消费数据上链,实现账本记录与管理,同时加密机制保证了数据安全性。

【解决】Python | ModuleNotFoundError: No module named codecs

【解决】Python | ModuleNotFoundError: No module named codecs 在Python开发中,ModuleNotFoundError: No module named codecs 是一个相对罕见的错误,因为 codecs 是Python标准库中的一个模块,通常应该总是可用的。然而,当你遇到…

【kubernetes】k8s配置资源管理

一、ConfigMap资源配置 ConfigMap保存的是不需要加密配置的信息 ConfigMap 功能在 Kubernetes1.2 版本中引入,许多应用程序会从配置文件、命令行参数或环境变量中读取配置信息。ConfigMap API 给我们提供了向容器中注入配置信息的机制,ConfigMap 可以被…

avue-crud 自定义搜索项 插槽

加上 -search 就可以自定义查询项了

43.x86游戏实战-XXX寻找吸怪坐标

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

如何在 FastReport .NET 中构建和安装 Postgres 插件

FastReport .NET 是一款全功能的Windows Forms、ASP.NET和MVC报表分析解决方案。 功能非常丰富,功能广泛。今天我们将介绍如何使用报表设计器的 FastReport 插件连接数据库。 FastReport .NET 是适用于.NET Core 3,ASP.NET,MVC和Windows窗体…

SQL注入(cookie、base64、dnslog外带、搜索型注入)

目录 COOKIE注入 BASE64注入 DNSLOG注入—注入判断 什么是泛解析? UNC路径 网上邻居 LOAD_FILE函数 搜索型注入—注入判断 本文所使用的sql注入靶场为sqli-labs-master,靶场资源文件已上传,如有需要请前往主页或以下链接下载 信安必备…

视频直播平台选择服务器需要注意什么?

在当今数字化时代,直播平台已成为连接内容创作者与广大观众的重要桥梁。为了确保直播的流畅性、稳定性和安全性,服务器的选择与配置显得尤为重要。以下是搭建直播平台时,服务器所需具备的关键因素。 一、高性能与可扩展性 直播平台需要处理大…

C++第十二弹 -- STL之list模拟实现

文章索引 前言模拟实现list1. ListNode节点类2. list的迭代器封装3. 反向迭代器4. list类的模拟实现测试代码 list的反向迭代器总结 前言 通过模拟实现可以让我们更加深刻的理解C底层STL的实现逻辑, 本篇就对list的底层进行模拟实现. 博客主页: 酷酷学!!! 点击关注 共同进步!…

详解语义安全(semantically secure)

目录 一. 引入 二. 密文与明文 2.1 通俗性理解 2.2 定理 2.3 定理理解 三. 语义安全的第一个版本 3.1 基本理解 3.2 定理 3.3 定理理解 四. 语义安全的第二个版本 4.1 直观解释 4.2 小结 一. 引入 密码学中安全加密要求:敌手(adversary&…

Git使用方法(三)---简洁版上传git代码

1 默认已经装了sshWindows下安装SSH详细介绍-CSDN博客 2 配置链接github的SSH秘钥 1 我的.ssh路径 2 进入路径cd .ssh 文件 3 生成密钥对 ssh-keygen -t rsa -b 4096 (-t 秘钥类型 -b 生成大小) 输入完会出现 Enter file in which to save the key (/c/Users/Administrator/…

【Android】adb devices 出现devices offline的问题

1 问题 adb devices 出现devices offline 2 解决方法 adb kill-serveradb start-server 然后,adb devices查看。 adb devices 问题解决啦。。。💛 💙 💜 ❤️ 💚 💛 💙 💜 ❤️…

雨云美国二区E5v2服务器测评(非广告)

注:本文非广告,非推广 本文长期更新地址: 雨云美国二区E5v2服务器测评(非广告)-星零岁的博客https://blog.0xwl.com/13594.html 今天来测评一下雨云美国二区v2服务器。我测试的这台配置是4-8, 35 M上传&a…

《机器学习》周志华-CH1(绪论)

1.1引言 机器学习(Matchine-Learning)所研究的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。可以说机器学习(Matchine-Learni…

智能菜谱推荐系统_ct3p7

TOC springboot575智能菜谱推荐系统_ct3p7--论文 第一章 概述 1.1 研究背景 近些年,随着中国经济发展,人民的生活质量逐渐提高,对网络的依赖性越来越高,通过网络处理的事务越来越多。随着智能菜谱推荐管理的常态化&#xff0c…

PYQT实现上传图片,保存图片

代码如下 from PyQt5.QtWidgets import * from PyQt5.QtGui import * from PyQt5.QtCore import * import sysclass MyWindow(QMainWindow):def __init__(self):super(MyWindow, self).__init__()self.setWindowTitle("图片处理")self.setGeometry(200, 200, 500, …

最全海外广告库大合集,建议收藏!

在当今数字营销的世界中,广告投放的精准性和创意性变得越来越重要。而“海外广告库”作为一种强大的工具,正在被越来越多的广告主和营销专家所使用。本文将深入探讨几大主流的海外广告库,并探讨如何利用它们来提升广告效果。 什么是海外广告…

推荐一个开源的kafka可视化客户端GUI工具(Kafka King)

大佬的博客地址: https://blog.ysboke.cn/posts/tools/kafka-king Github地址: https://github.com/Bronya0/Kafka-King Kafka-King功能清单 查看集群节点列表(完成)支持PLAINTEXT、SASL PLAINTEXT用户名密码认证(完…

[C语言]-基础知识点梳理-文件管理

前言 各位师傅们好,我是qmx_07,今天给大家讲解文件管理的相关知识,也就是常见的 读取,删除一类的操作 文件 为什么要使用文件? 程序的数据是存储在电脑的内存中,如果程序退出,内存回收&…