kettle — 连接hive读取数据导入hdfskettle,hive,hdfskismet-

23 四月

星期四, 23 四月 2020 10:55 Last Updated on 星期四, 23 四月 2020 10:55 0 Comments

1.环境准备

1.进入kettle安装文件目录的data-integrationpluginspentaho-big-data-plugin，修改plugin.properties文件

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

根据自己的hadoop版本添加不同的类型

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

2.修改完成后进入自己对应的版本进入不同的目录，我进入的是pluginspentaho-big-data-pluginhadoop-configurationscdh514目录

将集群的Hadoop、Hive配置复制到该目录中
core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、hive-site.xml 覆盖文件中的原文件

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

2.准备hive表

前提：开启HDFS、Yarn、HiveMetaStore、HiveServer2

开启HDFS、Yarn

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

开启HiveServer2

 cd  /export/servers/hive-1.1.0-cdh5.14.0 nohup bin/hive --service hiveserver2  &

开启HiveMetaStore

 nohup /export/servers/hive-1.1.0-cdh5.14.0/bin/hive --service metastore 2>&1 >> /var/log.log &

查看是否开启

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

开始准备hive数据

进入hive

 //创建hive数据库 create database kettle; use kettle;   //创建表 CREATE TABLE dept(deptno int, dname string,loc string) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';  CREATE TABLE emp( empno int, ename string, job string, mgr int, hiredate string, sal double, comm int, deptno int) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';  //加入数据 insert into dept values (10,'accounting','NEW YORK'), (20,'RESEARCH','DALLAS'), (30,'SALES','CHICAGO'), (40,'OPERATIONS','BOSTON');  insert into emp values (7369,'SMITH','CLERK',7902,'1980-12-17',800,NULL,20), (7499,'ALLEN','SALESMAN',7698,'1980-12-17',1600,300,30), (7521,'WARD','SALESMAN',7698,'1980-12-17',1250,500,30), (7566,'JONES','MANAGER',7839,'1980-12-17',2975,NULL,20);

进去kettle 准备转换

创建两个表输入

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

编写两个表输入

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

运用deptno来join合并两个表

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

删除无用或重复字段

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

添加输出步骤

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

设置输出连接hdfs

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

运行保存启动

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

这时候会发现报了个错！

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

删除hdfs上的输出文件

hdfs dfs -cat /myhive2hdfs.txt

重新运行启动spoon

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

查看hdfs上的输出文件

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

到这里，恭喜你，kettle连接hive读取数据导入hdfs已经成功

kettle -- 连接hive读取数据导入hdfskettle,hive,hdfskismet-

kismetG

发布了123 篇原创文章 · 获赞 214 · 访问量 19万+

私信关注

展开阅读全文

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

kettle — 连接hive读取数据导入hdfskettle,hive,hdfskismet-

1.环境准备

2.准备hive表

开始准备hive数据

进入hive

进去kettle 准备转换

到这里，恭喜你，kettle连接hive读取数据导入hdfs已经成功

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

kettle — 连接hive读取数据导入hdfskettle,hive,hdfskismet-

1.环境准备

2.准备hive表

开始准备hive数据

进入hive

进去kettle 准备转换

到这里，恭喜你，kettle连接hive读取数据导入hdfs已经成功

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录