分类:HIVE

HIVE 小文件合并方案

HIVE 小文件合并方案
1、方案提出背景: 1.1、map输入:map在输入文件时,每个文件都启动一个map任务,文件过小,会导致资源的浪费。 1.2、reduce输出:每一个reduce计算完,输出一个文件,有时候会产生大量的小文件。小文件过多,消耗namenode大量内存,对namenode也造成很...

liz 4年前 (2014-10-16) 3448℃ 2评论 0喜欢

HIVE 权限管理方案(开发者粒度)

HIVE 权限管理方案(开发者粒度)
现状: 1、默认情况下,仓库架构的所有用户只要是指向同一个元数据,就具备相同的操作所有Hive Table 的权限,进而操作HDFS,即超级管理员的权限。 2、对于一些敏感的信息,我们需要单独的存放在一个敏感集市去,维护单独的元数据,增加了运营成本。 解决: 方案一:客户端配置层...

liz 4年前 (2014-10-13) 4253℃ 0评论 0喜欢

HiveQL UDF 函数

HiveQL UDF 函数
常用的UDF函数,简单基础的函数已忽略。 1、关系运算 1.1、正则表达式:rlike、regexp 语法:A rlike/regexp  B 操作类型:string 描述:如果字符串A或B为NULL,则返回NULL;如果A符合B的正则表达式的正则语法,则返回true;否则fal...

liz 4年前 (2014-10-02) 1850℃ 0评论 0喜欢

HIVE 元数据解析(二)

HIVE 元数据解析(二)
接HIVE元数据解析(一) 以下表在原生hive里默认没有存数据,由最近在做hive权限管理,需要用到权限管理的一些表,故此把hive的所有表都整理出来。 3、单个表详细解析 3.1、 ROLES 角色表 字段(英文) 字段名称 类型 长度 主键 是否允许为空 ...

liz 4年前 (2014-09-12) 1498℃ 0评论 0喜欢

HIVE 元数据解析(一)

HIVE 元数据解析(一)
1、HIVE 0.12元数据表汇总 表名 表中文名称 TBLS hive表基本信息 TABLE_PARAMS 属性信息 SERDES 系列化反系列化表信息 SERDE_PARAMS 系列化反系列化属性信息 SEQUENCE_TABLE 系列化主表 S...

liz 4年前 (2014-09-12) 3284℃ 0评论 0喜欢