有人配过 hive 的审计日志吗

2025-04-29 03:12:58

推荐回答（1个）

回答1：

Hadoop archive 唯一的优势可能就是将众多的小文件打包成一个har 文件了，那这个文件就会按照dfs.block.size 的大小进行分块，因为hdfs为每个块的元数据大小大约为150个字节，如果众多小文件的存在（什么是小文件内，就是小于dfs.block.size 大小的文件，这样每个文件就是一个block）占用大量的namenode 堆内存空间，打成har 文件可以大大降低namenode 守护节点的内存压力。但对于MapReduce 来说起不到任何作用，因为har文件就相当一个目录，仍然不能讲小文件合并到一个split中去，一个小文件一个split ，任然是低效的，这里要说一点<>对这个翻译有问题，上面说可以分配到一个split中去，但是低效的。
既然有优势自然也有劣势，这里不说它的不足之处，仅介绍如果使用har 并在hadoop中更好的使用har 文件