当前位置:首页>正文

大专大数据面试常问问题

2024-01-01 18:56:54 互联网 未知

大专大数据面试常问问题?

您好大数据面试常问问题有很多,以下是一些常见的问题:


MapReduce如何选择垃圾回收器?

如何配置hdfs集群?

如何搭建yarn集群?

hive的执行引擎是什么?

Tez底层,数据倾斜如何处理?

Reduce Join 和Map join有什么区别?

MR的压缩是什么?

spark中repartition和coalesce的区别是什么?

spark四个byKey的区别是什么?

flume如何监听文件夹下的新文件?

flume如何保证数据不丢失?

spark算法如何判断DAG?

spark任务全流程是什么?

spark shuffle是什么?

spark RDD是什么?

100w条数据的全排序怎么做?

spark中的分区有哪几种?

spark水塘抽样算法是什么?

hdfs文件读写流程是什么?

hdfs启动流程是什么?

hadoop架构是什么?

Zookeeper的同步过程是什么?

Zookeeper的选举机制是什么?

kafka如何保证不丢数据?

spark节点通信问题是什么?

scala闭包以及函数柯里化是什么?

spark运行模式是什么?

spark和MR的主要区别是什么?

当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?

RPC和HTTP的区别是什么?

常用端口号是什么?

kafka脑裂是什么?

kafka选举机制是什么?

spark数据倾斜排查是什么?

kafka为什么不在ZK存储offset?

kafka如何保证数据不丢失不重复?

kafka保证存储一致性是什么?

大数据中的设计模式是什么?

zk和kafka的关系是什么?

kafka Kraft模式是什么?

kafka分区分配以及再平衡有哪些方式?

1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。


2、在处理大数据过程中,如何保证得到期望值?


3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?


4、点击流数据应该是实时处理?为什么?哪部分应该实时处理?


5、你最喜欢的编程语言是什么?为什么?


6、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好

一般主要是问一下你的工作经验,工作能力,对大数据的理解,打算怎么处理你的之前的一些工作经历。