分享
分享赚钱 收藏 举报 版权申诉 / 3

类型hadoop面试小结.docx

  • 上传人:HR专家
  • 文档编号:6240615
  • 上传时间:2019-04-03
  • 格式:DOCX
  • 页数:3
  • 大小:16.62KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    hadoop面试小结.docx
    资源描述:

    1、hadoop 面试小结 入门:知道 MapReduce 大致流程,map, shuffle, reduce知道 combiner, partition 作用,设置 compression搭建 hadoop 集群,master/slave 都运行那些服务HDFS,replica 如何定位版本 0.20.2-0.20.203-0.20.205, 0.21, 0.23, 1.0. 1新旧 API 不同1、hadoop 运行的原理 ?2、mapreduce 的原理?3、HDFS 存储的机制?4、举一个简单的例子说明 mapreduce 是怎么来运行的 ?5、面试的人给你出一些问题,让你用 mapred

    2、uce 来实现?比如:现在有 10 个文件夹,每个文件夹都有 1000000 个 url.现在让你找出top1000000url。6、hadoop 中 Combiner 的作用?进阶:. Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,memory, use combiner? use compression?pig latin, Hive 简单语法HBase, zookeeper 搭建最新:关注 cloudera, hortonworks blognext generation MR2 框架高可靠性

    3、, namenode: avoid single point of failure.数据流系统:streaming storm(twitter).演练算法:wordcount字典同位词翻译 sql 语句 select count(x) from a group by b;经典的一道题:现有 1 亿个整数均匀分布,如果要得到前 1K 个最大的数,求最优的算法。(先不考虑内存的限制,也不考虑读写外存,时间复杂度最少的算法即为最优算法)我先说下我的想法:分块,比如分 1W 块,每块 1W 个,然后分别找出每块最大值,从这最大的 1W 个值中找最大 1K 个,那么其他的 9K 个最大值所在的块即可扔掉

    4、,从剩下的最大的 1K 个值所在的块中找前 1K 个即可。那么原问题的规模就缩小到了 1/10。问题:1.这种分块方法的最优时间复杂度。2.如何分块达到最优。比如也可分 10W 块,每块 1000 个数。则问题规模可降到原来 1/100。但事实上复杂度并没降低。3.还有没更好更优的方法解决这个问题。1、编写一只爬虫要求:1、可配置要爬取的网页 URL 格式2、可定制要爬取的深度3、对爬取下来的页面可由后期调用的程序进行存储(即事件)2、现有大批量 url 需要爬取,其中 url 的解析以及 n 层抓取已有服务端实现(多级深度),现在给定若干台服务器以及不断增加的客户机,各服务端的 url 任务已有机制保证平衡,爬虫 url 任务由客户机向服务器请求并完成。请设计一个分布式框架,以完成单层的 ur 抓取,并且每个服务器都能尽可能平均的获取客户机资源。注意:服务器可能当机;1、设计一套系统,使之能够从不断增加的不同的数据源中,提取指定格式的数据。要求:1、运行结果要能大致得知提取效果,并可据此持续改进提取方法;2、由于数据来源的差异性,请给出可弹性配置的程序框架;3、数据来源可能有 Mysql,sqlserver 等;4、该系统具备持续挖掘的能力,即,可重复提取更多信息;2、编写一个工具,该工具能够根据不同的文档模板,生成提取格式化数据的正则表达式

    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:hadoop面试小结.docx
    链接地址:https://www.docduoduo.com/p-6240615.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开