博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop之 hadoop用途方向
阅读量:2492 次
发布时间:2019-05-11

本文共 1377 字,大约阅读时间需要 4 分钟。

  1. hadoop是什么?
    Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。
  2. hadoop能做什么?
    hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)
  3. hadoop能为我司做什么?
    • 大数据量存储:分布式存储
    • 日志处理: Hadoop擅长这个
    • 海量计算: 并行计算
    • ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
    • 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
    • 机器学习: 比如Apache Mahout项目
    • 搜索引擎:hadoop + lucene实现
    • 数据挖掘:目前比较流行的广告推荐
    • 大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高。
    • 数据支持一次写入,多次读取。对于已经形成的数据的更新不支持。
    • 数据不进行本地缓存(文件很大,且顺序读没有局部性)
    • 任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响。
    • 用户细分特征建模
    • 个性化广告推荐
    • 智能仪器推荐
  4. hadoop实际应用:

    Hadoop+HBase建立NoSQL分布式数据库应用

    Flume+Hadoop+Hive建立离线日志分析系统

    Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

     

    酷狗音乐的大数据平台

    京东的智能供应链预测系统 

    说明:整理于网络

    http://www.cnblogs.com/zhangs1986/p/6528227.html

    http://blog.sina.com.cn/s/blog_687194cd01017lgu.html

     

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31383567/viewspace-2144263/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31383567/viewspace-2144263/

你可能感兴趣的文章
2015/10/9 Python核编初级部分学习总结
查看>>
bzoj2058: [Usaco2010 Nov]Cow Photographs(逆序对)
查看>>
ThinkPHP- 3.1
查看>>
Spring——自定义属性编辑器+Bean的生存范围+Bean的生命周期
查看>>
频繁项集------->产生强关联规则的过程
查看>>
javascript闭包
查看>>
Jenkins构建Spring+Nodejs项目
查看>>
史航416第七次作业总结
查看>>
ExtJs4 笔记 Ext.tab.Panel 选项卡
查看>>
【进阶技术】一篇文章搞掂:Spring高级编程
查看>>
Java Web 路径问题
查看>>
一个小栗子聊聊JAVA泛型基础
查看>>
清除掉AD的相关属性!
查看>>
获取${}中的值? 比如说var a=${date },无法取出date中的值
查看>>
入驻支付宝开放平台并创建应用的基本流程
查看>>
iptables FTP脚本
查看>>
js 实时监听input中值变化
查看>>
EXT.NET复杂布局(四)——系统首页设计(上)
查看>>
给asterisk写app供CLI调用
查看>>
克隆虚拟机启动网卡提示错误 Device eth0 does not seem to be present, delaying initialization...
查看>>