Hadoop知识点总结

一:大数据概述

    一、大数据简介

       1. 概念:指无法在一定时间范围内使用常规软件工具进项捕捉、管理和处理数据集合,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

       2. 作用:解决海量数据的存储和海量数据的分析计算问题。

       3. 大数据与云计算的关系:大数据必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术,有效地处理大量的容忍经过时间内的数据。

           

Hadoop知识点总结

 

    二、大数据特征

       1. Volume(容量大):数据的大小决定所考虑的数据的价值和潜在的信息。

       2. Velocity(速度快):获得并处理数据的效率。是区分传统数据挖掘最显著特征。

       3. Variety(多样性):数据类型的多样性。以数据库/文本的结构化数据和以网络日志,图片,音频、视频等为主的非结构化数据。

       4. Value(价值):合理运用大数据,以低成本创造高价值。

       5. Variability(可变性):妨碍了处理和有效地管理数据的过程。

       6. Veracity(真实性):数据的质量。

       7. Complexity复杂性):数据量巨大,来源多渠道。

 

    三、大数据应用场景

       1. 物流仓储:大数据分析系统助力商家精细化运营,提升销量,节约成本。

       2. 零售及商品推荐:分析用户消费习惯,给用户推荐可能喜欢的商品,为用户购买商品提供方便。

       3. 旅游:深度结合大数据能力和旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。

       4. 保险:海量数据挖掘及风险预测,助力保险行业精准直销,提升精细化定价能力。

       5. 金融:多维度体现用户特征,助力金融机构推荐优质用户,防范欺诈风险。

       6. 房地产:大数据全面助力房地产行业,打造精准投资与营销,选出更合适的地,建更合适的楼,卖更合适的用户。

       7. 人工智能:深度结合大数据能力及人工智能,提供数据资源。

 

    四、大数据部门组织结构

       

Hadoop知识点总结

 

二:Hadoop 概述

    一、Hadoop 简介

       1. 概念:Hadoop 是由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。

       2. 作用:解决海量数据的存储和海量数据的分析计算问题。

       3. 优点

           1. 高可靠性:Hadoop 能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。

           2. 高扩展性:Hadoop 在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计个节点中。

           3. 高效性:Hadoop 可以在节点之间动态并行的移动数据,使得速度非常快。

           4. 成本低:Hadoop 通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

 

       3. 发展历程

           1. Hadoop 起源于 Apache Nutch 项目,始于2002年,是 Apache Lucene的子项目之一。Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpdzgf.html