hadoop如何处理海量数据—资讯网,揭秘爆料

如果您已经使用Hadoop集群一段时间了。然后,您需要有50到100个节点可靠运行,并且需要掌握一些分析框架,无论是Spark、Flink还是老式的Map-Reduce。在此阶段,您已经展示了集群的真正业务价值,并准备好通过更多数据、更多应用程序和更多用户将其提升到一个全新的水平。那么如何才能提高自己的水平呢?首先,由于我们使用Hadoop并使用典型的商用服务器机架,每个机架有12或24个硬盘,因此集群的硬件不会成为大题。但为什么现在不考虑其他硬件呢?


因为当集群规模达到数百个节点时,绝对会是数据中心最大的集群,甚至可能成为计算基础设施的大部分。在这种规模下,资源失衡导致效率低下,导致时间、金、电力、热量和空间的巨大浪费。


弯曲或折断


即使您认为现在CPU和存储是平衡的,随着应用程序和框架的发展、数据变得越来越大、CPU变得越来越快,它们也会变得不平衡。第二年你购买的CPU将是去年的两倍,磁盘仍然会较慢,但容量很大。预测CPU和存储之间的正确平衡是不可能的,因此需要的是灵活性。


这种灵活性是通过将磁盘与CPU节点分区/分离来实现的。然而,现有的NAS和SAN解决方案需要谨慎。远离34个,您的硬件将超出预算,并且您将难以达到Hadoop所需的性能水平。寻找具有机架级架构的解决方案,最大限度地提高灵活性,同时保持Hadoop所需的高性能和低成本。通过非常实惠的存储可以实现完整的大数据移动,因此不要受限于传统的存储解决方案。


扩张


从CPU节点中移除存储可以提供更广泛的CPU/内存组合选择。考虑2013年4月的34个Hadoop节点-12个CPU核心和大约64GB内存。它可以轻松处理36-40个核心节点和512GB内存。即使您现有的Map/Reduce应用程序的I/O绑定到较小的CPU,迁移到更大、更强大的CPU节点也可以消除大量通信和序列化开销。Spark和其他现代框架可以从CPU上更大的内存中受益匪浅。这是因为多个大型缓存比分布在更多节点上的相同数量的缓存更有效。


并且不要吝惜网络。对于当今的服务器来说,任何低于10Gbps的速度都无异于救命稻草。如果删除磁盘,其流量也将在网络上。即使您无法控制网络主干带宽,向Hadoop添加带宽也会有很大帮助。


因此,在投入大规模Hadoop项目之前请仔细考虑,并确保您的硬件计划考虑到当今的技术以及过去几年的成功。


灰度数据仓库建模大师简介


灰度数据仓库建模大师可以快速高效地帮助客户构建用于企业决策和分析的数据仓库。满足数据需求效率、数据质量、可扩展性、主题导向等特点。我们根据您公司的业务目标进行数据理解、数据准备、数据建模以及最终评估和部署,以实现真正的数据驱动的业务决策。


今天给诸位解了hadoop如何处理海量数据的相关话题,其中也对HADOOP 数据量多大用吸管进行了详尽解释,希望大家喜欢!

除非特别注明,本站所有文字均为原创文章,作者:admin

No Comment

留言

电子邮件地址不会被公开。 必填项已用*标注

感谢你的留言。。。