`
ginge
  • 浏览: 208384 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Yahoo! 启动了世界上最大的Hadoop生产应用[译]

阅读更多

原文:http://developer.yahoo.net/blogs/hadoop/2008/02/yahoo-worlds-largest-production-hadoop.html

 

 

最近,Yahoo! 启动了目前世界上最大的Apache Hadoop生产应用。Yahoo! Search WebmapHadoop应用,运行在超过10000Linux系统的集群里。Yahoo! 的网页搜索查询使用的数据正是由它生产的。

 

Webmap的构建从Yahoo! 对网页的爬行开始,之后产出包含一个所有已知网页和互联网站点的数据库,还生成一个关于所有页面和站点的海量数据组。这些数据再输送给位于Yahoo! Search中心懂得排行算法的计算机。

 

一些Webmap数字:

l  索引中页面间的链接数量:大概1T 个链接

l  数据产出量的大小:超过300T,还是经过压缩的!

l  运行一个Map-Reduce任务的核心数量:超过10000

l  生产环境中使用的存储量:超过5P

 

这个流程并不新鲜,新鲜的是Hadoop的使用。Hadoop让我们系统只用前Hadoop时代66%的时间运行同一个流程。它在做管理的同时处理了上述的流程。我们更加相信随着我们加大Hadoop的规模,我们将可以根据需要增大生产任务至更大的集群规模。

 

YahooWebmapHadoop开发,我们的团队感到非常的兴奋。因为尽管Hadoop还处在开发的初级阶段(甚至是未成熟阶段),Hadoop就已经可以以低成本的方式胜任真正互联网级别的项目。这个以及Yahoo!其他生产系统的开发,其他组织证明Hadoop正获得市场的青睐,其价值正在增加。

 

 

2006年以来,Yahoo!网格计算团队一直在很多研究和开发任务中使用和增强Hadoop。将Hadoop从一个两年前还在几十个计算机上运行,带领成为今天成千上万上计算机上运行的系统,我们感到非常的骄傲。Webmap证明了Hadoop解决真正互联网级别问题,令人信任地在一个大型生产规模运作的能力。可以说,Yahoo!每月产生的几十亿个Web搜索查询结果很大程度归功于Hadoop集群生产的数据。

 

Eric Baldeschwieler
Senior Director, Grid Computing
Yahoo! Inc.

3
0
分享到:
评论
1 楼 meteormatt 2009-12-18  
恩.
这个Apache的项目.雅虎支持的很好.

相关推荐

    Hadoop在雅虎的应用

    Hadoop在雅虎的应用(Hadoop Usage At Yahoo)

    Hadoop应用案例分析:雅虎、eBay、百度、Facebook.pdf

    ,Hadoop 技术已经在互联网领域得到了广泛的应用。互联网公司往往需要 存储海量的数据并对其进行处理,而这正是Hadoop 的强项。如Facebook 使用Hadoop 存储 内部的日志拷贝,以及数据挖掘和日志统计;Yahoo !利用...

    Hadoop应用案例分析:雅虎、eBay、百度、Facebook

    Hadoop应用案例分析:雅虎、eBay、百度、Facebook

    Yahoo!Widget软件包

    Yahoo! Widget工具是由Yahoo!所推出的一款免费桌面应用程序平台,是一种... Widget工具平台上运行的迷你应用程序就统称为Widget工具。通过这些Widget工具,您可以连接雅虎的网络服务,取得您所需要的各种个性化信息。

    雅虎通Yahoo! Messenger v11.5.0.228 英文版.zip

    雅虎通Yahoo! Messenger是由全球领先的互联网公司雅虎(Yahoo!)推出的即时聊天工具,它拥有独特的聊天情景(IMViroment);语音聊天室;超级视频等等功能,它能让您与朋友、家人、同事及其他人进行趣味十足的即时交流。 ...

    雅虎通(Yahoo! Messenger) v0.8.115

    雅虎通Yahoo! Messenger是由全球领先的互联网公司雅虎(Yahoo!)推出的即时聊天工具,它拥有独特的聊天情景(IMViroment);语音聊天室;超级视频等等功能,它能让您与朋友、家人、同事及其他人进行趣味十足的即时交流。...

    Yahoo! Answers 问答数据集.7z

    Yahoo!Answers 数据集源于 Yahoo!Answers Comprehensive Questions and Answers 1.0 的 10 个主要分类数据,每个类别分别包含 140000 个训练样本和 5000 个测试样本。 该数据集是截至 2007 年 10 月 25 日的答案...

    Hadoop下载 hadoop-2.9.2.tar.gz

    摘要 Hadoop 是一个处理、存储和分析海量的...Hadoop 和 Google 内部使用的分布式计算系统原理相同,其开源特性使其成为分布式计算系统的事实上的国际标准。 Yahoo、Facebook、Amazon,以及国内的百度、阿里巴巴等众多

    Yahoo! Widgets 4.5.2 widget文件打开工具 天涯浪子

    Yahoo Widget Engine原名是Konfabulator,一个迷你型的应用程序引擎,它能够直接在用户桌面上操作并完成多种任务.比如检查是否有Wi-fi连接以及信号强度、在地址簿里查询联系人、更新用户的日历、检查新邮件等等.该程序...

    雅虎通(Yahoo! Messenger) 7.0.0.437 简体中文版

    Yahoo!开发的聊天软件,功能包括:语音聊天:聊天不必打电话!只要你的电脑有连接麦克风和喇叭,即可和朋友畅谈对话。多方会谈:大家一起聊!同时和两个以上的朋友对谈聊天或传送文字信息。好友清单:看看谁在线上...

    云计算 hadoop1.0 源代码

    它的上一个版本是0.20.205.0,新版的版本号原是 0.20.205.1,但开发者表示,Hadoop已经成熟几年前就做好了应用于生产的准备,但有些客户在采用前希望看到版本号是1.0,所以他们决定直接跳到了1.0。

    TUP Masters第四期Yahoo!讲师云计算PPT

    TUP Masters第四期Yahoo!讲师云计算PPT

    Hadoop: The Definitive Guide

    OReilly.Hadoop.The...."Now you have the opportunity to learn about Hadoop from a master-not only of the technology, but also of common sense and plain talk." -- Doug Cutting, Hadoop Founder, Yahoo!

    Hadoop基础培训教程.pdf

    成PDF 2008年1月Hadoop成为Apache顶级项目(Top-Level Project) 2008年2月YAHOO宣布其生产网利用Hadoop集群为搜索引擎建立索引, 集群规模超过1万个CPU核心 起源与目标 大数据与Hadoop 应用模式 大数据与Hadoop ...

    Yahoo的Hadoop教程

    Yahoo的Hadoop教程 理解Hadoop适用的问题范围。 理解Hadoop在看待这些问题时与其它分布式系统的不同。

    Hadoop从业者为什么需要Spark?

    在此,我们以使用世界上使用Hadoop最典型的公司Yahoo!为例,大家可以看一下其数据处理的架构图: 而使用Spark后的架构如下: 大家可以看出,现阶段的Yahoo!是使用Hadoop和Spark并存的架构,而随着时间的推进...

    Apress - Pro Hadoop

    目前Hadoop受到Yahoo的支持,有Yahoo员工长期工作在项目上,而且Yahoo内部也准备使用Hadoop代替原来的的分布式系统。  Hadoop实现了HDFS文件系统和MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce...

    HADOOP硬实战2

    尤其适用于大数据系统,Hadoop为苹果、eBay、LinkedIn、雅虎和Facebook等公司提供重要软件环境。它为开发者进行数据存储、管理以及分析提供便利的方法。 《Hadoop硬实战》收集了85个问题场景以及解决方案的实战演练...

    Hadoop实战中文版

    《Hadoop实战(第2版)》全书一共19章:第1~2章首先对Hadoop进行了全方位的宏观介绍,然后介绍了Hadoop在三大主流操作系统平台上的安装与配置方法;第3~6章分别详细讲解了MapReduce计算模型、MapReduce的工作机制、...

    Hadoop实战实战-陆嘉恒(高清完整版)

    《Hadoop实战(第2版)》全书一共19章:第1~2章首先对Hadoop进行了全方位的宏观介绍,然后介绍了Hadoop在三大主流操作系统平台上的安装与配置方法;第3~6章分别详细讲解了MapReduce计算模型、MapReduce的工作机制、...

Global site tag (gtag.js) - Google Analytics