netty

扩展sawzall代码实现自定义接口

helight | 1500字 | 阅读大约需要3分钟 | 归档于life

2014年5月4日

使用sawzall开发mr程序虽然很快,不过也有不少限制,尤其对于新手来说,比如不能直接像c++一样调用线程的库,不过它提供了一种扩展开发的方式,我们可以自己修改sawzall代码实现新的功能接口,在下载平台的sawzall代码中,我们就扩展了一种聚合器,两个和我们web相关的功能接口:连接我们的domain service进行聚合域名的识别,根据url进行域名提取。这里以使用我们comm库中的url类进行域名提取为例来说明一下sawzall的功能函数扩展。

继续阅读

海量数据分析:Sawzall并行处理(中文版论文)

helight | 41100字 | 阅读大约需要82分钟 | 归档于life

2014年5月4日

海量数据分析:Sawzall并行处理(中文版论文) Google的工程师为了方便内部人员使用MapReduce,研发了一种名为 Sawzall的DSL,同时Hadoop也推出了类似Sawzall的Pig语言,但在语法上面有一定的区别。今天就给大家贴一下Sawall的论文, 值得注意的是其第一作者是UNIX大师之一(Rob Pike)。原文地址,并在这里谢谢译者崮山路上走9遍。

继续阅读