用户画像数据建模方法(zz)
原文:http://blog.baifendian.com/?p=8015 从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚 焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传 统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习 惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一 个用户的信息全貌,可以看作企业应用大数据的根基。
January 14, 2015
一种简单的分布式存储系统
三层架构(MetaNodeMonitor+MetaNode+DataNode),核心是下面两层(MetaNode+DataNode),下面两层是可以脱离Monitor独立运行。 Monitor的存在主要是作为一个MetaNode的监控和MetaNode出错时进行切换角色,并且通知DataNode进行切换。 DataNode在获取主MetaNode的Ip后进行本地缓存,不需要主动询问Monitor,而且DataNode还可以主动从任意MetaNode获取主MetaNode的IP信息。 MetaNode作为整个系统的大脑,存储所有的文件元信息,这一点和HDFS的NameNode是有点类似的,但是MetaNode做了主备和自动切换设计,相对有更高的可用性。
January 12, 2015
两阶段提交算法
两阶段提交协议是在事务处理、数据库,以及计算机网络中使用的一种原子提交协议(atomic commitment)。它是一个分布式算法,协调在整个分布式原子事务中的参与者的行为(commit或者roll back)。这个协议在一些系统错误发生时仍然能够成功,((两阶段提交协议))但并不能保证对所有错误都能进行容错。为了能做错误恢复,协议的所有参与 者都需要使用日志对协议状态进行记录。
January 12, 2015
netty用pb来实现多接口rpc
在netty中使用pb, nettty的pb编解码必须指定要解码和编码的pb结构体,这然做多接口的应用就很不方便,这里采用了一种简单的方式来解决。 pb定义如下:
December 17, 2014
zz MySQL的InnoDB索引原理详解
原文地址:http://www.admin10000.com/document/5372.html 摘要: 本篇介绍下Mysql的InnoDB索引相关知识,从各种树到索引原理到存储的细节。 InnoDB是Mysql的默认存储引擎(Mysql5.5.5之前是MyISAM,文档。本着高效学习的目的,本篇以介绍InnoDB为主,少量涉及MyISAM作为对比。
October 27, 2014
ngingx访问限制和iptables简单使用
为了方便安装了一个phpmyadmin,结果公司扫描了之后说要做一些安全限制,主要还是用到nginx的访问限制和iptables,这里稍微做一下记录 nginx的限制较为简单,在server中添加对phpmyadmin的限制即可
October 14, 2014
hdfs的C++接口编译测试
项目中要做一个数据包管理服务,我们主要项目开发都是C++的,所以这个数据包管理也是c++开发的,但是数据包的存储是个问题,最后选择了本地存储和hdfs存储结合。 昨天调试了以下hdfs的C++接口,简单这里记录一下: 代码程序是网上随处可以搜到的测试代码:
May 9, 2014
zz分布式文件系统FastDFS架构剖析
【本文系外部转贴,原文地址:http://www.programmer.com.cn/4380/】 FastDFS是一款类Google FS的开源分布式文件系统,它用纯C语言实现,支持Linux、FreeBSD、AIX等UNIX系统。 它只 能通过专有API对文件进行存取访问,不支持POSIX接口方式,不能mount使用。准确地讲,Google FS以及FastDFS、 mogileFS、HDFS、TFS等类Google FS都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。
May 4, 2014
扩展sawzall代码实现自定义接口
使用sawzall开发mr程序虽然很快,不过也有不少限制,尤其对于新手来说,比如不能直接像c++一样调用线程的库,不过它提供了一种扩展开发的方式,我们可以自己修改sawzall代码实现新的功能接口,在下载平台的sawzall代码中,我们就扩展了一种聚合器,两个和我们web相关的功能接口:连接我们的domain service进行聚合域名的识别,根据url进行域名提取。这里以使用我们comm库中的url类进行域名提取为例来说明一下sawzall的功能函数扩展。
May 4, 2014
海量数据分析:Sawzall并行处理(中文版论文)
海量数据分析:Sawzall并行处理(中文版论文) Google的工程师为了方便内部人员使用MapReduce,研发了一种名为 Sawzall的DSL,同时Hadoop也推出了类似Sawzall的Pig语言,但在语法上面有一定的区别。今天就给大家贴一下Sawall的论文, 值得注意的是其第一作者是UNIX大师之一(Rob Pike)。原文地址,并在这里谢谢译者崮山路上走9遍。
May 4, 2014
Storm云计算学习摘录总结
本想自己也总结以下,看到这篇文章总结的太好了,直接转载了 原文:http://my.oschina.net/yilian/blog/175451
April 12, 2014
Sqlite使用笔记
在目前做的元数据节点中,为了保存一些节点的私有数据,选择了本地存储,在选择本地存储的选择上又选择了使用sqlite,sqlite对数据存储和数据解析在使用比较简单。而且编译入当前代码也是比较容易的。
April 10, 2014