博客 – 黑光技术 - 完美之道，不在无可增加，而在无可删减。

为游戏分析设计的分布式数据存储系统

本文是今年5月在中国云计算大会中的分享内容，主要是介绍腾讯游戏数据分析平台的一些后台架构设计和游戏分析思路。在“大数据”相对泛滥的今天，我们看到很多讨论各种大数据架构、存储、工具、算法等等。但是大数据工具在具体应用场景中的计算各有不同之处，那在游戏数据分析中我们腾讯是怎么做的呢？本话题将简单介绍腾讯游戏数据分析系统的后台架构，并且主要介绍一个为游戏分析这类场景设计开发的的小型数据存储系统。

December 27, 2016

Spark在腾讯游戏数据分析和营销干预中的应用实践

#bigdata #spark

Spark在腾讯游戏数据分析和营销干预中的应用实践

December 18, 2016

使用Spark分析网站日志

#spark

郁闷从昨天开始个人网站不断的发出告警504错误，登录机器看了一下是php-fpm报错，这个错误重启php-fpm后，几个小时就告警，快一年了都没什么问题，奇怪

September 29, 2016

Spark分区器HashPartitioner详解和扩展

#spark

在Spark中，存在两类分区函数：HashPartitioner和RangePartitioner，它们都是继承自Partitioner，主要提供了每个RDD有几个分区（numPartitions）以及对于给定的值返回一个分区ID（0~numPartitions-1），也就是决定这个值是属于那个分区的。

November 30, 2015

过去, Paxos一直是分布式协议的标准，但是Paxos难于理解，更难以实现，Google的分布式锁系统Chubby作为Paxos实现曾经遭遇到很多坑。来自Stanford的新的分布式协议研究称为Raft，它是一个为真实世界应用建立的协议，主要注重协议的落地性和可理解性。在了解Raft之前，我们先了解Consensus一致性这个概念，它是指多个服务器在状态达成一致，但是在一个分布式系统中，因为各种意外可能，有的服务器可能会崩溃或变得不可靠，它就不能和其他服务器达成一致状态。这样就需要一种Consensus协议，一致性协议是为了确保容错性，也就是即使系统中有一两个服务器当机，也不会影响其处理过程。

October 14, 2015

【转载】从Hadoop到Spark的架构实践

#Spark #kernel

当下，Spark已经在国内得到了广泛的认可和支持：2014年，Spark Summit China在北京召开，场面火爆；同年，Spark Meetup在北京、上海、深圳和杭州四个城市举办，其中仅北京就成功举办了5次，内容更涵盖Spark Core、Spark Streaming、Spark MLlib、Spark SQL等众多领域。而作为较早关注和引入Spark的移动互联网大数据综合服务公司，TalkingData也积极地参与到国内Spark社区的各种活动，并多次在Meetup中分享公司的Spark使用经验。本文则主要介绍TalkingData在大数据平台建设过程中，逐渐引入Spark，并且以Hadoop YARN和Spark为基础来构建移动大数据平台的过程。

September 29, 2015

ubuntu中编译安装protobuf记录

#cpp

1.下载protobuf 下载地址：https://github.com/google/protobuf/releases

September 11, 2015

Java通过swig调用C++接口

#java #uwsgi

记录一下过程

September 10, 2015

spark1.3.1单机安装测试备忘

#Spark

1.下载,安装spark和scala: http://spark.apache.org/downloads.html 下载1.3.1的hadoop2.6版本. spark-1.3.1-bin-hadoop2.6.tgz 下载到本地之后直接解压即可: helight@helight-xu:/data/spark$ tar zxf spark-1.3.1-bin-hadoop2.6.tgz http://www.scala-lang.org/download/ 下载scala,2.11.6,也是直接解压即可: helight@helight-xu:/data/spark$ tar zxf scala-2.11.6.tgz

June 9, 2015

thrift maven编译运行

#thrift #java #scons

dependencies编译，pom.xml中加入build配置：

May 22, 2015

zookeeper原理2（转）

#ZooKeeper

ZooKeeper 是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。 Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在某些应用中使用，因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookeeper的目的就在于此。本文简单分析 zookeeper的工作原理，对于如何使用zookeeper不是本文讨论的重点。本文主要是对Zookeeper的是想原理进行分析说明。只有在熟悉实现原理之后才能把Zookeeper使用的更好。

January 22, 2015

zookeeper原理

#zookeeper

ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。分布式环境中大多数服务是允许部分失败，也允许数据不一致，但有些最基础的服务是需要高可靠性，高一致性的，这些服务是其他分布式服务运转的基础，比如naming service、分布式lock等，这些分布式的基础服务有以下要求：

January 22, 2015

docker镜像的创建和下载使用

#docker

首先查看已有的imags。 root@helight-Xu:/data# docker images REPOSITORY TAG IMAGE ID CREATED VIRTUAL SIZE debian latest 4d6ce913b130 3 days ago 84.98 MB ubuntu latest b39b81afc8ca 3 days ago 188.3 MB 8eaa4ff06b53 2 weeks ago 188.3 MB 这个在上一篇文章中介绍了如何下载已经提供的基础image包。http://zhwen.org/?p=876

January 20, 2015

docker初体验和使用笔记

#docker

在ubuntu13.10上体验docker 首先要检测以下你的内核版本 sudo uname -a Linux helight-Xu 3.11.0-26-generic #45-Ubuntu SMP Tue Jul 15 04:02:06 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux

January 20, 2015

为游戏分析设计的分布式数据存储系统

Spark在腾讯游戏数据分析和营销干预中的应用实践

使用Spark分析网站日志

腾讯游戏数据分析平台

Spark分区器HashPartitioner详解和扩展

分布式系统的Raft算法(转)

【转载】从Hadoop到Spark的架构实践

ubuntu中编译安装protobuf记录

Java通过swig调用C++接口

spark1.3.1单机安装测试备忘

thrift maven编译运行

zookeeper原理2（转）

zookeeper原理

docker镜像的创建和下载使用

docker初体验和使用笔记

分类

标签