在4月份结束的数据库技术大会上,淘宝的DBA跟我们分享了他们的海量数据是如何处理的,这里就其典型案例诠释一下:
A、淘宝的数据库很大,数据仓库就更大了(说句废话),主要操作为只读查询操作(说句实在话)
B、淘宝数据现状:

C、数据特征:
淘宝网惊人的数据:每分钟的数据4万件是最保守的统计、28PB的总数据量、3000多的扫描数据量…这样的数据尽管很吓人,但是分布还是非常有特点的。通过消费信誉等因素让消费比较集中在某些部分,这也让淘宝面对数据量很大但是压力还是比较容易处理。
对应思路:数据分割(垂直分割、水平分割)
通过用户行为的分析与整理发现很多共性,但是不是所有消费行为都具备非常明确的周期性。如:网上充值业务,它已被消费者认可,并逐步成为习惯,是一种趋势已经有非常高的规律周期性
通过对淘宝的数据挖掘分析还有很多如下类似的情况:

淘宝不同的实现的系统框架
通过数据挖掘分析
A、消费者的行为信息实际上为企业经营和规划会起到很关键的作用。
B、能够通过这样的用户行为基础数据的分析建立一个变量构造模块,我们可以通过分析变量预测未来的结果库。
C、结果库可以被各种应用所利用。
规划策略

本站技术原创栏目文章均为中睿原创或编译,转载请注明:文章来自中睿,本站保留追究责任的权利。