×
img

去哪儿网:Alluxio帮助去哪儿酒店数据业务最高提速300x

发布者:wx****3f
2016-08-08
2 MB 23 页
大数据
文件列表:
Alluxio帮助去哪儿酒店数据业务最高提速300x.pdf
下载文档
第一段 (Qunar酒店数据业务的简介): Qunar酒店数据部门驱动了公司酒店业务的数据化决策和数据化运营工作;具体工作包括基于hive的离线数据仓库,基于Storm/Spark Streaming的实时数据仓库,以及基于Spark,通过机器学习驱动的智能定价系统。通过使用Alluxio,我们的实时仓库系统效率得到了很大提升,我们的模型训练效率也有显著提升。第二段 (Qunar酒店数据利用Alluxio加速Spark Streaming): 我们利用Alluxio提供的分布式缓存机制,配合分层存储机制,将Spark Streaming运行过程中的数据,如block,checkpoint,计算结果等数据,存储到内存、SSD两种存储资源中,并利用Alluxio提供的缓存策略,保证热数据存储在更快的存储(内存)中,同时计算结果写入Alluxio并同步给underfs(HDFS),减少整个mircobatch的迭代时间,通过Spark Streaming on Alluxio,我们不但在降低了数据在不同的数据中心的加载延时,更得到了最高300x的数据提速,极大的缩短了数据计算/验证的时间。第

加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>