小红书数据湖迁云成功,500PB数据零故障迁上阿里云

发布:2024-11-07 09:43:22 阅读:391

近日,银柿财经从相关渠道获悉,小红书成功完成了业界迄今为止最大规模的数据湖迁移项目,将整个数据湖无缝迁移至阿里云平台,且全程未出现任何故障。这一壮举标志着小红书在数据处理和存储领域迈出了重要一步。

据悉,此次迁移项目涉及的数据量高达500PB,参与人员超过1500人,横跨40多个部门。作为中国领先的互联网公司之一,小红书的月活跃用户数已超过3亿,其数据湖中存储了过去11年的所有原始数据,包括结构化、半结构化和非结构化数据。随着业务的快速增长,小红书对数据处理的需求日益增加,而离线处理所积累的历史问题也给未来的数据切换带来了更大的挑战和成本。

为了应对这些挑战,小红书于2023年11月启动了迁云项目,计划在一年的时间内将数据湖迁移至阿里云。迁移至阿里云后,数据湖可以通过多个OSS Bucket纳入统一资源池,实现资源的高效共享和利用。这种流控能力使得小红书在面对复杂业务场景时,能够灵活调配资源,降低不同业务租户间的互相影响,提高数据处理的效率和准确性。

迁云项目经历了三个阶段。在第一阶段,项目组首先制定了统一的标准,并根据这些标准对数据进行治理。在第二阶段,即2024年5月正式进入双跑阶段,项目组将数据拷贝到阿里云上,并同时运行两边的数据处理任务,以验证数据的正确性和及时性。在第三阶段,即2024年8月,项目结束了双跑阶段,进入割接阶段。在阿里云团队的全程保障下,割接过程顺利完成。

此次迁移项目不仅涉及的产品众多,而且数据体量之大也创下了业界纪录。在0故障的情况下,小红书成功迁移了500PB的数据,完成了11万个数据处理任务。这一项目的成功实施,不仅提升了小红书的数据处理能力,也为其未来的业务发展奠定了坚实的基础。同时,这一项目的成功也展示了阿里云在数据处理和存储领域的强大实力和技术优势。

热门产品

查看更多