Notion 如何处理 2000 亿个数据实体？

发表于 2024-08-21 | 分类于 Datalake | 阅读次数: |

| 字数统计: 1,108 | 阅读时长 ≈ 4

介绍

如果你用过 Notion，你就会知道它几乎可以让你做任何事情–记笔记、计划、阅读清单和项目管理。

Notion 非常灵活，可以定制用户喜欢的模板。Notion 中的一切都是块，包括文本、图像、列表、数据库行甚至页面。

这些动态单元可以转换成其他块类型，也可以在 Notion 中自由移动。

Blocks are Notion’s LEGOs.

最初，Notion 将所有数据块存储在 Postgres 数据库中。

2021 年，他们拥有超过 200 亿个区块。

现在，这些区块已经增长到两千多亿个实体，2021 年之前，他们将所有区块都放在一个 Postgres 实例中。
现在，他们将数据库分割成 480 个逻辑分片，并将它们分布在 96 个 Postgres 实例上，每个实例负责 5 个分片。

在 Notion，Postgres 数据库负责处理从在线用户流量到离线分析和机器学习的所有事务。

认识到分析用例的爆炸性需求，特别是他们最近推出的 Notion AI 功能，他们决定为离线工作负载建立一个专用的基础架构。

2021 年，他们开始了简单的 ETL 之旅，使用 Fivetran 将数据从 Postgres 采集到 Snowflake，每小时使用 480 个连接器将 480 个分片写入原始的 Snowflake 表。

然后，Notion 会将这些表合并成一个大表，用于分析和机器学习工作负载。

但当 Postgres 数据增长时，这种方法就会出现一些问题：

管理 480 个 Fivetran 连接器简直就是一场噩梦。

Notion 开始建设内部数据湖。

他们希望建立一个能提供以下功能的解决方案：

2022 年，他们启用了内部数据湖架构，该架构使用 Debezium 将数据从 Postgres 增量摄取到 Kafka，然后使用 Apache Hudi 将数据从 Kafka 写入 S3。

对象存储将作为消费系统的终端，为分析、报告需求和人工智能工作负载提供服务。

他们使用 Spark 作为主要数据处理引擎，处理湖泊顶部的数十亿个数据块。
从 Snowflake 迁移的数据摄取和计算工作负载可帮助他们大幅降低成本。
Postgres 的变化由 Kafka Debezium Connector 捕捉，然后通过 Apache Hudi 写入 S3。

Notion 之所以选择这种表格格式，是因为它能很好地应对更新繁重的工作负载，并能与 Debezium CDC 报文进行本地集成。

下面简要介绍一下他们是如何实现该解决方案的：

每台 Postgres 主机一个 Debeizum CDC 连接器。

-------------The End-------------

cloud sjhan wechat

subscribe to my blog by scanning my public wechat account