MatrixOne v24.2.0.0 发布报告
我们非常高兴地宣布 MatrixOne 内核 v24.2.0.0 版本于 2024 年 11 月 01 日正式发布!
MatrixOne 是什么?
MatrixOne 是一款 AI 驱动的云原生超融合数据库,采用存算分离架构并充分利用云上的基础设施,兼容 MySQL,并且支持混合负载场景,结合向量数据类型和全文检索,能够高效处理生成式 AI 应用的多模态数据查询与管理场景。
功能概览
在这个全新的版本中,MatrixOne 数据库在 AIGC 方面提供了更多的特性,同时也在企业级高可用和容灾方面进行了大幅度提升。
MatrixOne 本次迭代对系统在生成式 AI 应用支持、容灾和稳定性方面做了大幅度提升,重点功能包括:支持对外部存储上的数据访问以及对非结构化数据的访问能力,提供了全文检索能力,提升了向量检索的性能、支持快照备份和基于时间点的数据恢复(PiTR)、CDC 和基于日志复制的主备集群容灾能力,并进一步提升了对 MySQL 的兼容性。随着这些新功能的引入,MatrixOne 正逐步成为企业构建 AI 驱动的智能数据管理平台的理想选择。
应用场景
MatrixOne 产品适用于以下应用场景。我们非常欢迎有以下业务痛点及需求的用户与我们联系进行试用测试。
生成式人工智能场景
MatrixOne 超融合数据库为生成式人工智能(Generative AI)提供了强大的多模态数据支持、实时检索和智能数据处理能力,构成了生成式 AI 应用的核心基础设施。在文本生成、图像生成等多模态场景中,MatrixOne 通过高效的数据管理、向量和混合检索、Python UDF 支持的数据清洗与预处理,以及 GPU 加速的实时推理能力,确保大规模数据集上的快速响应和高质量生成效果。无论是大数据量的访问与存储,还是在线推理和动态反馈,MatrixOne 都能够为生成式 AI 应用提供稳定、低延迟的支撑,帮助企业在 AI 驱动的创新中迅速落地、迭代和优化生成式 AI 应用。
时序数据应用场景
在现代 IoT 应用中,数以亿计的设备和传感器持续采集和传输数据,包括工业生产线、智能电网、智慧城市基础设施和自动驾驶车辆等,每天产生的实时数据量达 TB 级别。MatrixOne 超融合数据库针对 IoT 场景提供了高效的实时数据处理能力,支持毫秒级的高并发写入和快速检索,并具备优越的扩展性,应对峰值负载。其实时分析功能帮助企业从海量 IoT 数据中快速生成关键洞察,同时与机器学习模型无缝集成,将实时数据流直接引入模型进行预测和异常检测,适用于工业预测性维护、能效优化和智能监控等应用场景,从而全面满足 IoT 应用对高吞吐量、低延迟和智能数据管理的需求。
混合负载类型应用支持
在企业常用的 OA、ERP、CRM 等业务系统中,随着数据量和业务复杂性的增长,传统单机数据库往往难以满足高峰期的性能需求,尤其在月末、季末等关键时间节点上,通常需要高频分析和实时统计报表来支持决策。许多企业因此配置了独立的分析数据库,或采用分库分表的方式以减轻主库的查询负载。而 MatrixOne 的混合负载支持使企业无需额外系统,即可在单一数据库内同时满足业务和分析需求,通过实时数据分析确保高并发下的快速响应。MatrixOne 的扩展性则允许业务规模的无缝扩容,使得实时查询和统计在大规模数据增长的条件下依旧高效,确保企业在数据决策中的实时性、连续性和高效性,全面提升数据管理的灵活性。
企业级 SaaS 场景
随着企业级 SaaS 应用的迅猛发展,SaaS 开发必须兼顾多租户模型的需求。传统方案通常在多租户共享数据库实例和单租户独享数据库实例之间选择,但这会在管理成本与租户隔离性上产生矛盾。MatrixOne 天然支持多租户架构,提供租户间负载隔离和独立扩展能力,同时具备统一管理功能。这种架构能够有效降低管理成本,确保数据隔离性,提升运维效率,全面满足 SaaS 应用对成本控制、管理简易度和隔离性的多重需求,使其成为 SaaS 应用的理想数据库选择。
重点新功能
多模数据管理功能
MatrixOne 支持了通过 Stage 对象直接访问数据库外部的对象存储、远程文件系统和本地文件系统的直接访问能力,以及通过 datalink 类型直接访问存储系统上的文件的能力。这种能力对于在生成式 AI 应用中,通过 MatrixOne 构建数据管道的过程中非常有帮助,能够显著提升应用的开发效率,降低应用的运维成本。
针对文本或者 JSON 类型数据的全文索引
通过为表中的 JSON 或者 TEXT 类型的列创建全文索引,可以有效的提升 MatrixOne 在 AIoT 类型的应用上的性能,结合 MatrixOne 的 JSON 数据类型,可以进一步降低数据冗余,从而提升 MatrixOne 在 AIoT 场景中的竞争力。
向量检索
在这个迭代中,Matrixone 对向量检索功能进行了性能优化,使其能够在大规模的向量数据中能够快速的进行基于向量距离的检索。这种高效的检索能力,对于基于大型语言模型(LLM)和检索增强生成(RAG)技术的生成式人工智能应用尤为关键。
基于快照的备份和恢复
通过为集群或者租户创建数据快照的方式,能够迅速捕捉数据库在某一时刻的状态,并确保数据在出现故障或紧急情况时能够快速恢复。快照技术对系统性能影响极小,并且能够确保数据的一致性,从而保证数据的完整恢复,同时支持跨租户恢复,提升系统的灾难恢复能力。
基于日志复制的主备集群容灾
通过日志复制机制,将主数据库的事务日志同步到备库,实现主备集群的高可用和容灾能力。在主库发生故障时,备库能够快速接管业务,确保业务不中断。
基于时间点的恢复功能
通过记录初始快照后的所有数据改变,该功能允许用户在出现故障、错误操作或数据损坏时,将数据库恢复到某个精确的历史时刻,避免丢失重要信息。与传统的完整备份相比,它大幅减少了备份的存储开销,并提高了恢复效率。此功能为关键业务场景提供了灵活性和安全性,支持快速恢复,满足业务连续性和合规要求。
MatrixOne 到 MySQL 的 CDC
通过捕获 MatrixOne 数据库上的改变,并实时同步到下游的 MySQL 当中,从而实现 MatrixOne 到 MySQL 数据库的数据容灾。在用户从 MySQL 数据库迁移到 MatrixOne 之后,保留一条容灾链路。
表级别的发布订阅功能
在之前的迭代中,我们支持了数据库级别的发布订阅,本迭代进一步实现了更精细的表级别发布订阅。当数据发生变更时,表级别发布订阅可以将特定表的数据变更实时同步到订阅者,而不暴露其他表的信息,这相较数据库级别的发布订阅,提供了更高的灵活性和控制。
其他新功能
SQL 语句
- 支持 rename table
- 支持 create pitr
- 支持 drop pitr
- 支持 alter pitr
- 支持 restore pitr
- 支持 show pitrs
- 优化了 show publications
- 优化了 show subscriptions
- load data infile 命令支持按照用户指定的列名顺序加载数据
数据类型
- 支持 datalink 数据类型
索引与约束
- 增加全文索引 (fulltext Index)
函数与操作符
- 支持针对 json 数据类型的 json_row, jq, try_jq,json_extract_string,json_extract_float64 函数
- 支持对 now() 函数返回的日期进行加法或减法运算
工具
- mo-backup:支持管理 pitr
- mo_cdc:支持管理 cdc 任务
MySQL 兼容性
- 支持在 Select 语句的 where 条件中进行字符串的大小写不敏感的检索
- 支持 Encode()/Decode() 函数
快速开始
社区用户及企业开发者都可以通过以下命令一键部署 MatrixOne 进行试用。
docker pull matrixorigin/matrixone:2.0.0
本文档网站也提供详细的架构说明、安装指南和开发教程,帮助您探索 MatrixOne 的能力。 此外,我们的 https://github.com/matrixorigin/matrixone 网站和社区微信群欢迎您提问、讨论或反馈。
Known Issues
- 目前主备集群的容灾方案中,备集群不支持同步外部表、stage 中的数据。
- 目前主备集群的容灾方案中,备集群仅支持冷备份,不能以只读方式打开。
- CDC 仅支持表级别的数据同步。
- 快照备份目前仅支持集群和租户级别的备份,但可恢复至集群、租户、数据库或表级别。
- 快照和 PITR 备份无法恢复已被删除的租户数据。
更详细的更新日志
https://github.com/matrixorigin/matrixone/compare/v1.2.0...v2.0.0