Skip to content

数据中心

数据中心是统一的数据存储与管理枢纽,面向多模态数据场景进行设计,支持对结构化与非结构化数据的高效存储与组织,满足数据驱动业务在规模化、稳定性与可管理性方面的需求。同时,数据中心支持直接订阅来自 MatrixOne 实例的数据库表,实现业务数据的集中汇聚与持续同步,为分析、建模及智能应用提供可靠的数据基础。

数据组织结构说明

MOI 平台采用三级结构进行数据管理:目录 → 库 → 卷,以实现灵活、可控的数据隔离与组织。

  • 目录
    数据治理的最高层级单位,通常代表一个数据隔离区或生命周期阶段,如:生产目录、开发目录、非客户数据目录、敏感数据目录等,每个目录内的数据相互隔离,适用于权限分级和合规管理。


  • 目录下的数据分类单元,用于组织结构化或非结构化数据资源。一个目录中可包含多个库,便于按业务维度、数据类型或处理阶段细化管理。


  • 库下的存储单元,主要用于管理非表格类文件(如 PDF、图片、音频等)。卷是面向文件系统的逻辑容器。

每个工作区初始化时,系统会自动创建以下两个目录:

  • 系统目录
    用于存储平台运行过程中的系统数据,仅管理员可见和访问。

  • 默认目录
    为用户快速上手而预置的目录,不可以修改和删除,包含两个默认库:

  • 原始数据:不能修改和删除,用于存放用户上传的原始文件或数据,并内置样例数据卷存放工作流模版的样例数据。

  • 处理数据:不能修改和删除,用于存放经过清洗、解析、提取等处理后的数据成果

非结构化数据

结果展示

点击文件列表右侧的预览按钮可查看该文件的血缘信息。

结果下载

点击下载后,根据不同的最终节点,将下载不同的处理结果,处理结果是一个 zip,文件夹。

文件类型 最终处理节点 下载文件组成
文档 • 文档解析节点
• 数据清洗节点
• 分段节点
• json 文件(解析结果)
• md 文件(存放完整的解析后 markdown 内容)
• images 文件夹(存放解析生成的图片资源)
• tables 文件夹(存放解析生成的表格资源)
• 文本嵌入节点 • json 文件(解析结果)
• md 文件(存放完整的解析后 markdown 内容)
• images 文件夹(存放解析生成的图片资源)
• tables 文件夹(存放解析生成的表格资源)
• json 文件(包含 embedding 信息)
• 信息提取节点(原结构化提取节点) 经过解析节点:
• json 文件(提取)
• md 文件(存放完整的解析后 markdown 内容)
• images 文件夹(存放解析生成的图片资源)
• tables 文件夹(存放解析生成的表格资源)

不经过解析节点:
• json 文件(提取结果)
• tables 文件夹(存放解析生成的表格资源)
• 数据增强节点 经过解析节点:
• jsonl 文件 (存放增强生成的 QA 对)
• md 文件(存放完整的解析后 markdown 内容)
• images 文件夹(存放解析生成的图片资源)
• tables 文件夹(存放解析生成的表格资源)

不经过解析节点:
• jsonl 文件
图片 • 图片解析节点
• 数据清洗节点
• 分段节点
• json 文件(解析结果)
• images 文件夹
• 文本嵌入节点 • json 文件(解析结果)
• images 文件夹(存放解析生成的图片资源)
• json 文件(含 embedding)
• 信息提取节点 经过解析节点:
• json 文件(提取结果)
• images 文件夹(存放解析生成的图片资源)
• tables 文件夹(存放提取生成的表格)

不经过解析节点:
• json 文件(提取结果)
• tables 文件夹(存放提取生成的表格)
• 数据增强节点 经过解析节点:
• jsonl 文件 (存放增强生成的 QA 对)
• md 文件(存放完整的解析后 markdown 内容)
• images 文件夹(存放解析生成的图片资源)
• tables 文件夹(存放解析生成的表格资源)

不经过解析节点:
• jsonl 文件 (存放增强生成的 QA 对)
音频/视频 • 音频解析节点 / 视频解析节点
• 数据清洗节点
• 分段节点
• json 文件(解析结果)
• 文本嵌入节点 • json 文件(解析结果)
• json 文件(含 embedding)
• 信息提取节点 • json 文件(提取结果)
• tables 文件夹(存放提取生成的表格)
• 数据增强节点 • jsonl 文件 (存放增强生成的 QA 对)

结构化数据

结果展示

点击表名可以查看表的详情信息,包括行列信息,建表语句、抽样数据等。

结果下载

点击右侧的下载按钮可将表数据导出为 csv 文件