Skip to content

MatrixOne Intelligence 2025 发布报告

2025 年 01 月 12 日

功能

  • PDF 新增公式解析能力

PDF 中的公式现在可以被准确识别并转换为标准 Markdown 公式,支持直接复制和编辑,同时保留原始公式图片用于对照校验,减少公式还原和修改成本。

  • 分段功能支持按照层级感知

分段功能支持按照层级感知的方式去进行分段操作,避免把不同标题/章节下的文本放在同一个 chunk 内,保证语义的完整性

错误修复

  • 修复部分情况下大文件解析可能会被卡住的问题;
  • 修复了部分情况下 docx 解析失败的问题;
  • 修复了表格中的图片无法解析的问题;
  • 修复了文档中的表格没有解析出换行的问题;
  • 修复了时序图/流程图的 caption 里信息错误的问题;
  • 修复了 nl2sql 步骤序号重复的问题;
  • 修复了表格里合并单元格的内容提取时有丢失的问题。

2025 年 12 月 31 日

功能

  • API 功能扩展

    • 工作流 API 新增对 GIF、WebP 格式文件的处理能力,提升多媒体文件兼容性,拓展自动化处理场景。
    • 新增处理结果下载 API,支持获取包含原始文件的完整结果,便于结果校验、问题回溯及后续处理。
  • 私有化部署支持按文件页数配置超时时间

私有化部署支持按文件页数灵活配置处理超时时间(如 xx 秒 / 页),有效降低大文件处理超时风险,提升任务执行稳定性。

错误修复

  • 修复了部分场景下文件解析重复的问题

2025 年 12 月 18 日

功能

  • 工作区支持对 Table 权限管理

工作区新增 Table 对象权限管理能力,支持对表对象以及行列级别数据进行精细化访问控制,用户可根据不同角色与业务场景灵活限定数据可见范围,在保障数据安全与合规的前提下,实现同一工作区内的数据共享与高效使用,满足分析、NL2SQL、智能体等多种数据访问场景需求。

  • 信息提取节点功能增强

本次版本对信息提取节点能力进行了增强,新增多文件合并提取功能,支持从多个文件中统一抽取并整合信息,满足跨文件信息汇总与分析需求。同时,支持上传本地 JSON 文件自动生成提取 Schema,显著降低复杂场景下的配置成本,提升信息整合效率与易用性。

  • 非结构化数据载入支持更多功能

新增对压缩文件的自动解压支持,并在载入过程中基于文件名与 MD5 实现智能去重,有效避免重复数据带来的存储与处理成本。同时支持按文件类型及文件路径的正则规则进行精细化过滤,帮助用户更高效地管理海量非结构化数据,提升数据准备效率与数据质量。

  • 支持 MatrixOne 实例数据发布至 GenAI 工作区

新增支持将 MatrixOne 实例中的库表发布至 GenAI 工作区使用。 GenAI 工作区可通过订阅方式直接获取业务表数据,用于 NL2SQL 场景,提升 AI 对结构化数据的理解与查询能力,实现数据与 AI 应用的高效联动。

  • 工作区支持 SQL 形式 API

支持以 SQL 形式的 API 执行 CREATE TABLE、INSERT、UPDATE 等操作。通过该能力,调用方可通过统一的 SQL API 完成表结构管理及数据写入、更新,降低接口使用复杂度,提升数据操作与自动化能力。

  • 新增删除工作区功能

工作区新增删除能力,支持对不再使用的工作区进行清理。通过该功能,可减少无效资源占用,提升工作区管理的灵活性与整体运维效率。

错误修复

  • 修复了不同角色权限赋给同一个用户,用户查不到数据的问题;
  • 修复了数据增强 style_prompt 太长报错的问题。

2025 年 11 月 28 日

功能

  • 支持结构化数据载入

本次迭代新增结构化数据载入功能,支持将 CSV、XLSX、XLS 等表格文件作为表对象引入数据中心,直接参与后续的 NL2SQL 分析与查询。该能力完善了结构化数据的接入方式,使业务数据能够以标准表结构纳入系统,显著提升数据导入的效率与可用性。

  • 支持 NL2SQL

MOI 即日起正式发布自然语言转 SQL(NL2SQL)能力。用户可在“数据探索”界面直接以日常语言提问,系统将自动生成并执行对应 SQL,无需手写语句。同时,界面支持同时选择数据表与多模态文件,实现结构化与非结构化数据的联合检索。 系统内置业务逻辑规则、领域同义词库、知识名词解释及优化示例,并可根据语义配置持续迭代,让 NL2SQL 在不同业务场景下保持更高的准确度与可用性。

  • 新增 MOI 原子能力 API

此次更新新增了对本地文件的全面支持,API 现已能够同时处理公网可访问文件与本地上传文件,满足多样化的数据接入需求。同时,我们解耦并开放了分段、嵌入及信息提取这些核心节点的原子能力。这一改进将显著降低使用 API 编排工作流的复杂度,帮助用户更更高效、低门槛地在 MOI 上构建工作流处理数据。

  • DOC 类型文档支持解析页眉页脚

系统现在可以同时识别并解析文档的页眉与页脚内容。这意味着在进行非结构化数据载入或文档知识库构建时,原先位于页眉/页脚的重要信息(如标题、页码、日期、文档编号、版权声明等)将被完整纳入解析结果中,提高内容还原度,确保文档信息不遗漏,为搜索、问答与内容理解提供更加完整的数据基础。

错误修复

  • 修复了数据血缘旧数据不兼容的问题;
  • 修复了在文档解析节点中关闭 OCR 和 Caption 配置未生效的问题;
  • 修复了 PPT 和 DOC 文件解析结果详情页显示图片类型没有展示是 OCR 还是 Caption 的问题。

2025 年 11 月 13 日

功能

  • 支持数据血缘追溯功能

本次更新实现了对源文件在工作流中每个处理节点的完整追踪与可视化,支持清晰展示数据从源头到最终结果的流转路径。通过工作流全链路中间结果的透明呈现,用户可以直观了解数据在各节点的转换过程及其依赖关系,显著提升系统的可观测性和调试效率。

  • 智能搜索上线

现在,moi 已支持在平台内直接对处理后的文件进行智能检索,无需再导出到 Dify。新的多模态 RAG 搜索能更准确理解内容,未来还将结合 NL2SQL,实现结构化与非结构化数据的融合搜索体验。

  • 解析分段方式重构

针对不同文件类型,细化并重构了解析分段策略,提升了下游应用(包括 RAG 和文档智能)的数据丰富度和适配性。通过针对性地设置分段规则,确保解析结果更贴合 RAG 模型对数据的需求,进一步提升整体处理效果和应用体验。

  • Mone 助手升级上线;

本次升级采用 moi 自有的文档解析分段逻辑,并同步接入最新产品数据。现在,MOne 能更准确地理解文档结构,提供更贴合场景、更高质量的回答,助您更高效地获取所需信息。

  • MOI 原子能力 API

MOI 原子能力 API 是一套面向用户的快速上手接口集合,将文件上传、解析、分段、嵌入、清洗、数据增强等能力封装为独立可调用的原子功能,无需创建复杂的工作流。当前已开放的功能包括文件上传、解析及结果下载。

  • 工作流支持处理 csv 文件格式

工作流模块现已扩展数据处理能力,支持导入与解析 CSV 文件,进一步提升文件兼容性与自动化处理能力。

  • 解析文件增加更多信息

本次更新补全了解析后 MD 文件中的 OCR 和 Caption 关键信息,确保 MD 内容基于 JSON 的完整数据生成,实现两者信息高度一致与准确,提升数据完整性及应用效果。

错误修复

  • 修复了部分情况下数据增强工作流文件处理失败的问题;
  • 修复了部分情况下数据导出的分页功能不可用的问题;
  • 修复了 excel 接入工作流,带有增强节点的工作流下载不正确的问题;
  • 修复了 excel 接入工作流,数据清洗节点下载后敏感信息未去除的问题。

2025 年 10 月 31 日

功能

  • MOI × Deerflow 集成支持

MOI 现已与开源 RAG 应用开发引擎 Deerflow 深度集成,为开发者提供一站式的检索增强生成(RAG)应用构建方案。通过该融合,用户可在 MOI 平台中灵活创建数据处理工作流,并无缝连接 Deerflow,实现从数据预处理、索引构建到智能生成的完整闭环。

  • 工作流支持处理更多文件格式

工作流模块现已扩展文件处理能力,全面支持 XLSX、XLS 数据文件及 HTML 格式。通过此次更新,用户可在工作流中直接导入并解析多种常见数据源,无需额外转换步骤,从而显著提升数据处理的灵活性与效率。

  • 工作流模版国际化

工作流模板现已实现国际化,除了中文模板外,新增了英文模板和样例文件,方便海外用户更好地使用和配置工作流。

  • 支持导出到 dify 失败重试操作

针对导出至 Dify 可能因模型速率或系统异常导致失败的问题,现已新增重试导出功能。导出失败后,用户可直接点击“重试”重新发起导出,多次失败可重复尝试,有效避免文件重复并提升导出成功率。

  • 工作区支持授权登录

用户已登录 MOI 平台了,可以让用户在使用工作区的时候不用再次输入密码,所以增加一个授权登录的操作,方便用户快速使用工作区。

错误修复

  • 修复了部分情况下数据卷中文件无法删除的问题;
  • 修复了 agent 工作流选择原始数据卷后,无法继续下一步的问题;
  • 修复了在没有识别到文件的情况下,Agent 工作流依旧推荐出工作流,点击执行报错的问题;
  • 修复了连接器载入,勾选载入的文件后自动跳到上一层目录的问题。

2025 年 09 月 11 日

错误修复

  • 修复了智能创建工作流 - 创完之后命名不对,且源数据显示为空的问题;
  • 修复了删除工作流后,没有删除对应的数据,在数据中心删除这个卷时,依旧提示被删除的工作流在使用的问题;
  • 修复了智能创建工作流,智能构思完成率很低的问题;
  • 修复了加入共享的工作区后,去处理后的数据卷里对文件进行任何操作都报没有权限的问题;
  • 修复了加入共享的工作区后,用户角色权限页面报错,新建的告警规则在原工作区也看不到的问题;
  • 修复了我加入的工作区和我自己的工作区不能重名的问题;
  • 修复了数据载入 - 暂停后修改载入文件,未生效的问题;

2025 年 09 月 09 日

功能

  • 工作流支持 Agent 模式

工作流现已支持 Agent 模式,可基于用户意图与数据自动判断并决策执行路径,大幅提升流程的智能化与灵活性。用户无需手动编排复杂逻辑,即可构建具备“感知 + 决策 +行动”能力的自动化任务,从而降低操作成本、提升效率与适应性。

  • 数据库平台快速开始

如果数据库实例列表为空,本版本将提供一步步引导,帮助用户快速上手数据库管理平台。在引导过程中,用户可创建并登录实例,同时通过体验 TPC-H 测试集,从而加速对平台核心功能的理解与使用。

错误修复

  • 修复了 pdf 中表格解析主体和标题顺序颠倒的问题;
  • 修复了工作区 - 告警:选了告警周期,保存成功后,再看还是仅告警一次的问题;
  • 修复了某些情况下数据载入暂停不了的问题;
  • 修复了创建工作流选择处理的文件名过长时前端显示有误的问题;

2025 年 09 月 05 日

优化

  • 优化了登录页面 UI 布局;

错误修复

  • 修复了卷 (旧卷) 被工作流作为处理卷后,还可以被其他工作流引用为处理数据卷的问题;
  • 修复了使用 mcp 创建工作流,工作流创建失败的问题;
  • 修复了 MOC 上的来回点击终止实例和可用实例没反应的问题;
  • 修复了信息提取节点 - 使用多模态模型处理文件出现耗时比较久的问题;
  • 修复了创建工作流,选择文件处理,选择一个文件,在数据中心处理卷中有两份处理后的数据的问题;
  • 修复了工作流模版中的人才简历最终处理文件为 null 的问题;
  • 修复了数据增强节点 alpaca 数据格式,指令内容和输出内容应该设置为空,否则默认的信息会影响增强的结果的问题;
  • 修复了连接器列表中按照类型进行筛选,出现“本地数据”的选项的问题;
  • 修复了删除工作流,在作业中点击工作流名称跳转至工作流详情,页面偶现报错服务连接失败的问题;
  • 修复了新建的工作区立即切换,还是在当前工作区,需要重试几次才能成功的问题;
  • 修复了某些情况下 MatrixOne 连接器创建失败的问题;
  • 修复了数据管理 - 数据中心 - 跨目录新建相同名字的数据库失败的问题;
  • 修复了文档解析节点和图片解析节点中的 Caption 和 OCR 开关无法关闭的问题;
  • 修复了创建工作流分支时,分支名存在时,报错创建失败的问题;

2025 年 08 月 29 日

功能

  • HDFS 连接器支持 Kerberos 模式

HDFS 连接器现已支持 Kerberos 认证模式,通过集成企业级统一身份认证机制,进一步提升了数据访问的安全性与合规性,同时保持与原有简单认证模式的兼容性,可根据实际需求灵活切换。

  • 信息提取节点多模态模型支持更多文件类型

在本次迭代中,信息提取节点的多模态模型扩展了文件类型支持范围,从此前仅支持 PDF 扩展至工作流中的所有文档和图片类型,实现了对更多数据格式的处理能力。

错误修复

  • 修复了信息提取节点 - 文档解析 + 提取节点处理后,查看解析结果页面出现接口报错的问题;
  • 修复了导出到 S3 - 选择导出连接器的选择框 placeholder 显示的文案不对的问题;
  • 修复了信息提取节点使用多模态模型处理 md 文件,作业的处理文件列表里没有 md 文件的记录的问题;
  • 修复了部分情况下创建工作流时未产生作业的问题;
  • 修复了在创建并删除某个受邀 MOI 账号用户后再次添加时,会在该账号下生成重复工作区的情况;
  • 修复了导出到 MO - 选择已存在的表 - 选择重复文件覆盖策略,如果 file_id 映射到的目标字段值包含空的,导出任务失败的问题;
  • 修复了导出 MO - 选择重复数据跳过策略 - 不管 file_id 有没有重复都会跳过的问题;
  • 修复了数据中心 - 工作流里有信息提取节点(上游接解析节点),文件解析结果页报错的问题;
  • 修复了信息提取节点 - 上游是解析节点,下载解析结果只有分块的 json 文件,而且分块是空的问题;
  • 修复了旧账号没有展示注册时输入的手机号的问题;
  • 修复了 "我加入的工作区" 如果被禁用,还是能切换,在我的工作区列表里没有标记为已禁用的问题;
  • 修复了工作区密码验证错误时报错信息均是:local service login error: 的问题;
  • 修复了工作流选择的原数据卷里有多个文件,作业详情里文件列表翻页出现重复的文件的问题;
  • 修复了 hdfs kerberos 连接器创建成功后点击编辑报错 (r || []). forEach is not a function 的问题;
  • 修复了已被占用数据卷还能被新创建工作流使用的问题;
  • 修复了本地上传文件没有触发,载入触发模式下的工作流的问题;

2025 年 08 月 22 日

错误修复

  • 修复了作业列表中,点击目标位置进行跳转,没有跳转到指定位置的问题;
  • 修复了 GenAI 工作区通知邮件内容有误的问题;
  • 修复了音频解析结果,没有按照时间排序的问题;
  • 修复了工作区 - 角色管理:用户没有任何查看的权限时,界面右上角的用户信息也看不到的问题;
  • 修复了导出 dify 是标题合并文本有误的问题;
  • 修复了分段节点中设置 overlap 后出现部分文本块内容出来两次重复的问题;
  • 修复了导出到 dify 的导出任务一直在导出中的问题;
  • 修复了大文件查看解析结果加载过慢的问题;
  • 修复了数据导出一直显示进行中的问题;
  • 修复了导出到 MO - 同时导出多个文件,出现很多文件导出失败,并且任务新建完,任务详情页报错的问题;
  • 修复了查看视频文件原始文件时,无法播放的问题;
  • 修复了数据卷路径展示有误的问题;
  • 修复了预览文件时,展示的内容与文件不一致的问题;
  • 修复了导出对象存储,导出任务重名时前端未发出告警消息的问题;
  • 修复了每次登录后默认使用最新创建的工作区,而不是最近使用的工作区的问题;
  • 修复了数据卷上的面包屑点击后页面报 Not Found 的问题;
  • 修复了账户管理页绑定邮箱报错的问题;
  • 修复了导出到存储对象时选择不压缩失败的问题;
  • 修复了实例详情页面报 not found 的问题;
  • 修复了工作区数量上限限制未生效的问题;
  • 修复了删除暂停的工作流报错的问题;
  • 修复了数据中心点击层级目录,报错 not found 的问题;
  • 修复了导出任务详情 - 导出的文件列表每页最后 1 个文件都是相同的问题;
  • 修复了创建工作流,选择类型和拓扑图不一致时,拓扑图处理不了的类型,处理后的文件为空,状态为处理成功的问题;
  • 修复了数据中心 - 原始文件预览出现文件倒着显示的问题;
  • 修复了预览处理文件时,原文件不能展示,报错 file id not exist 的问题;

2025 年 08 月 15 日

功能

【功能一】Saas 用户体验优化

为提升用户体验,平台做了如下优化

  • 账户体系升级:支持手机或邮箱注册登录,实现官网与 MOI 账号统一使用,一次登录即可访问多个平台。
  • 产品工作区分离:MatrixOne 与 GenAI 工作区独立,产品边界清晰,同时支持无缝切换。
  • 快速上手模块:新增快速开始功能,将核心流程和功能整合,帮助用户快速熟悉产品。
  • 流程辅助优化:在数据处理及工作流中增加操作辅助与帮助提示,使使用流程更顺畅、直观。

【功能二】数据中心支持多层结构

为进一步增强多模态数据的组织与管理能力,平台全新推出三级数据中心结构:目录 → 库 → 卷,支持更灵活的数据隔离策略与精细化管理。

  • 目录:数据治理的最高层级,通常对应一个数据隔离区或生命周期阶段(如:生产目录、开发目录、敏感数据目录等),有助于实现权限分级与合规管控。
  • 库:位于目录之下,用于分类组织结构化与非结构化数据资源。支持按业务类型、数据特性或处理阶段进行灵活划分。
  • 卷:属于库的子级,专用于存储非结构化文件。卷作为文件系统的逻辑容器,为多模态内容提供高效的归档与访问能力。 该能力将进一步提升平台在数据隔离、权限控制、多模态内容管理方面的灵活性与安全性,满足多样化业务场景下的数据组织需求。

【功能三】新增工作流模版

为满足多样化业务场景需求,平台新增多款实用工作流模版,覆盖文本解析、数据提取、内容生成等典型应用场景。用户可通过模版快速搭建自动化流程,降低配置难度、提升部署效率。同时,我们为每个模版提供了对应的样例数据,方便用户快速理解使用方式,开箱即用。 当前支持的模版包括:

  • 图文混合文档 RAG 数据准备:支持结构化处理含文字与图像的复杂文档,用于构建多模态检索增强生成场景。
  • 人才简历信息提取:可自动提取简历中的核心字段,实现人才数据结构化管理。
  • 法律知识微调数据生成:从法律文本中提取高质量问答对,用于构建法律领域的专属问答系统或大模型微调训练数据。

【功能四】信息提取节点功能增强

信息提取节点新增多款内置模版,支持财务报告(含报表)、发票、简历等常见文档的结构化提取,用户无需手动定义 schema,显著降低使用门槛。 同时引入多模态模型 Qwen2.5-VL-32B-Instruct,支持无需解析节点,直接进行信息提取。该模型大幅提升图文混合内容的理解与抽取能力,实现对复杂表格、图片、文字等多维信息的精准识别与结构化处理,极大增强多模态文件的提取效果。

【功能五】新增支持多平台数据导出

新增支持将处理结果导出至 MatrixOne、标准 S3 及阿里云 OSS,进一步增强平台的数据集成能力,满足用户在多种存储系统中的接入需求,助力企业实现更高效的数据流转与管理。

【功能六】工作流一次处理模式下支持文件选择

细化了文件处理的粒度,之前仅支持按文件类型处理,现新增支持在一次处理模式中按单个文件进行精细选择和处理,提高灵活性和控制力。

【功能七】支持表格类型解析

新增支持表格结构识别与解析,提升复杂文档中表格数据的提取能力。

优化

  • 数据清洗节点至少开启一个清洗规则;
  • 工作流节点优化了上下游关系限制;

错误修复

  • 修复了导出到 dify 中导出任务详情中文件列表里,文件时间戳和选择的时区不匹配的问题;
  • 修复了在某些情况下本地上传文件失败的问题;
  • 修复了解析 pdf 文档中的表格会丢失一些文字的情况;
  • 修复了部分情况下工作流分支名显示错误的问题;
  • 修复了导出 dify 时文件不全的问题;
  • 修复了数据中心中的 md 类型原始文件没有预览按钮的问题;
  • 修复了数据卷中 md 后缀的文件过滤不出来的问题;
  • 修复了作业详情中,执行详情过滤处理成功的展示没有联动的问题;
  • 修复了图片 ocr content [未识别到字符或者置信度太低] 也当作文本内容进行 embedding 了的问题;
  • 修复了被删除的工作流,作业详情中的目标位置跳转,跳转到数据中心,默认展示为暂无数据的问题;
  • 修复了 word 和图片类型文件中下载的 images 文件夹里图片重复的问题;
  • 修复了工作流无法处理 md 文件的问题;

2025 年 07 月 31 日

功能

  • 工作流支持分段节点

将文档解析节点中的分段功能拆分为独立节点,提升了解析流程的模块化与灵活性。用户可根据实际需求,自由组合调用分段能力,实现更灵活的工作流设计。

优化

  • 工作流分支对比功能优化,支持更多节点类型,实现更全面的分支比较能力;

错误修复

  • 修复了 1000 页 PDF 数据处理失败的问题;
  • 修复了一些前端文案错误;
  • 修复了工作流中图片描述语言无法修改为英文的问题;

2025 年 07 月 24 日

优化

  • 优化了文本分段方式,不再按照解析块去分,而是按照整个文档内容去切;

错误修复

  • 修复了新建工作区没有“数据开发”这一角色的问题;
  • 修复了连接器列表接口超时问题;
  • 修复了工作区中用户登录后被管理员删除或禁用后还能继续操作的问题;

2025 年 07 月 17 日

功能

  • 数据载入支持 HDFS

为了进一步提升企业用户在大数据场景下的数据整合与分析能力,GenAI 工作区正式新增对 HDFS 的数据载入支持。用户可直接从分布式文件系统中高效导入大规模数据,为复杂查询与智能分析任务提供坚实的数据基础。

优化

  • 将“文本解析节点”更名为“文档解析节点”,以更准确反映处理对象;
  • 优化了官网 demo 的 UI;

错误修复

  • 修复了 pdf 文档解析后预览 err 的问题;
  • 修复了英文版平台部分翻译有误的问题;
  • 修复了导出连接器速度慢,加载超时的问题;
  • 修复了导出到 dify 中文件的 block 顺序与平台不一致的问题;
  • 修复了导出到 dify 后,文件分块出现重复的情况;
  • 修复了 DOC/PPT 文件解析完后下载的 full.md 文件显示 "Document conversion to Markdown has been disabled" 的问题;
  • 修复了大文件解析耗时过长,导致超时解析失败的问题;
  • 修复了工作流解析节点只接一个图片解析节点不接文本解析节点,处理结果为空的情况;

2025 年 07 月 10 日

功能

  • 导出到 Dify 新增“标题并入正文”选项

为避免短标题单独分块导致检索效果下降,支持将标题内容合并到相邻正文中,提升 RAG 结果完整性与相关性。

错误修复

  • 修复了 pdf 文件解析后 OCR 和图片描述数量不一致的问题;
  • 修复了数据载入的时候,选择目录出现少文件的情况;
  • 修复了某些情况下创建载入任务,所有文件都是待载入状态的问题;
  • 修复了创建工作流,文件类型选择 pdf,处理流程选择图片解析节点,数据卷里的所有数据均被选中处理了的问题;
  • 修复了升级前的工作区的管理员没有导出相关权限的问题;

2025 年 07 月 05 日

功能

  • 工作流支持结构化提取节点

新增结构化提取节点,结合 JSON Schema 标准与 AI 模型能力,能够对解析节点生成的文本内容进行智能识别与字段提取,自动生成符合规范的结构化数据。该功能有效提升了非结构化文档的处理效率,实现从原始文本到结构化数据的高效转换,便于后续存储、分析与知识构建。

此外,为帮助用户快速上手并集成使用,我们同步推出了结构化提取相关的快速开始 API,将核心能力模块化封装,支持便捷调用与灵活对接,加速结构化数据提取功能的落地应用。

  • 数据增强节点支持更多数据格式

数据增强节点现已新增支持 ShareGPT Format、OpenAI Format 及自定义格式三种输出方式。通过可视化配置界面,用户可灵活组合字段、调整输出参数,按需生成符合不同应用场景的数据格式,显著提升数据处理的灵活性与适配能力。

  • GenAI 工作区支持 MCP 协议

GenAI 工作区现已全面支持 MCP 协议,使模型能够以标准化方式调用平台 API,实现多工具协同与任务链路自动规划。通过 MCP 协议,模型可根据用户输入智能拆解意图,自主完成任务路径规划与多步骤工具调用,进一步降低用户操作门槛,提升平台的智能化和自动化能力。

  • 支持解析结果与原文对比功能

现已上线解析结果高亮展示功能,支持在原始 PDF 文件中基于页面布局(layout)定位并高亮对应的解析字段。用户可通过页面结构与解析结果的对应关系,直观对比提取效果,快速评估解析准确性与模型表现。目前仅支持 PDF 文件,后续将逐步扩展更多格式。

  • 官网体验中心上线

官网体验中心上线第一个体验 Demo,旨在帮助用户快速了解 MOI 在文档解析领域的综合能力,集成了结构化抽取、文档解析和文档对话三大核心功能。通过 Demo,用户可直观体验系统如何精准提取关键字段,将非结构化文本转化为结构化数据;如何深度解析文档内容,支持多格式和复杂版面;以及如何通过智能对话,实现基于解析结果的自然语言问答,快速获取所需信息,全面展现 MOI 在文档理解和智能交互方面的技术实力与应用价值。

用户可免登录体验 Demo 中的样例数据,若需使用自有数据则需登录。为提升用户体验,官网新增了手机号快速注册与登录功能,方便用户便捷访问和快速上手。

  • 处理数据支持导出到 Dify

新增数据导出连接器功能,当前支持将处理后的数据直接导出至 Dify 知识库,便于用户快速构建和更新知识库内容,提升数据利用效率。

  • 工作流支持文本嵌入节点

将原有文档解析节点和图片解析节点中的文本嵌入功能拆分独立,形成单独的文本嵌入节点。此举提升了解析流程的模块化和灵活性,方便用户根据实际需求灵活组合和调用相关能力。

  • 文件与图片解析节点支持 OCR、图片描述及语言切换开关

支持在文件解析节点和图片解析节点中新增 OCR 和图片描述的开关配置。用户可根据实际需求灵活启用或关闭相关功能,提升解析流程的可控性与适配性。其中,图片描述功能现已支持语言选择,可在中英文之间切换,满足不同场景下的语言输出需求。

  • 新增结构化抽取快速开始 API

为了帮助用户快速上手并体验我们的产品,我们构建了一套快速开始 API,用于将核心单点能力模块化抽取。本期新增了结构化抽取相关的快速开始 API,方便用户快速集成并高效调用结构化数据提取功能。

  • 支持更多文本分段方式

文本分段节点新增支持按单个标志符、多个标志符以及自定义标志符进行分段,进一步提升文本处理的灵活性和适配能力。用户可根据实际业务需求灵活设置分段规则,实现更加精准、高效的文本切分操作。

  • 支持解析文档标题

解析结果现已支持对文本标题进行细粒度识别,新增一级标题,某些场景下支持二级标题、三级标题子类型分类,进一步提升文档结构理解能力。该能力有助于更准确地还原原文层级结构,支持后续更精细的内容抽取与知识构建。

改进

  • 优化了工作流界面,提升整体操作体验;
  • 优化了创建工作流时的校验逻辑,增强流程规范性与稳定性;
  • 优化了本地文件上传界面,使上传过程更加直观便捷;
  • 优化了分段里有关 type 和 level 的显示;
  • 优化了用户视角下的 api 使用流程,新增了告警相关的 api;

错误修复

  • 修复了图片描述重复输出的问题;
  • 修复了数据增强节点样本数不生效的问题;
  • 修复了某些场景下图片只有图片描述而没有 OCR 结果的情况;
  • 修复了 bmp 文件解析后只有 OCR 而没有图片描述的情况;
  • 修复了告警记录某些情况下展示不全的问题;
  • 修复了修改工作流节点名称无效的问题;
  • 修复了部分文件经过数据增强后没有生成 QA 对的问题;
  • 修复了部分情况下工作流执行状态异常的问题;
  • 修复了英文版平台部分提示语还是中文的情况;
  • 修复了部分情况下文件解析任务失败报错 Read timed out 的问题;
  • 修复了工作区告警阈值显示有误的问题;
  • 修复了工作区告警规则“仅告警一次”未生效的问题;
  • 修复了工作区告警开启限时禁用无效的问题;
  • 修复了数据卷中查看文件详情,block 类型过滤无效的问题;
  • 修复了某些情况下处理 PPT 类型文件失败的问题;
  • 修复了某些情况下经过工作流处理后 pdf 类型文件丢数据的问题;
  • 修复了关联工作流 - 连续数据载入,偶现新载入文件未触发作业执行的问题;
  • 修复了工作区中修改用户密码是报错的问题;
  • 修复了处理数据卷中删除文本块失败的问题;

2025 年 06 月 20 日

功能

  • 支持本地文件载入

本次更新新增本地上传功能,用户可直接导入本地文件,轻松完成数据载入与测试,大幅度降低体验门槛。

2025 年 06 月 06 日

错误修复

  • 修复了原始数据卷图片展示有误的问题;
  • 修复了过滤工作流状态,报错 500 的问题;
  • 修复了文件处理详情中,解析好的音频展示类型为文本的问题;
  • 修复了编辑拓扑图触发工作流,编辑的拓扑图不生效的问题;
  • 修复了数据清洗节点中修改任何开关或参数均不生效的问题;
  • 修复了作业详情展示的工作流和创建的工作流不一致的问题;
  • 修复了工作流中只有起始和结束节点的工作流不应该实际运行的问题;
  • 修复了创建工作流中带图片类型,工作流详情未显示文件类型的问题;
  • 修复了工作流里取消勾选文档类型,整个工作流图消失的问题;
  • 修复了工作流 - 文件基础信息里的文件类型筛选框,一级类型显示的都是英文的问题;
  • 修复了修改工作流分支的节点参数显示成功实际未生效的问题;
  • 修复了关联处理工作流 - 新建的工作流未触发作业执行的问题;
  • 修复了作业中已停止的文件不应该出现在 catalog 中的问题;
  • 修复了超级管理员在英文情况展示有误的问题;
  • 修复了处理数据卷文件列表接口报 500 错误的问题;
  • 修复了 doc 文件中的表格转换成 md 后,排版和格式转换有问题;
  • 修复了修改工作流基础信息,选择目标数据卷时未过滤掉被使用的数据卷的问题;
  • 修复了工作流节点详情页显示的节点名称都是英文格式的问题;
  • 修复了工作流分支对比中处理节点详情显示有误的问题;
  • 修复了增强节点中数据集格式解释文案有误的问题;
  • 修复了新建或编辑分支时,节点名称没有默认值的问题;
  • 修复了数据清洗节点部分参数没有默认值的问题;
  • 修复了工作流节点不能删减的问题;
  • 修复了处理数据卷中预览按钮不生效的问题;
  • 修复了周期处理工作流创建失败的问题;
  • 修复了关联处理工作流处理失败的问题;
  • 修复了数据库管理平台无法登录的问题;
  • 修复了数据增强节点产生的 QA 对中含有跟原文对不上的内容的问题;
  • 修复了部分文件增强后没有生成 qa 对的情况;
  • 修复了载入文件,部分文件类型未展示的问题;
  • 修复了编辑工作流,修改文件类型未生效的问题;
  • 修复了数据增强后的 qa 对分页中间有某些页无数据的问题;
  • 修复了数据清洗节点设置清洗功能后文件处理失败的问题;
  • 修复了创建工作流分支,切换主分支不生效的问题;
  • 修复了 MP4 文件处理结果为空的问题;
  • 修复了音视频解析内容乱码的问题;

2025 年 05 月 29 日

功能

【功能一】工作流数据处理能力全面升级

工作流模块全面强化了多源异构数据的处理、清洗与增强能力,显著提升大模型应用中数据预处理的效率与质量,为构建高效的 RAG 系统与指令微调方案提供有力支撑。

  • 多模态内容解析:支持文本、图像、音频、视频等类型文件的解析算子,自动提取结构化信息,贯通非结构化数据向知识库构建的关键路径。
  • 数据清洗算子:内置多种清洗策略,涵盖格式规范、去重、脱敏等操作,确保数据准确、规范、可用。
  • 数据增强算子:支持自动生成符合 Alpaca 格式的数据集,适用于指令微调、对话训练、意图识别等多种应用场景。

【功能二】GenAI 工作区 API 密钥管理

为支持第三方应用、自动化脚本及内部服务安全、统一地调用平台 API,GenAI 工作区现已上线 API 密钥管理功能,帮助用户更安全、便捷地接入平台服务。该功能支持首次生成密钥并进行脱敏展示,提供一键复制,便于安全集成;同时具备密钥刷新机制,助力统一权限管理与风险防控,确保 API 调用过程中的安全性、可控性与高效性。

【功能三】支持更多告警规则

本次更新扩展了告警规则的配置能力:

  • 数据加载:新增对单次载入任务的载入成功率阈值配置。
  • 数据处理:新增对单文件分段数阈值及单作业中文件处理成功率阈值的支持。

【功能四】支持更多文件类型导出完整的未分段内容

新增支持 DOC/DOCX、PPT/PPTX、TXT 格式文件,导出完整未分段的 Markdown(full.md)文件,便于整体查看与归档。

错误修复

  • 修复了工作流优先级不支持筛选的问题;
  • 修复了部分情况下告警未正常触发的问题;
  • 修复了工作流分支名称过长未分行展示的问题;

2025 年 05 月 22 日

功能

【功能一】GenAI 工作区引入基于角色的访问控制(RBAC)机制

为实现更加安全、灵活和可扩展的权限管理,GenAI 工作区全面引入 RBAC(基于角色的访问控制)模型。该模型通过“用户 - 角色 - 权限”三层结构实现权限的统一分配与集中管理:用户不直接拥有权限,而是通过绑定角色间接获得权限。支持权限的集中配置与复用,实现权限管理的抽象化、标准化与规模化。

在工作区创建完成后,系统默认生成两个角色:

  • 超级管理员:拥有对工作区所有资源和操作的完全权限,不可修改、禁用或删除,用于保障系统的核心管理能力。
  • 数据开发:同样具备全权限,但可根据实际需求进行修改、禁用或删除,支持灵活配置与角色继承。

通过 RBAC 模型,GenAI 支持企业用户在多用户协作环境下实现更安全、高效、可控的访问权限管理策略,为组织级应用提供坚实保障。

【功能二】支持工作流与周期数据载入任务关联

为提升自动化处理能力,平台现支持将工作流与周期数据载入任务进行关联。启用关联后,工作流将依据源数据卷中相关载入任务的完成情况自动触发执行,从而增强数据更新与处理流程的联动性,实现更高效的数据驱动自动化。

【功能三】丰富告警规则

本次更新进一步丰富了告警规则体系,支持更多类型的表达式与灵活配置,包括:

  • 数据加载阶段

    • 可设置单次任务载入文件数的阈值告警
    • 支持对单次载入任务的文件平均载入时间设置阈值告警
  • 数据处理阶段:

    • 支持对单个作业处理文件数设置阈值告警
    • 可配置单文件处理时长的告警阈值

通过更精细的告警策略配置,系统可提前感知潜在异常,提升数据任务稳定性与监控可控性。

错误修复

  • 修复了数据周期载入任务在某些情况下未正常触发文件载入的问题;
  • 修复了一个表格同一个 chunk 中,如果引用了多个图片,这些图片的顺序错乱的问题;
  • 修复了部分符号解析错误的问题;
  • 修复了工作流删除后,作业列表中点击工作流名称前端显示报错信息有误的问题;
  • 修复了工作流创建后无法编辑优先级的问题。

2025 年 05 月 08 日

功能

【功能一】工作区支持告警功能

为进一步保障工作区服务的稳定性、安全性和性能可控性,我们正式上线了告警管理功能,帮助用户实现更高效、精细化的运维监控。

  • 灵活配置告警规则:支持创建覆盖数据加载与数据处理过程的个性化告警规则。用户可根据实际业务需求设定特定阈值,精准捕捉潜在异常,实现自动化风险预警与管理。
  • 多渠道告警通知机制:提供集中式的告警联系人管理,用户可灵活添加、编辑或禁用、删除通知对象。支持邮箱、电话、短信和企业微信多种通知渠道,确保关键告警信息能够快速、准确传达到相关责任人手中。
  • 告警日志留存与查询:系统自动保存所有告警事件记录,形成完整的告警日志体系。用户可通过界面查询近一个月内的历史告警,支持回溯分析与问题定位,助力技术团队高效应对和复盘处理突发事件。

【功能二】工作流新增“处理优先级”功能

为提升多任务场景下的调度效率,平台现支持为工作流设置“处理优先级”。用户可在创建或编辑工作流时指定优先级,选项包括“低”、“中”和“高”,默认值为“中”。设置后,新的工作流作业将根据该优先级即时生效。当多个工作流并发执行时,平台将按照优先级从高到低的顺序依次调度执行,确保关键任务优先处理。

【功能三】工作区解析结果导出增强

  • 在导出 PDF 文件的处理结果时,除原有的分段 JSON 格式外,新增支持导出为完整 Markdown 内容文件;
  • JSON 文件中图片类型的 block 新增字段 level,用于标识图像处理级别:1 表示 OCR 识别结果,2 表示 caption 结果。

【功能四】私有化部署新增支持配置文件大小上限

为满足不同业务场景下的大文件处理需求,我们对私有化部署中的文件处理功能进行了增强。平台现已支持通过配置项灵活设置单个文件的载入与处理大小上限,最高可配置至 10,000MB。

错误修复

  • 修复了处理数据卷里的分支数据被删除了(分支子目录保留),新建工作流还是能使用该处理数据卷的问题;
  • 修复了作业详情页的执行详情分页错误的问题;
  • 修复了文件解析结果中缺少 OCR 内容的问题。

2025 年 04 月 24 日

改进

  • 工作流分段组件支持自定义设置分段重叠。

  • 优化了解析数据的下载格式,新格式从一个 json 文件变为一个文件夹,文件夹中包含了文字解析信息的 json 文件,以及图片文件夹。其中 json 文件中增加了文件信息、分段类型、分段所在页,此外增加了图片的原始信息。

错误修复

  • 解决了某些情况下文件处理后丢失图片的问题

2025 年 04 月 10 日

功能

  • 支持工作流分支管理

在本次版本更新中,支持对工作流分支进行管理,旨在帮助数据工程师高效管理相似的数据处理流程,提升开发效率,降低运维成本。 该功能支持用户基于同一个工作流创建多个分支版本,多个分支共享通用配置信息(如源数据卷、文件类型等),但可独立配置各自的数据处理流程。各分支的执行结果将按分支名称分别存储在目标数据卷的子目录中,确保版本间数据清晰隔离,便于管理与追踪,可有效应对以下使用场景:

  1. 降低管理成本:避免重复创建高度相似的工作流,统一维护更高效
  2. 优化资源使用:共享处理步骤仅需执行一次,结果复用,降低计算与存储开销
  3. 简化对比分析:便于直观对比不同分支间的流程配置与执行结果,辅助评估与调优
  • GenAI 工作区支持用户权限管理

在本次迭代中,GenAI 工作区正式引入 RBAC(基于角色的访问控制)模型,作为多模态数据集成、处理与应用的平台核心权限管理机制。该模型通过“用户 - 角色 - 权限”的映射关系,实现对平台访问范围与操作权限的精细化控制,确保系统使用的灵活性与安全性。 当前版本内置默认角色“数据开发”,拥有除用户管理外的全部操作权限。未来版本将逐步扩展更多角色,以满足不同类型用户在数据处理、模型应用等多场景下的权限需求。

  • 工作流支持处理更多文档类型

在本次版本更新中,工作流支持处理更多文档类型,进一步提升了对多模态数据的适配能力与处理灵活性。用户在创建工作流时,可选择包括 txt/md、doc/docx、ppt/pptx 等更多文件格式,系统将根据所选类型,智能推荐匹配的处理组件集合,简化配置流程,提升使用效率。

  • 支持原始数据卷文件预览

支持对原始数据卷中的原始文件进行在线预览,方便用户在数据处理前快速查看文件内容,提升数据管理与操作的便捷性。

  • 支持轻量级添加 Python 脚本的依赖包

私有化部署版本支持轻量级添加 Python 脚本依赖包,大幅提升了自定义节点的灵活性与可扩展性。用户可根据业务需求,将所需的第三方依赖包以离线方式打包并集成到镜像中,无需依赖公网下载,从而适配私有化环境下的隔离部署要求。

改进

  • 优化了载入任务;
  • 优化了解析文件内容的检索与关联能力,支持基于块 ID 进行精准搜索,并将文本类型识别内容中提取的图片按对应块 ID 命名,实现文本与图片内容的一一关联,提升数据溯源与处理效率。

错误修复

  • 修复了部分场景下数据一次载入任务始终处于“运行中”状态且无法自动结束的问题;
  • 修复了在数据载入任务未完成前删除其连接器,载入任务一直处于运行中的状态的问题;
  • 修复了暂停工作流后,若作业中存在失败文件,重试执行后文件处于停止执行状态的问题;
  • 修复了周期性数据载入任务在停止后点击“重新运行”按钮时出现 500 错误的问题;
  • 修复了已经停止的工作流对应的文件不展示的问题;
  • 修复了 SQL 编辑器查询完成后,马上点击进入查询详情,出现 500 错误的问题;
  • 修复了 GenAI 工作区 - 用户名有“-”,修改密码报错的问题;
  • 修复了新建 GenAI 工作区,用户名包含特殊字符会创建失败的问题;
  • 修复了某些情况下 SQL 编辑器无法执行语句,未与后端建立 websocket 连接的问题。

2025 年 03 月 14 日

MatrixOne 内核版本更新

由 v24.2.0.1 升级至 v25.2.0.3 版本,详情请参考《MatrixOne v25.2.0.3 发布报告》

2025 年 02 月 21 日

功能

  • GenAI 工作区正式开放

在本版本中,GenAI 工作区正式对所有用户开放,欢迎大家注册并体验试用。

  • 新增简历智搜

AI 应用市场全新推出了简历智搜——一款专为简历搜索优化的智能化解决方案,旨在提升招聘与人力资源管理场景中的招聘效率。简历智搜通过多维度精准查询、智能关键词匹配以及高级筛选功能,使用户能够从大量简历中快速定位符合岗位需求的优质候选人,从而显著提高筛选效率和决策准确性。这一功能将帮助 HR 在海量简历中更高效地找到合适的人选,优化招聘流程。

错误修复

  • 修复了删除文本块报错的问题;
  • 修复了一次载入任务文件载入成功后一直不结束的问题;
  • 修复了停止作业后,文件处理状态更新不及时的问题。

2025 年 02 月 17 日

功能

GenAI 工作区

在本次迭代中,MatrixOne Intelligence 正式推出 GenAI 工作区,这是一个专为多模态数据打造的智能化入口,集数据接入、处理与探索于一体。GenAI 工作区提供高效、便捷的数据管理能力,帮助用户轻松完成数据清洗与转换,释放数据潜能,赋能业务增长。

Note

该功能目前对部分用户开放,如需体验,请联系技术支持申请开通。

  • 数据接入:支持创建阿里云 OSS 或标准 S3 连接器,快速导入数据至 GenAI 工作区,并存储在原始数据卷中。
  • 数据处理:提供可视化工作流,用户可便捷定义并执行复杂的数据处理任务,所有执行记录以作业形式保留,确保操作可追溯。
  • 数据探索:Catalog 组件专为多模态数据设计,支持管理原始数据卷(存储用户上传的非结构化数据)和处理数据卷(存放数据处理后的解析文件)。