数据载入
MatrixOne Intelligence 提供高性能的数据载入能力,支持从多种渠道导入结构化与非结构化数据,广泛应用于数据分析、业务查询以及 AI 智能体训练等场景。
支持的文件类型与来源
数据来源
- 连接器文件:从已配置的数据连接器中选择文件,系统自动读取对应目录内容
- 本地上传:上传本地文件到系统
- 公有云环境:最大支持 200MB
- 私有化部署:最大支持 10000MB(可配置)
支持的文件格式
| 载入类型 | 支持格式 | 应用场景 |
|---|---|---|
| 非结构化数据 | 文档、图片、视频、音频等 | 知识库构建、文档处理、多文档问答 |
| 结构化数据(表导入) | CSV、XLSX、XLS | 财务、运营、销售等表格数据导入 |
Note
Excel 文件仅处理第一个 Sheet,合并单元格会自动拆分为独立行,Excel 中的图片内容跳过处理,作为空值导入。
创建载入任务
入口路径:工作区 → 数据连接 → 数据载入 → 载入数据
操作流程:
- 选择数据源(连接器文件 / 本地上传)
- 选择载入类型(非结构化 / 结构化)
- 配置载入设置
- 选择目标位置(数据卷或数据库表)
- 创建任务并查看执行状态
非结构化数据载入
适用于文档、图片、音频和视频类非结构化文件。
- 载入模式:一次性载入适合仅需导入一次的场景,周期性载入适合定期更新数据的需求,并可设置具体周期(如每小时或每日)。
- 解压策略:支持自动解压。zip、. rar、. 7z、. tar.gz、. tar.bz2、. tar 类型压缩包,忽略目录结构将维护原有文件夹层级,扁平化结构将所有文件放在同一级目录。
- 重复文件处理:为避免重复导入相同文件,提供根据文件名和文件内容(md5)文件选择跳过或者覆盖。
- 载入范围:载入范围由文件类型与路径正则表达式共同限定,二者为且关系。当路径正则表达式为空时,表示不对路径进行限制,仅按文件类型进行筛选。对于压缩文件,路径正则匹配基于解压前的压缩包原始路径;匹配成功后,包内文件在解压后再按文件类型规则进行筛选。

结构化数据载入(表数据导入)
结构化载入用于将 CSV/XLSX/XLS 文件中的表格数据导入数据库表,支持将数据追加到已有表,或在创建新表后导入。
对于结构化文件,可配置分隔符、定界符和转义符(仅 CSV 适用)。文件列名可选择是否启用(默认开启),并可指定列名所在行(最多 20 行);数据起始行默认为列名行的下一行。
载入流程中,系统会预览从导入数据起始行开始的前 5 条数据样例,当导入的起始行超过 1000 时,则无法展示。

导入到已有表的数据处理逻辑
主键冲突时可选择:
- 导入失败(默认):遇到主键冲突时任务终止
- 跳过冲突行:仅导入不冲突的数据
- 替换冲突行:用新数据覆盖已有主键行
字段映射要求:
- 系统展示目标表的字段名、类型、主键信息
- 每个目标字段可映射:文件列 / NULL / 默认值
- 所有字段完成映射后方可创建任务

创建新表并导入
建表时可配置:
- 表名
- 表描述
- 字段名
- 数据类型
- 精度规则
- 主键设置
- 默认值
- 字段描述
创建表成功后系统会自动启动导入任务。