Skip to content

从对象存储导入文件

概述

S3(Simple Storage Service)对象存储是指亚马逊的简单存储服务。你还可以使用与 S3 兼容的对象存储来存储几乎任何类型和大小的数据,包括数据湖、云原生应用程序和移动应用程序。如果你不熟悉 S3 对象服务,你可以在 AWS 中查找一些基本介绍。

AWS S3 十多年来一直非常成功,因此它成为了对象存储的标准。因此几乎所有主流公有云厂商都提供了兼容 S3 的对象存储服务。

MatrixOne 支持将文件从 S3 兼容的对象存储服务加载到数据库中。MatrixOne 支持 AWS 和国内主流云厂商(阿里云、腾讯云)。

在 MatrixOne 中,有两种方法可以从 S3 兼容的对象存储中导入数据:

  • 使用带有 s3option 的 Load data 将文件加载到 MatrixOne 中。此方法会将数据加载到 MatrixOne 中,所有接下来的查询都将在 MatrixOne 中进行。
  • 创建一个带有 s3option 映射到 S3 文件的“外部表”,并直接查询这个外部表。该方法允许通过 S3 兼容的对象存储服务进行数据访问;每个查询的网络延迟都将被计算在内。

方式 1: LOAD DATA

语法结构

LOAD DATA
    | URL s3options {"endpoint"='<string>', "access_key_id"='<string>', "secret_access_key"='<string>', "bucket"='<string>', "role_arn"='xxxx', "external_id"='yyy', "filepath"='<string>', "region"='<string>', "compression"='<string>'}
    INTO TABLE tbl_name
    [{FIELDS | COLUMNS}
        [TERMINATED BY 'string']
        [[OPTIONALLY] ENCLOSED BY 'char']
        [ESCAPED BY 'char']
    ]
    [IGNORE number {LINES | ROWS}]
    [PARALLEL {'TRUE' | 'FALSE'}]

参数说明

参数 描述
endpoint 可以连接到对象存储服务的 URL。例如:s3.us-west-2.amazonaws.com
access_key_id Access key ID
secret_access_key Secret access key
bucket S3 需要访问的桶
role_arn
external_id
filepath 相对文件路径。 /files/*.csv 支持正则表达式。
region 对象存储服务区域
compression S3 文件的压缩格式。如果为空或 "none",,则表示未压缩的文件。支持的字段或压缩格式为“auto”、“none”、“gzip”、“bz2”和“lz4”。

其他参数与通用 LOAD DATA 参数相同,更多信息,参见 LOAD DATA

语法示例

# LOAD a csv file from AWS S3 us-east-1 region, test-load-mo bucket, without compression
LOAD DATA URL s3option{"endpoint"='s3.us-east-1.amazonaws.com', "access_key_id"='XXXXXX', "secret_access_key"='XXXXXX', "bucket"='test-load-mo', "filepath"='test.csv', "region"='us-east-1', "compression"='none'} INTO TABLE t1 FIELDS TERMINATED BY ',' ENCLOSED BY '\"' LINES TERMINATED BY '\n';

# LOAD all csv files from Alibaba Cloud OSS Shanghai region, test-load-data bucket, without compression
LOAD DATA URL s3option{"endpoint"='oss-cn-shanghai.aliyuncs.com', "access_key_id"='XXXXXX', "secret_access_key"='XXXXXX', "bucket"='test-load-data', "filepath"='/test/*.csv', "region"='oss-cn-shanghai', "compression"='none'} INTO TABLE t1 FIELDS TERMINATED BY ',' ENCLOSED BY '\"' LINES TERMINATED BY '\n';

# LOAD a csv file from Tencent Cloud COS Shanghai region, test-1252279971 bucket, without bz2 compression
LOAD DATA URL s3option{"endpoint"='cos.ap-shanghai.myqcloud.com', "access_key_id"='XXXXXX', "secret_access_key"='XXXXXX', "bucket"='test-1252279971', "filepath"='test.csv.bz2', "region"='ap-shanghai', "compression"='bz2'} INTO TABLE t1 FIELDS TERMINATED BY ',' ENCLOSED BY '\"' LINES TERMINATED BY '\n';

Note

MatrixOne 提供了 S3 验证信息的安全保证,例如 access_key_idsecret_access_key 敏感信息在系统表(statement_info)记录里将被隐藏,保证你的账户安全。

教程:从 AWS S3 加载文件

本教程中将指导你完成从 AWS S3 加载. csv 文件的过程。

如果你已经拥有一个 AWS 账户并且已经在你的 S3 服务中准备好数据文件,那么请继续阅读本教程章节。

如果你还没有准备好数据文件,请先注册并上传你的数据文件;你也可以查看 AWS S3 官方教程。如果你的数据文件想要上传到阿里云 OSS 或者腾讯云 COS 上,那么操作流程与 AWS S3 类似。

Note

由于帐户隐私,此代码示例不会显示帐户信息,例如 access_key_idsecret_access_key。 你可以阅读本文档以了解主要步骤;具体数据和账户信息将不会显示。

  1. 下载数据文件。进入 AWS S3 > buckets,创建一个具有公共访问权限的存储桶 test-loading 并上传文件 char_varchar_1.csv
  1. 获取或创建你的 AWS Access key。输入 Your Account Name > Security Credentials,获取你现有的访问密钥或创建一个新的访问密钥。
你可以从下载的凭据或此网页中获取 `Access key` 和 `Secret access key`。
  1. 启动 MySQL 客户端,在 MatrixOne 中创建表,SQL 示例如下:

    create database db;
    use db;
    drop table if exists t1;
    create table t1(col1 char(225), col2 varchar(225), col3 text, col4 varchar(225));
    
  2. 将文件导入 MatrixOne:

    LOAD DATA URL s3option{"endpoint"='s3.us-east-1.amazonaws.com', "access_key_id"='XXXXXX', "secret_access_key"='XXXXXX', "bucket"='test-loading', "filepath"='char_varchar_1.csv', "region"='us-east-1', "compression"='none'} INTO TABLE t1;
    
  3. 导入完成后,你可以运行 SQL 语句检查文件导入是否成功:

    mysql> select * from t1;
    +-----------+-----------+-----------+-----------+
    | col1      | col2      | col3      | col4      |
    +-----------+-----------+-----------+-----------+
    | a         | b         | c         | d         |
    | a         | b         | c         | d         |
    | 'a'       | 'b'       | 'c'       | 'd'       |
    | 'a'       | 'b'       | 'c'       | 'd'       |
    | aa,aa     | bb,bb     | cc,cc     | dd,dd     |
    | aa,       | bb,       | cc,       | dd,       |
    | aa,,,aa   | bb,,,bb   | cc,,,cc   | dd,,,dd   |
    | aa',',,aa | bb',',,bb | cc',',,cc | dd',',,dd |
    | aa"aa     | bb"bb     | cc"cc     | dd"dd     |
    | aa"aa     | bb"bb     | cc"cc     | dd"dd     |
    | aa"aa     | bb"bb     | cc"cc     | dd"dd     |
    | aa""aa    | bb""bb    | cc""cc    | dd""dd    |
    | aa""aa    | bb""bb    | cc""cc    | dd""dd    |
    | aa",aa    | bb",bb    | cc",cc    | dd",dd    |
    | aa"",aa   | bb"",bb   | cc"",cc   | dd"",dd   |
    |           |           |           |           |
    |           |           |           |           |
    | NULL      | NULL      | NULL      | NULL      |
    |           |           |           |           |
    | "         | "         | "         | "         |
    | ""        | ""        | ""        | ""        |
    +-----------+-----------+-----------+-----------+
    21 rows in set (0.03 sec)
    

方式 2:指定 S3 文件到外部表

语法结构

create external table t(...) URL s3option{"endpoint"='<string>', "access_key_id"='<string>', "secret_access_key"='<string>', "bucket"='<string>', "filepath"='<string>', "region"='<string>', "compression"='<string>'}     
[{FIELDS | COLUMNS}
        [TERMINATED BY 'string']
        [[OPTIONALLY] ENCLOSED BY 'char']
        [ESCAPED BY 'char']
]
[IGNORE number {LINES | ROWS}];

Note

MatrixOne 当前仅支持对外部表进行 select,暂不支持 Deleteinsertupdate

参数说明

参数 描述
endpoint 可以连接到对象存储服务的 URL。例如:s3.us-west-2.amazonaws.com
access_key_id Access key ID
secret_access_key Secret access key
bucket S3 需要访问的桶
filepath 相对文件路径。 /files/*.csv 支持正则表达式。
region 对象存储服务区域
compression S3 文件的压缩格式。如果为空或 "none",,则表示未压缩的文件。支持的字段或压缩格式为“auto”、“none”、“gzip”、“bz2”和“lz4”。

其他参数与通用 LOAD DATA 参数相同,更多信息,参见 LOAD DATA

有关外部表的更多信息,参见创建外部表

语法示例

## Create a external table for a .csv file from AWS S3
create external table t1(col1 char(225)) url s3option{"endpoint"='s3.us-east-1.amazonaws.com', "access_key_id"='XXXXXX', "secret_access_key"='XXXXXX', "bucket"='test-loading', "filepath"='test.csv', "region"='us-east-1', "compression"='none'} fields terminated by ',' enclosed by '\"' lines terminated by '\n';

## Create a external table for a .csv file compressed with BZIP2 from Tencent Cloud
create external table t1(col1 char(225)) url s3option{"endpoint"='cos.ap-shanghai.myqcloud.com', "access_key_id"='XXXXXX', "secret_access_key"='XXXXXX', "bucket"='test-1252279971', "filepath"='test.csv.bz2', "region"='ap-shanghai', "compression"='bz2'} fields terminated by ',' enclosed by '\"' lines terminated by '\n' ignore 1 lines;

教程:使用 S3 文件创建外部表

本教程将指导你完成使用来自 AWS S3 的. csv 文件创建外部表的整个过程。

Note

由于帐户隐私,此代码示例不会显示帐户信息,例如 access_key_idsecret_access_key。 你可以阅读本文档以了解主要步骤;具体数据和账户信息将不会显示。

  1. 下载数据文件。进入 AWS S3 > buckets,创建一个具有公共访问权限的存储桶 test-loading 并上传文件 char_varchar_1.csv
  1. 获取或创建你的 AWS Access key。输入 Your Account Name > Security Credentials,获取你现有的访问密钥或创建一个新的访问密钥。
你可以从下载的凭据或此网页中获取 `Access key` 和 `Secret access key`。
  1. 启动 MySQL 客户端,指定 S3 文件到外部表:

    create database db;
    use db;
    drop table if exists t1;
    create external table t1(col1 char(225), col2 varchar(225), col3 text, col4 varchar(225)) url s3option{"endpoint"='s3.us-east-1.amazonaws.com', "access_key_id"='XXXXXX', "secret_access_key"='XXXXXX', "bucket"='test-loading', "filepath"='char_varchar_1.csv', "region"='us-east-1', "compression"='none'} fields terminated by ',' enclosed by '\"' lines terminated by '\n';
    
  2. 导入成功后,你可以运行如下 SQL 语句查看导入数据的结果。你将可以看到查询速度明显慢于从本地表查询。

    select * from t1;
    +-----------+-----------+-----------+-----------+
    | col1      | col2      | col3      | col4      |
    +-----------+-----------+-----------+-----------+
    | a         | b         | c         | d         |
    | a         | b         | c         | d         |
    | 'a'       | 'b'       | 'c'       | 'd'       |
    | 'a'       | 'b'       | 'c'       | 'd'       |
    | aa,aa     | bb,bb     | cc,cc     | dd,dd     |
    | aa,       | bb,       | cc,       | dd,       |
    | aa,,,aa   | bb,,,bb   | cc,,,cc   | dd,,,dd   |
    | aa',',,aa | bb',',,bb | cc',',,cc | dd',',,dd |
    | aa"aa     | bb"bb     | cc"cc     | dd"dd     |
    | aa"aa     | bb"bb     | cc"cc     | dd"dd     |
    | aa"aa     | bb"bb     | cc"cc     | dd"dd     |
    | aa""aa    | bb""bb    | cc""cc    | dd""dd    |
    | aa""aa    | bb""bb    | cc""cc    | dd""dd    |
    | aa",aa    | bb",bb    | cc",cc    | dd",dd    |
    | aa"",aa   | bb"",bb   | cc"",cc   | dd"",dd   |
    |           |           |           |           |
    |           |           |           |           |
    | NULL      | NULL      | NULL      | NULL      |
    |           |           |           |           |
    | "         | "         | "         | "         |
    | ""        | ""        | ""        | ""        |
    +-----------+-----------+-----------+-----------+
    21 rows in set (1.32 sec)
    
  3. (选做)如果需要将外部表数据导入到 MatrixOne 中的数据表,使用如下 SQL 语句:

    在 MatrixOne 中新建一个表 t2

    create table t2(col1 char(225), col2 varchar(225), col3 text, col4 varchar(225));
    

    将外部表 t1 导入到 t2

    insert into t2 select * from t1;