Skip to content

告警

随着数据处理任务日益复杂、业务系统不断扩展,工作区的稳定性、安全性和性能可控性显得尤为重要。在缺乏及时反馈机制的情况下,系统异常、任务失败或资源瓶颈等问题可能长期未被发现,严重影响整体业务的运行效率与可靠性。

通过对关键环节进行实时监控和自动化预警,用户能够在第一时间发现问题、定位原因并快速响应,从而显著提升系统的可观测性和运维效率。尤其在多任务并发和数据依赖复杂的场景下,告警机制不仅有效降低人工巡检成本,还能保障数据流转与处理链路的稳定性与可控性,助力业务系统持续、健康运行。

告警规则

告警功能专注于工作区的监控,主要覆盖数据加载和数据处理模块。

登录工作区管理平台,然后依次点击告警 > 告警规则 > 创建告警规则,即可进入设置告警规则的页面。

  • 告警类别:分为数据加载和数据处理

  • 告警表达式:是由一系列监控指标、比较关系、阈值、统计周期和持续周期组成的逻辑表达式,用以定义何时触发告警。它有以下限制:

    • 告警表达式是固定的,不支持用户自定义,但可以对告警的阈值进行调整以满足特定的监控需求。
    • 用户可以基于同一规则创建多个具有不同阈值的告警表达式,但对于具有相同规则和阈值的告警表达式允许创建一个。
    • 每种表达式都设有默认的告警级别和通知周期。
    • 根据各自的特性,每种告警表达式都设定了不同的默认阈值以及可输入或选择的阈值区间。
    • 每个工作区允许设定的告警规则数量上限为 100 条。
  • 告警级别

    • 提示:问题属于轻微级别,不影响资源的正常运作,系统默认通过邮件的方式进行通知。
    • 重要:问题相对严重,对业务产生了一定影响,系统将默认通过邮件和短信的方式进行通知。
    • 紧急:遇到紧急故障或业务功能中断,系统将自动通过邮件、短信、电话和企业微信多种方式进行紧急通知。
  • 通知周期:目前仅通知一次。

  • 通知对象:一旦告警被触发,系统将通过多种方式向用户发出通知,用户可以选择零种或多种通知方式,包括邮件、短信、电话和企业微信。每种方式都可以独立指定接收者。用户无需手动输入接收者的详细信息,只需从通知对象中选择相应的名称即可。若未选择任何通知方式,告警信息将仅记录在告警日志中。在创建告警规则时,一旦选定了通知途径,则必须指定相应的通知对象。不同的通知方式有着不同的限制:

    • 电话:每日通知上限为 20 次,对于同一个号码,通知频率为每分钟不超过 1 次,每小时不超过 5 次,以及每日不超过 20 次。有时可能会因为电话号码遭到恶意举报并被相应的服务提供商屏蔽,导致尽管告警规则已被触发并通过电话方式发出通知,用户却未收到电话告警。
    • 邮箱:无上限。
    • 短信:每日发送通知上限为 100 次。
    • 企业微信:无上限。
  • 启用状态:告警默认启用,可以指定一个启动时间或者永久禁用。

告警规则创建完毕后,用户可以浏览包括告警表达式、告警类别、告警级别在内的详细信息。系统将自动开启部分关键告警规则,您可以根据需要对告警启用状态进行调整。此外,您还可以对规则进行修改,或者选择删除不需要的告警规则。

如果您想查看触发告警的详细信息,可点击告警规则最右侧的日志图标跳转至告警记录查看。

通知对象

为了方便用户管理不同通知方式的通知对象信息,我们将几种通知方式的对象信息以通知对象的形式集合在一起,以名称作为每个接收者的唯一标识符,你可登录至工作区,依次点击告警 > 通知对象来查看通知对象列表。

在通知对象处您可以添加联系人,依次点击告警 > 通知对象 > 创建通知对象,输入联系人信息:

成功添加联系人后,您可以修改除 id 之外的所有属性,修改完成后,告警管理的关联同步更新。对于不需要的联系人,您也可以进行删除操作或者关闭启用状态按钮来禁用联系人。请留意:告警通知对象中的联系人数量不能超过 1000 个。

告警记录

告警日志用于追踪和存档告警规则触发的历史。用户可以在告警日志界面查询最近一个月内的告警记录,并通过告警规则 ID、告警表达式以及起始和结束日期等条件来过滤和查找特定的告警条目。