文档中心 > 监控弹性云主机
监控弹性云主机

最近更新时间:2023-04-03

在弹性云主机监控页面,您可以查看弹性云主机的基础监控信息,包括CPU、内存、磁盘、网络等;安装Agent插件后可以监控操作系统的相关指标。

前提条件

操作系统系列指标监控依赖于对象存储服务,请提前在该地域开通对象存储服务。

查看实例列表

  1. 登录紫光云控制台。

  2. 在左侧导航栏中,依次选择“产品与服务 > 监控与管理 > 云监控”。

  3. 在云监控导航栏中选择“云主机监控 > 弹性云主机”。

  4. 在弹性云主机监控页面,可以查看已购买弹性云主机实例的使用率及运行状态。

    1.png

  5. (可选)单击“前往产品控制台”,支持跳转至弹性云主机控制台,对实例进行管理操作。

查看监控图表

  1. 登录紫光云控制台。

  2. 在左侧导航栏中,依次选择“产品与服务 > 监控与管理 > 云监控”。

  3. 在云监控导航栏中选择“云主机监控 > 弹性云主机”。

  4. 在弹性云主机监控页面,单击待查看实例后的“基础监控”或者“系统监控”,可以查看对应的监控信息。

    • 单击“系统监控”,查看操作系统监控信息。

    1. 查看操作系统前,需先安装Agent插件。

    2. 2.png    

       单击“安装插件”,进入探针安装指引页面,复制安装指令,并按照提示进行Agent插件手动安装,详细操作步骤请参考“安装Agent插件”。

         3.5.2.1.png

    3. 安装完成后,可以查看操作系统监控信息。

    4. 您可以自定义时间段,查询指定时间段内的监控信息。   


      说明:

      在GPU型云主机的监控页面查看GPU指标时请注意:

      • Linux系统主机:需执行安装命令,设置虚拟机GPU为持久模式后才能获取GPU监控数据,命令如下:

      • # nvidia-smi -pm 1

      • Windows系统主机:暂不支持2016镜像。



      监控指标项说明如下。

      表1 操作系统监控指标说明

      监控指标

      说明

      (Agent)CPU空闲时间使用率

      Agent插件指标。该指标用于统计测量对象当前CPU空闲时间占比平均值。单位:%

      • Linux: 通过计算采集周期内/proc/stat中的变化得出CPU空闲时间占比。

      • Windows: 通过系统调用GetSystemTimes获取。

      (Agent)CPU使用率

      Agent插件指标。该指标用于统计测量对象当前CPU使用率平均值。单位:%

      util=(1-idle)* 100

      (Agent)用户空间CPU使用率

      Agent插件指标。该指标用于统计测量对象当前用户空间占用CPU使用率平均值。单位:%

      • Linux: 通过计算采集周期内/proc/stat中的变化得出用户空间CPU使用率。

      • Windows: 通过系统调用GetSystemTimes获取。

      (Agent)内核空间CPU使用率

      Agent插件指标。该指标用于统计测量对象当前内核空间占用CPU使用率。单位:%

      • Linux: 通过计算采集周期内/proc/stat中的变化得出内核空间CPU使用率。

      • Windows: 通过系统调用GetSystemTimes获取。

      (Agent)Nice进程CPU使用率

      Agent插件指标。该指标用于统计测量对象当前Nice进程CPU使用率平均值。单位:%

      仅支持Linux: 通过计算采集周期内/proc/stat中的变化得出nice进程CPU使用率。

      (Agent)其他CPU使用率

      Agent插件指标。该指标用于统计测量对象其他占用CPU使用率平均值。单位:%

      仅支持Linux:   other=nice+irq+softirq+steal

      (Agent)iowait状态占比

      Agent插件指标。该指标用于统计测量对象当前iowait状态占用CPU的比率平均值。单位:%

      仅支持Linux: 采集周期内/proc/stat中的变化得出iowait状态占比。

      (Agent)CPU中断时间占比

      Agent插件指标。该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率平均值。单位:%

      仅支持Linux: 通过计算采集周期内/proc/stat中的变化得出CPU中断时间占比。

      (Agent)CPU软中断时间占比

      Agent插件指标。该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率平均值。单位:%

      仅支持Linux: 通过计算采集周期内/proc/stat中的变化得出CPU软中断时间占比。

      (Agent)内存使用率

      Agent插件指标。该指标用于统计测量对象的内存使用率平均值。单位:%

      util= (MemTotal-MemAvailable)/MemTotal

      • Linux:通过/proc/meminfo得到总内存和可用内存从而计算内存使用率。

      • Windows:通过GlobalMemoryStatusEx系统调用获取。

      (Agent)总内存值

      Agent插件指标。该指标用于统计测量对象的总内存平均值。单位:bytes

      • Linux:通过/proc/meminfo得到总内存值。

      • Windows:通过GlobalMemoryStatusEx系统调用获取。

      (Agent)已使用内存值

      Agent插件指标。该指标用于统计测量对象的已使用内存平均值。单位:bytes

      • Linux:通过/proc/meminfo得到已使用内存值。

      • Windows:通过GlobalMemoryStatusEx系统调用获取。

      used=total-available

      (Agent)可用内存值

      Agent插件指标。该指标用于统计测量对象的可用内存平均值。单位:bytes

      • Linux: 通过/proc/meminfo得到MemAvailable。

        若/proc/meminfo中不显示MemAvailable,则MemAvailable=MemFree+Buffers+Cached。

      • Windows:通过GlobalMemoryStatusEx系统调用获取。

      (Agent)空闲内存

      Agent插件指标。该指标用于统计测量对象的空闲内存量平均值。单位:bytes

      仅支持Linux:通过/proc/meminfo获取。

      (Agent)1分钟平均负载  

      Agent插件指标。该指标用于统计测量对象过去1分钟的单CPU平均负载平均值。

      仅支持Linux:读取的/proc/loadavg中的1分钟负载值/CPU核数

      (Agent)5分钟平均负载

      Agent插件指标。该指标用于统计测量对象过去5分钟的单CPU平均负载平均值。

      仅支持Linux:读取的/proc/loadavg中的10分钟负载值/CPU核数。

      (Agent)15分钟平均负载

      Agent插件指标。该指标用于统计测量对象过去15分钟的单CPU平均负载平均值。

      仅支持Linux:读取的/proc/loadavg中的15分钟负载值/CPU核数。

      (Agent)磁盘每秒的读请求次数

      Agent插件指标。该指标用于统计每秒从测量对象读取数据的请求次数和值。单位:次/s

      • Linux的磁盘指标数据通过计算/proc/diskstats相应值计算得出。

      • Windows的磁盘指标使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

      (Agent)磁盘每秒的写请求次数

      Agent插件指标。该指标用于统计每秒向测量对象写数据的请求次数。单位:次/s

      • Linux的磁盘指标数据通过计算/proc/diskstats相应值计算得出。

      • Windows的磁盘指标使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

      (Agent)磁盘每秒读取的字节数

      Agent插件指标。该指标用于统计每秒从测量对象读出数据量和值。单位:bytes/s

      • Linux的磁盘指标数据通过计算/proc/diskstats相应值计算得出。

      • Windows的磁盘指标使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

      (Agent)磁盘每秒写入的字节数

      Agent插件指标。该指标用于统计每秒写到测量对象的数据量和值。单位:bytes/s

      • Linux的磁盘指标数据通过计算/proc/diskstats相应值计算得出。

      • Windows的磁盘指标使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

      (Agent)磁盘读平均耗时

      Agent插件指标。该指标用于统计测量对象磁盘读操作平均耗时平均值。单位:ms/count

      • Linux的磁盘指标数据通过计算/proc/diskstats相应值计算得出。

      • Windows的磁盘指标使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

      (Agent)磁盘写平均耗时

      Agent插件指标。该指标用于统计测量对象磁盘写操作平均耗时平均值。单位:ms/count

      • Linux的磁盘指标数据通过计算/proc/diskstats相应值计算得出。

      • Windows的磁盘指标使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

      (Agent)磁盘空间使用率

      Agent插件指标。该指标用于统计测试对象磁盘分区的使用率平均值。单位:%

      • Linux磁盘分区通过系统调用Statfs查询磁盘分区的使用情况。

      • Windows磁盘分区使用情况通过系统调用GetVolumeInformationW查询。

      (Agent)磁盘已使用容量

      Agent插件指标。该指标用于统计测试对象磁盘分区的已使用容量和值。单位:bytes

      • Linux磁盘分区通过系统调用Statfs查询磁盘分区的使用情况。

      • Windows磁盘分区使用情况通过系统调用GetVolumeInformationW查询。

      (Agent)磁盘可用容量

      Agent插件指标。该指标用于统计测试对象磁盘分区的可使用容量和值。单位:bytes

      • Linux磁盘分区通过系统调用Statfs查询磁盘分区的使用情况。

      • Windows磁盘分区使用情况通过系统调用GetVolumeInformationW查询。

      (Agent)磁盘总容量

      Agent插件指标。该指标用于统计测试对象磁盘分区的总容量和值。单位:bytes

      • Linux磁盘分区通过系统调用Statfs查询磁盘分区的使用情况。

      • Windows磁盘分区使用情况通过系统调用GetVolumeInformationW查询。

      (Agent)inodes使用率

      Agent插件指标。该指标用于统计测量对象当前磁盘已使用的inode占比平均值。单位:%

      Linux系统内部不使用文件名,而使用inode号码来识别文件。当磁盘未存满,但inode已经分配完时,会出现无法在磁盘新建文件的情况,因此需要监控inode使用率。inode数量代表文件系统的文件数量,大量小文件会导致inode使用率过高。Linux磁盘分区通过系统调用Statfs查询磁盘分区的使用情况。

      (Agent)系统进程数

      Agent插件指标。该指标用来统计测试对象系统总进程数。单位:个

      仅支持Linux: 通过查询/proc/stat文件计算得出。

      (Agent)运行进程数

      Agent插件指标。该指标用来统计测试对象系统运行的进程数。单位:个

      Linux通过查询/proc/stat文件计算得出。

      (Agent)睡眠进程数

      Agent插件指标。该指标用来统计测试对象系统睡眠进程数。单位:个

      仅支持Linux: 通过查询/proc/stat文件计算得出。

      (Agent)暂停进程数

      Agent插件指标。该指标用来统计测试对象系统暂停进程数。单位:个

      仅支持Linux: 通过查询/proc/stat文件计算得出。

      (Agent)阻塞进程数

      Agent插件指标。该指标用来统计测试对象系统阻塞进程数。单位:个

      仅支持Linux: 通过查询/proc/stat文件计算得出。

      (Agent)僵尸进程数

      Agent插件指标。该指标用来统计测试对象系统僵尸进程数。单位:个

      仅支持Linux: 通过查询/proc/stat文件计算得出。

      (Agent)网卡每秒发送的比特数

      Agent插件指标。该指标用于统计测量对象网卡每秒发送的比特数和值。单位:bit/s

      • Linux:通过计算采集周期内/proc/net/dev中的变化得出。

      • Windows:通过系统调用GetIfEntry2计算得出。

      (Agent)网卡每秒接收的数据包数

      Agent插件指标。该指标用于统计测量对象网卡每秒接收的数据包数和值。单位:个/s

      • Linux:通过计算采集周期内/proc/net/dev中的变化得出。

      • Windows:通过系统调用GetIfEntry2计算得出。

      (Agent)网卡每秒发送的数据包数

      Agent插件指标。该指标用于统计测量对象网卡每秒发送的数据包数和值。单位:个/s

      • Linux:通过计算采集周期内/proc/net/dev中的变化得出。

      • Windows:通过系统调用GetIfEntry2计算得出。

      (Agent)网卡每秒接收的错误数据包数

      Agent插件指标。该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率和值。单位:个/s

      • Linux:通过计算采集周期内/proc/net/dev中的变化得出。

      • Windows:通过系统调用GetIfEntry2计算得出。

      (Agent)网卡每秒发送的错误数据包数

      Agent插件指标。该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率和值。单位:个/s

      • Linux:通过计算采集周期内/proc/net/dev中的变化得出。

      • Windows:通过系统调用GetIfEntry2计算得出。

      (Agent)网卡每秒接收并已丢弃的数据包数

      Agent插件指标。该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率和值。单位:个/s

      • Linux:通过计算采集周期内/proc/net/dev中的变化得出。

      • Windows:通过系统调用GetIfEntry2计算得出。

      (Agent)网卡每秒发送并已丢弃的数据包数

      Agent插件指标。该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率和值。单位:个/s

      • Linux:通过计算采集周期内/proc/net/dev中的变化得出。

      • Windows:通过系统调用GetIfEntry2计算得出。

      (Agent)tcp总连接数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP正常连接状态数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP关闭状态数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP监听状态数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP已发送SYN请求数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP已接收到SYN请求数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP等待关闭1状态数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP等待关闭2状态数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP等待关闭状态数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP关闭中状态数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP等待接收最后ACK状态数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)TCP2次等待关闭数

      Agent插件指标,取和值。单位:个

      • Linux通过ss命令得出。

      • Windows通过powershell的get-nettcpconnection指令得出。

      (Agent)系统进程数

      Agent插件指标,取和值。单位:个,仅支持Linux。

      该指标用来统计测试对象系统总进程数。
      (Agent)运行进程数

      Agent插件指标,取和值。单位:个

      该指标用来统计测试对象系统运行的进程数。
      (Agent)睡眠进程数

      Agent插件指标,取和值。单位:个,仅支持Linux。

      该指标用来统计测试对象系统睡眠进程数。
      (Agent)暂停进程数

      Agent插件指标,取和值。单位:个,仅支持Linux。

      该指标用来统计测试对象系统暂停进程数。
      (Agent)阻塞进程数

      Agent插件指标,取和值。单位:个,仅支持Linux。

      该指标用来统计测试对象系统阻塞进程数。
      (Agent)僵尸进程数

      Agent插件指标,取和值。单位:个,仅支持Linux。

      该指标用来统计测试对象系统僵尸进程数。
      (Agent)占用CPU最多的进程top5

      Agent插件指标.单位:%。

      仅支持Linux:通过ps命令根据CPU使用情况排序得出。

      ps -e -o pid,cmd,%cpu,%mem --sort=-%cpu | head -n 6
      (Agent)序列号该指标用于统计测量对象的序列号serial number。
      (Agent)系统运行时间该指标用于统计测量对象系统开机后运行时间。
      (Agent)系统版本该指标用于统计测量对象系统版本。



      说明:

      磁盘,网卡取和值,平均值指标均为对应实例配置的设备数量原始指标的加和或平均值。



    • 选择“基础监控”页签,查看基础监控信息。

      基础监控包括CPU、内存、磁盘、网络等监控信息。您可以自定义时间段,查询指定时间段内的监控信息。

      10.png


    图表单位转换:选择支持单位转换监控图表,点击切换,根据不同指标支持单位,切换图表展示单位维度。

    聚合方法设置:选择“原始值/聚合算法”,可以切换显示当前监控面板监控数据聚合方法。


    说明

    • 系统默认显示聚合后的数据。

    • 原始值仅支持近48小时内监控数据。



新建告警规则

  1. 登录紫光云控制台。

  2. 在左侧导航栏中,依次选择“产品与服务 > 监控与管理 > 云监控”。

  3. 在云监控导航栏中选择“主机监控 > 弹性云主机”。

  4. 在弹性云主机监控页面,单击“新建告警规则”,进入实例告警规则界面。

  5. 选择资源范围,设置规则名称、规则描述(触发告警的指标项和阈值)告警级别、设置通知对象和告警方式等。

    详细参数说明,请参考“新建告警规则”。

  6. 设置完成后,单击“确定”。