基于AI实现IT环境监控的一些设想

今天同事问了我一个问题:

现在什么软件能够实现AI的监控运维?

于是我的大脑开始工作了,我并没有立即去百度或者DeepSeek,而是产生了很多的想法,在这里记录一下吧。

核心

首先,从IT监控的最底层来讲,监控可以理解成是一个7×24小时不间断工作的引擎,这个引擎不停的发起SNMP Get、HTTP Get或其他类似的Get请求。如果AI要在这个层面介入,那最需要的就是实现自我修复,发现问题,处理问题,解决问题,以确保无故障运行,比如在poll失败的时候,AI主动进行处理。

界面

展示界面,行业做法通常是使用Web Console,则必须要嵌入一个AI的入口,其演变初期,是需要人机交互才行,正常的输入文字,让AI自动处理;中期,能够处理文档,把需求文档、建设方案等等相关的文档直接喂给AI,让他自己理解并处理;后期,则是在以上基础上支持语音命令,通过麦克风识别音频指令进行执行,届时AI的界面将会变的非常简单,可能是一个简单的呼吸球,当你说出你的指令后,他会把需要交互的动作展示出来,比如输入文字还是上传文档。

响应

AI接收到指令后,添加监控设备的时候,AI能够自动识别需要监控的对象,基于海量的参数来准确的处理,比如录入SNMP版本及团体字、监控用的账号密码、自动创建新的属性。我认为这将是个难点,如何保证绝对精准。这个层面,可能需要一个行业规范,一个标准。

再延申一下,被监控设备出现问题时,是否还需告警?是否还需要人工干预?如果在确保AI足够可靠的前提下,后期很有可能给足AI权限,让AI自己登录设备进行故障处理。

告警报表拓扑图

这些相对来说就简单了,告警方面,未来即便AI足够强大可靠了,但负责人还是需要接收相关通知,AI会自动的汇总故障报告并发出,什么时间出现的问题,处理的过程,未来如何避免,什么时间恢复的等等。

报表和拓扑图,基于现有的监控数据,根据指令自动整理汇总即可。

总结

基于AI的IT的运维监控未来还是很有前景的,就是这个工作是否值得各个厂商来支持。随着技术的发展,AI会逐步的细分各行业的专用大模型,这样的好处就是硬件要求可以降下来,否则部署的成本太高。

AI真的是一场革命,各个行业都要重新洗牌了。

打赏作者

作者: Centro Sun

Maintainer,Engineer,Fixer

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注