基于AI实现IT环境监控的一些设想

今天同事问了我一个问题：

现在什么软件能够实现AI的监控运维？

于是我的大脑开始工作了，我并没有立即去百度或者DeepSeek，而是产生了很多的想法，在这里记录一下吧。

核心

首先，从IT监控的最底层来讲，监控可以理解成是一个7×24小时不间断工作的引擎，这个引擎不停的发起SNMP Get、HTTP Get或其他类似的Get请求。如果AI要在这个层面介入，那最需要的就是实现自我修复，发现问题，处理问题，解决问题，以确保无故障运行，比如在poll失败的时候，AI主动进行处理。

界面

展示界面，行业做法通常是使用Web Console，则必须要嵌入一个AI的入口，其演变初期，是需要人机交互才行，正常的输入文字，让AI自动处理；中期，能够处理文档，把需求文档、建设方案等等相关的文档直接喂给AI，让他自己理解并处理；后期，则是在以上基础上支持语音命令，通过麦克风识别音频指令进行执行，届时AI的界面将会变的非常简单，可能是一个简单的呼吸球，当你说出你的指令后，他会把需要交互的动作展示出来，比如输入文字还是上传文档。

响应

AI接收到指令后，添加监控设备的时候，AI能够自动识别需要监控的对象，基于海量的参数来准确的处理，比如录入SNMP版本及团体字、监控用的账号密码、自动创建新的属性。我认为这将是个难点，如何保证绝对精准。这个层面，可能需要一个行业规范，一个标准。

再延申一下，被监控设备出现问题时，是否还需告警？是否还需要人工干预？如果在确保AI足够可靠的前提下，后期很有可能给足AI权限，让AI自己登录设备进行故障处理。

告警报表拓扑图

这些相对来说就简单了，告警方面，未来即便AI足够强大可靠了，但负责人还是需要接收相关通知，AI会自动的汇总故障报告并发出，什么时间出现的问题，处理的过程，未来如何避免，什么时间恢复的等等。

报表和拓扑图，基于现有的监控数据，根据指令自动整理汇总即可。

总结

基于AI的IT的运维监控未来还是很有前景的，就是这个工作是否值得各个厂商来支持。随着技术的发展，AI会逐步的细分各行业的专用大模型，这样的好处就是硬件要求可以降下来，否则部署的成本太高。

AI真的是一场革命，各个行业都要重新洗牌了。

打赏作者

作者： Centro Sun

Maintainer,Engineer,Fixer 查看Centro Sun的所有文章

日	一	二	三	四	五	六
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

核心

界面

响应

告警报表拓扑图

总结

相关

作者： Centro Sun

发表回复 取消回复

发表回复取消回复