如何保证AIOps的成功实施?

如何在 IT 监控中建立可持续的 ML/AI 实践

随着越来越多的人在家工作以及 IT 基础架构的日益复杂,了解利用机器学习 (ML) 和人工智能 (AI) 改进 IT 运营的最佳方法非常重要。ML 和 AI 已承诺给 IT 运营带来颠覆性变化,许多组织已经决定采用人工智能进行 IT 运营 (AIOps) 或很快采用。然而,实施和部署 AIOps 仍然非常具有挑战性。在这里,我们想提供一些技巧来确保成功实施 AIOps。

如何保证AIOps的成功实施?-南华中天

如何保证 AIOps 的成功实施?

提示 1:数据是金

ML 和 AI 都以对数据的渴望而闻名。没有办法高估数据对成功实施 AIOps 的重要性。IT 监控工具都包含丰富的设备和事件指标,但数字资产库存、组织结构和工作流信息等其他数据可以显着增强 AIOps 的有效性。

提示 2:数据质量仍然很重要

就像数据的数量一样,数据的质量同样重要。尽管 ML 和 AL 模型比传统的分析方法更能容忍噪声,但“garbage in,garbage out”这句老话在大多数情况下仍然成立。虚假的警报、过时的信息和杂乱无章的数据只会带来更多的混乱而不是清晰。数据质量,例如准确的时间戳和新鲜度,可以为总体 AIOps 旅程奠定良好的基础。

技巧 3:区分实时和非实时分析

组织数据的一个技巧是将实时数据与非实时数据区分开来。与批处理相比,实时分析需要一整套不同的管道来处理,因此一般来说,在存储、处理和预测方面将实时数据与非实时数据分开是一种很好的做法。当实时数据过时时,可以将其合并为非实时数据,为最新的实时数据留出空间。

提示 4:特征工程与模型训练同样重要

特征工程是通过附加标签、应用不同维度的分类或分组、或应用 PCA(主成分分析)等为数据带来更多结构的工作。虽然特征工程不直接生成预测,但它带来的结构数据集将极大地影响模型训练的效率、训练模型的有效性以及模型的迭代速度。

如何保证AIOps的成功实施?-南华中天

提示 5:人类经验仍然很重要,但需要编纂

机器学习和人工智能非常强大,但它们并不能取代人类智能。相反,它们的定位是增强人类智能。IT行业积累了大量的最佳实践,在历史上曾多次拯救过我们。这种人类知识的最佳实践一旦被编纂,对于 ML 和 AI 模型来说是学习和放大的宝贵资产。

技巧 6:从较少的因素开始,逐渐增加复杂性

许多高级机器学习模型可以考虑大量因素并构建非常复杂的模型。有了这种“超级大国”的便利,人们往往倾向于将尽可能多的数据转储到机器中,然后让机器来处理海量的数据。然而,更多的数据并不总是等于更好的结果。没有纪律地将数据转储到机器模型中只能产生复杂的信号。建议从 PCS 认为最重要的简单模型和限制因素开始。简单的模型可以揭示监测的主要趋势,并且很容易被人脑所理解。通过一小部分因素获得的洞察力,可以通过添加更多因素或与另一个模型连接以进行更高级的分析来增强模型。

技巧 7:不要依赖一个模型,而是并行运行多个模型

没有一种模型是万能的。一些模型擅长信息简化,而另一些模型可能擅长信息增强。不同的模型可以从同一组数据中获得不同的见解。训练和部署多个模型有助于提供 360 度数据视图。不要建立一个包含所有因素的巨型模型,而是建立一个由小模型组成的森林,它们共同可以更强大且更易于管理。

提示 8:预测很重要,解释也很重要

机器模型的一个固有缺点是很难解释数据之间的因果关系。但是,了解警报和事件的根本原因对于 IT 运营至关重要,而这正是人类智能可以发挥作用的地方。可以为模型迭代输入人工评论或历史干预,并使模型越来越可解释。

如何保证AIOps的成功实施?-南华中天

提示 9:不要构建黑盒,而是让工具具有交互性

与解释的主题相关,最好建立一个可以在需要时获得人工干预的流程,并选择调整后的前进路径。经验丰富的 IT 运营商可以在它们仍然迫在眉睫时挑选一些早期信号,并在可能的情况下建议最佳捷径。对人类预感增强的大量数据进行机器分析可能是惊人的,应该构建工具来适应这种组合。

提示 10:数据驱动的思维方式与数据一样重要

最后但同样重要的是,在组织中拥有数据驱动的思维方式对于 AIOps 部署的成功至关重要。围绕数据从数据生成、存储、细化到回收建立一个规范的流程将最终保证 AIOps 的成功和持续改进。