什么是云容量管理以及如何实现目标?
几十年来,容量管理一直用于优化组织内部资源。现在,随着IT逐步转向云环境,这种方法正在被扩展,以便在同一个地方和同一时间实现所有资源(包括云计算和本地部署)的整体规划、管理和优化。
对于现代数字企业而言,容量和成本管理对于确保足够的资源和预算(无论是在本地部署还是在云平台中)来支持新的、现有的和不断增长的业务服务至关重要。在云迁移过程中,在迁移到云平台之前对资源进行适当的调整有助于防止过度配置、不必要的运营费用、云蔓延、过度管理的复杂性。性能基准测试有助于确保云计算资源提供与本地资源相同或更好的性能。
容量管理继续在本地资源中发挥关键作用。根据调研机构Gartner公司的调查,目前大约28%的服务器容量,以及40%的存储空间未被使用。随着越来越多的应用程序迁移到公共云,容量管理可以帮助企业了解可以停用哪些本地资源,以及如何在剩余资源上最佳地重新加载本地工作负载。
在云计算资源和内部部署资源中,容量管理通过帮助组织确定其在整个环境中注意到的容量级别(包括计算配置、存储、数据库和网络带宽),以及提供这些资源的最具成本效益的方法,来通知预测和规划。
以下将了解将容量管理扩展到云计算的含义:它需要什么?它与传统的内部部署容量管理有何不同?以及如何在关键用例中应用它?
云计算对容量管理意味着什么
在云计算出现之前,容量管理在IT方面有着悠久的历史。在大型机时代,容量管理绝对至关重要,而用户必须提前订购和熟悉大型机,需要确切了解确保性能和可用性所需的内容。否则,用户将面临资源最大化、资源短缺以及没有足够的多种信息平台(MIP)来支持需要运行的关键业务工作的风险。
随着易于部署和价格更低的分布式服务器和虚拟机的兴起,许多组织转向性能管理方法,在这种方法中,性能问题被用来标记容量问题。当然,这也意味着接受效率低下的资源调配的高成本,因为虚拟机在环境中的应用激增,工作人员并不了解每台服务器的容量或利用率。随着时间的推移,资本支出日前膨胀,许多组织又采用了容量管理方法,无论是使用正式工具还是非正式的电子表格、注释和近似值。
现在,云计算显著提高了大多数组织的IT环境的复杂性。根据ESG公司的调查,81%的组织采用了两个或更多公共云,51%的组织使用三个甚至更多。只有16%的组织只采用本地部署或单个公共云环境。组织在更加复杂的环境中管理容量,并实现全面的整体可视性,以确保每个服务都具有所需的容量,这比以往任何时候都更具挑战性,也更加重要。容量管理还支持明智的决策,即哪些应用程序、服务和工作负载最适合迁移到云平台上,以及正确的移动方式。组织了解其所拥有的、正在使用的以及为之付出的一切,使得管理成本和避免支出膨胀成为可能。
容量管理生命周期
步骤1:导入数据 数据就是力量:如果没有它,企业就无能为力。容量管理的关键第一步是为资源导入性能、容量和配置以及业务KPI的度量标准,其中包括:
•物理设施/虚拟设施/云计算基础设施
•数据库
•存储
•网络
•大数据
•设施
收集这些数据有多种方法,其中包括从实时监控工具、行业标准ETL提取、直接API集成中导入数据。企业还需要确定要收集数据的频率和精细度;大多数组织通常采用每24小时收集的方法,而收集的数据越多,基础信息就越全面,从而通过复杂的分析提供更好的洞察力。这有助于企业做出更好的业务决策,并变得更加主动。
收集性能数据只是完全成熟的容量管理生命周期的一半。企业还需要业务服务模型,可能从某种发现解决方案填充到配置管理数据库(CMDB)中。发现工具为组织提供其已知和未知资产的完整清单。通常,发现解决方案也可以映射应用程序。这样可以深入了解哪些应用程序正在使用哪些基础设施,以及某些相关应用程序是否需要接近以获得更好的性能。目前的最佳实践是,在构建分析、模型、报表和仪表板时,利用在配置管理数据库(CMDB)中标识为配置项(CI)的标记作为筛选条件。
使用标记方法是获取服务视图的另一种方法,也是云计算服务提供商鼓励使用的方法。利用良好的标记方法,组织可以创建满足各种利益相关者需求的数据自定义视图,同时需要了解内部部署和云计算资源使用情况以及成本。典型的标记包括按部门分类、数据关键性、遵从性、实例类型、集群、用户组等。标记可以在资源配置时应用,但随着时间的推移,企业可能还需要使用容量管理应用程序定义和应用其他标记。
容量管理应用程序负责将IT和业务方面结合在一起。这将提升容量管理实践,从简单的孤立基础设施容量管理升级到更成熟的服务级别功能,从而实现高级建模技术,例如对服务需求进行建模更改。
步骤2:分析数据 组织既然拥有了数据,那么还需要了解资产,以了解实际情况。许多组织缺乏对其业务服务的可见性,因为他们的业务被组织成由多个监控工具管理的技术孤岛,每个监控工具都有自己的用户界面。利用在一个位置提取和组织此数据的解决方案至关重要。这将人们带到第二步:数据分析。
利用率分析应该从以下几个方面进行。
•可见性:整个环境的可见性是容量管理过程的基础。企业通过可见性来分析发现数据,深入了解其拥有的资产、资产配置以及资产所在位置。
•基线:接下来,配置正常的利用率配置文件和基线(此步骤需要机器学习)。企业需要了解一段时间内的使用模式,并确定其存在的周期性行为的类型及其原因。分析的时间越长,收集的数据越多,基线和分析的准确性就越高。持续的数据收集和分析是正确分析和基线的关键。
随着时间的推移,了解资源使用模式有助于组织确定确保一致性能所需的容量级别。
•峰值分析:确定周期性行为和最繁忙的时期。了解工作负载何时发生变化对于高效使用至关重要,尤其是在云平台中,组织每天、每小时、每分钟或每秒都在为资源付费。通过理解这些行为,组织可以在不浪费资源的情况下,对如何处理应用程序和资源应用程序做出更好、更明智的决策,以确保性能。
•优化:寻找优化资源使用的机会。这可能涉及使计算配置适应工作负载的变化,例如添加内存或CPU。这就需要有效地实现自动化。人工操作通常已经过时,并且无法跟上现代企业的变化步伐。
步骤3:预测数据 组织通过了解当前拥有的内容以及如何使用资源,可以通过预测未来利用率以及潜在的容量限制或饱和度来更加主动地管理其环境。这些知识可以帮助组织防止服务降级,并防止潜在的中断。预测还可以了解未来配置变化将如何影响当前和预计的性能,这是容量管理过程的另一个关键方面。
通过预测,组织可以预测未来配置更改对利用率水平的影响,并在影响性能之前标记预期饱和点。
要主动识别存储容量饱和度:
•确定存储池何时可能用完容量。
•量化满足分配要求所需的额外容量。
•验证存储系统中是否有足够的未使用磁盘来扩展现有存储池。
这个过程可以避免购买不足的情况,并满足当前和未来的存储要求,从而可以防止停机。同时,精确的大小调整有助于避免过度购买和浪费存储容量。
步骤4:使用数据进行规划 既然组织了解了现有系统、应用程序和业务服务的预计有机增长,现在就可以开始实施第4个步骤,该步骤的重点是规划新的项目、应用程序和业务服务。这通常被称为需求管理或预留感知容量管理。
在此步骤中,组织需要关注两个问题:
(1)有足够的容量来完成这些新项目吗?
(2)这些新项目将如何影响当前运行的其他应用程序和业务服务?
容量管理数据可以输入资源预留仪表板,以提供问题的答案,其中包括:
•拥有什么资源以及如何使用?
•存储什么资源以及什么时候存储?
•是否拥有现有资源或正在添加新资源?
•可以释放多少容量?
•什么时候回收资源,并将其添加回可用资源池?
预留仪表板提供每个服务所需资源的清晰可见性,何时需要这些资源以及是否已提交这些资源。
步骤5:预测变化和回收容量 容量管理实践演进发展的下一步是预测服务需求变化对现有系统、应用程序和业务服务的影响。这通常被称为业务服务级别的排队网络建模,或IT基础设施资源(计算和存储)的优化。
在此步骤中,容量管理器模拟特定业务场景所必需的系统更改。例如:
•模拟IT基础设施变化对业务增长与计算响应时间和资源利用率约束的影响。
•模拟整合和虚拟化方案,以确定潜在变更将如何推迟或消除饱和度。
•模拟灾难恢复方案或资源淘汰导致的服务影响,作为云迁移计划的一部分。
容量管理可以预测系统资源的未来行为,例如这些和其他许多场景,以及对业务关键绩效指标(KPI)的影响。这有助于IT将业务需求与容量需求相关联,并根据需要调整资源以支持它们。如果即将发生的事件可能会改变应用程序资源需求,组织可以相应地建模,例如,保险公司可能需要额外的资源来支持开放注册期。而在每个学年开始时,大学需要更多资源来管理学生入学事务。零售商需要资源来支持黑色星期五、网络星期一、活动和产品发布以及其他销售活动。每个企业都有可显著改变所选应用程序工作负载的事件。这些应用程序通常面向客户,对业务至关重要,并使用跨多层和共享环境的资源进行交付。
黑色星期五这样销售活动的例子清楚地说明了这一级别的容量管理成熟度的价值。在某些情况下,一些零售商的年收入的一半以上是在年末的假日季节产生的。如果零售商的网站在最重要的年终假日购物季节期间出现故障或滞后,消费者会迅速转到其竞争对手的网站,组织不仅会失去销售份额,还会失去客户。容量建模可以防止这些资源短缺的发生。
在以下示例中,可以看到零售商的网站每小时大约有5,000人访问,将会产生1,000个订单。人们想知道当前的共享多层环境是否可以处理增加的网络流量,因为组织正在进行促销,业务预期是平时流量的5倍和平时的订单量的3倍。如果有限制,它会在哪里?如何纠正限制以支持服务需求的变化?如果没有有效的容量管理实践(可能是粗略估计或纯粹的猜测),这将很难确定。
随着预期的需求激增,组织们需要确保具有足够的容量来处理它,而不会危及计算的响应时间。此外,组织需要了解共享的多层基础设施中的约束条件,以及需要做些什么才能改变环境以支持服务需求的增长。
容量管理者可以通过模拟服务需求变化以及为解决这些变化而进行的各种配置或容量修改的影响,确保足够的容量来应对预期的激增。
通过对这些服务需求变化的影响进行建模,可以估计饱和度和容量约束,以及了解减轻约束所需的配置和/或容量修改。并确切地知道需要做什么以及何时需要这样做以支持业务。
在此步骤中可以解决的其他问题包括:
•组织还可以部署多少个其他虚拟机?
•哪一个是分配它们的最佳集群?
•可用性区域是否接近饱和?
•如何提高虚拟主机的效率?
•根据当前趋势,哪种资源最受限制,最有可能影响组织的服务?
•组织有多少备用容量?什么时候会根据业务增长来饱和资源?
对于云计算资源,容量管理可以阐明以下内容:
•组织是否需要购买更多虚拟机,增加或减少当前使用的虚拟机的大小,或更改类型?
•组织是否需要增加或减少特定应用程序的存储空间?
•这些变化的成本是多少?
•迁移到不同的云供应商的成本是否会更低?
步骤6:使用数据进行报告
在数据导入、可视性、分析、预测、计划和建模之后,容量管理成熟度的下一步是能够自动生成可分发给利益相关者的报表和仪表板。这些利益相关者可以包括仅负责个别技术孤岛、业务健康状况,特定应用程序,以及以上所有方面的人员。因此,定期为每个利益相关者自动生成具有不同内容的各种报告和视图非常重要。这还可以包括生成基于异常的报告或展示报告。
容量管理用例:原因和方式 管理云计算容量
防止云计算容量浪费是容量管理的关键目标,但同样重要的是确保在云计算资源上运行的应用程序和服务具有足够的容量。为了在确保客户和业务用户获得良好体验,同时最大限度地利用云计算开支,组织可以使用容量管理工具:
•扫描当前的环境使用情况,以获取可用于提高基于云计算的服务性能的配置更正。
•确定可能的配置更正,以实现性能改进。
•扫描云计算资源以获得提高效率或性能的其他机会,例如识别未正确退役的资源或仍然可用但未使用的资源。
•根据数据驱动的建议制定新政策;例如,调整大小、未使用或过度配置容量等。
将内部部署资源和应用程序迁移到云平台
在进行任何云迁移计划之前,组织需要了解如何配置本地基础设施以及这些工作负载的使用模式,以便其可以就所需的云计算资源做出明智的决策,其中包括类型、大小和配置。例如:
•在将任何服务或应用程序移动到云端之前,从高效资源利用的角度清理内部部署的使用情况是至关重要的,这样组织就不会出现过度配置和超额支付的情况。
•许多内部部署应用程序并不是为了利用云平台中的现代技术而设计的。这可能导致资源效率低下或流程效率低下的服务,进而导致过度配置和高运营成本。
•当组织在迁移到云端时看到使用情况如何变化时,可以查看前后指标,以指导有关哪些内部部署资源退役的决策,同时还可以展望如何充分利用可用的云计算基础设施。
成本优化与控制
有效的成本控制和优化使IT能够为企业提供更高的投资回报,同时确保资金可用于创新。为此,组织可以使用容量管理工具:
•监控指标,如每日总支出;每种资源类型(虚拟机、数据库、存储等)的每日支出;每月迄今的支出、使用情况和计算每项服务的小时数;以及每月和每年的支出预测。这些数据可用于跟踪预算支出,并确定支出的任何重大变化。
•对活动工作负载执行成本比较,以了解实例类型和平台之间的成本差异。
•根据使用和支出阈值创建暂停或终止实例的策略。 将IT服务成本的能力与业务服务联系起来 以业务为中心的容量和利用率视图可以帮助组织确保IT支出与业务优先级保持一致。这个过程包括:
•根据为其提供支持的IT服务定义业务服务。
•通过IT服务了解内部部署和云计算容量。
•按业务服务跟踪资源利用率和成本。
生成成本管理报告
为了优化支出,避免浪费,并使投资与不断变化的需求和优先级保持一致,重要的是要清楚地了解每项服务的真实成本。容量管理工具可以捕获IT和业务线所需的数据,以根据各种技术选项的相对成本以及它们所支持的业务服务的相对盈利能力做出具有成本效益的决策。这将包括:
•将IT成本与应用程序,业务服务,部门或客户相关联。
•模拟基础设施或成本模型变更对IT成本的影响。
•生成成本分解报告,与利益相关方共享,以帮助他们了解IT预算的使用情况。
•利用服务成本数据,根据内部团队、业务部门、合作伙伴或外部客户的资源利用率向他们收取费用,通过激励员工和业务部门做出更加优化的决策和行为,重新获得支出和/或推动组织变革。
结论
为了让业务提供最大价值,IT部门需要在内部部署和云计算环境中实现资源容量、成本和利用率的最佳平衡。通过确保足够的高质量服务交付能力,同时避免浪费,组织可以获得最大的支出回报,同时避免停机和中断。容量和成本管理的整体方法提供了保持业务最佳运行所需的可视性、洞察力和控制能力。