安派尔

软考系统架构设计师(8)-软件可靠性基础知识

2025/07/28
3
0

软考系统架构设计师(8)-软件可靠性基础知识

软件可靠性基本概念

软件可靠性:软件产品在规定的条件下和规定的时间区间完成规定功能的能力
软件与硬件可靠性4个不同点:

  • 复杂性:软件内部逻辑高度复杂,硬件则相对简单
  • 物理退化:软件不存在物理退化现象,硬件失效则主要是由于物理退化所致
  • 唯一性:软件是唯一的,软件复制不改变软件本身,而任何两个硬件不可能绝对相同
  • 版本更新更快:硬件的更新周期通常较慢,硬件产品一旦定性一般就不会更改,而软件产品版本更新较快

1.软件可靠性的定量描述
规定时间:
有3种概念:自然时间,也就是日历时间,指人们日常计时用的年月周日等自然流逝的时间段;运行时间,指软件从启动开始到运行结束的时间;执行时间,指软件运行过程中,CPU执行程序指令所用的时间总和;使用执行时间来度量软件的可靠性最为准确,效果也最好。

失效概率:
从软件开始运行,到某一时刻t为止,出现失效概率可以看作是关于软件运行时间的一个随机函数,用F(t)表示,F(t)有如下特征
F(0)=0,即软件运行初始时刻失效概率为0
F(t)在时间域(0,+∞)上是单调递增的
F(+∞)=1,即失效概率在运行时间不断增长时趋向1

可靠度:
软件系统在规定的条件下、规定的时间内不发生失效的概率,公式为R(t)=1-(t);R(0)=1,R(+∞)=0。

失效强度:单位时间软件系统出现失效的概率

平均失效时间(MTTF)、平均恢复时间(MTTR)、平均故障时间(MTBF)
img

2.可靠性目标
失效严重程度类:对用户具有相同程度影响的失效集合
对失效严重程度的分级常见的分类:按对成本影响、对系统功能的影响
对成本的影响包括失效引起的额外运行成本、修复、恢复成本、现有或潜在的业务机会的损失等
对系统能力的影响包括为关键数据的损失、系统异常退出、系统崩溃、导致用户操作无效等

软件可靠性是指用户对所使用的软件的性能满意程度的期望,可以用可靠度、平均失效时间、故障强度等来描述
可靠性目标参考表
img

可靠性测试的意义

  • 软件失效可能造成灾难性的后果
  • 软件的失效在整个计算机系统失效中的比例较高
  • 相比硬件可靠性技术,软件可靠性技术很不成熟
  • 与硬件元器件成本急剧下降形成鲜明对比的是,软件费用呈有增无减的势头,而软件可靠性问题是造成费用增长的主要原因之一
  • 软件对生产活动和社会生活的影响越来越大,从而增加了软件可靠性问题在软件工程领域乃至整个计算机工程领域的重要性

广义可靠性测试与狭义可靠性测试
广义:为最终评价软件系统的可靠性而运用建模、统计、试验、分析和评价等一系列手段对软件系统实施的一种测试
狭义:为了获取可靠性数据,按预先确定的测试用例,在软件的预期使用环境中,对软件实施的一种测试。

可靠性测试的目的:

  • 发现软件系统在需求、设计、编码、测试和实施等方面的各种缺陷
  • 为软件的使用和维护提供可靠性数据
  • 确认软件是否达到可靠性的定量要求

软件可靠性建模

软件可靠性模型:为预计或估算软件的可靠性所建立的可靠性框图和数学模型
影响软件可靠性的主要因素:缺陷的引入、发现和清除
缺陷的引入主要取决于软件产品的特性和软件的开发过程特性
缺陷的发现依靠用户对软件的操作方式、运行环境等
缺陷的清除依赖失效的发现和修复活动及可靠性方面的投入

从技术角度影响软件可靠性的主要因素:

  • 运行剖面(环境)
  • 软件规模
  • 软件内部结构
  • 软件的开发方法和开发环境
  • 软件的可靠性投入

软件可靠性的建模方法
组成:

  • 模型假设
  • 性能度量
  • 参数估计方法
  • 数据要求

3个共同假设:

  • 代表性假设
  • 独立性假设
  • 相通性假设

软件可靠性模型的分类(10类)
种子法模型
失效率类模型
曲线拟合类模型
可靠性增长模型
程序结构分析模型
输入域分类模型
执行路径分析方法模型
非齐次泊松过程模型
马尔可夫过程模型
贝叶斯分析模型

软件可靠性管理

容错设计技术

  • 恢复快技术:选择一组操作作为容错设计单元,从而把普通的程序块变成恢复块,一个恢复快包含有若干功能相同,收入及差异的程序块文本,每一时刻有一个文本处于运行状态。文本出现故障时,用备份文本进行替换,形成动态冗余。
  • N版本程序设计:通过设计出多个模块或不同版本,对于相同初始条件和相同输入的操作结果,实行多数表决。需注意:
    • 使软件的需求说明具有完全性和精确性
    • 设计全过程的不相关性
  • 冗余设计:在一套完整的软件系统之外,设计一种不同路径、不同算法或不同实现方法的模块或系统作为备份,在出现故障时可以使用冗余的部分进行替换以维持软件系统的正常运行

检错技术:在软件出现故障后能及时发现并报警,提醒维护人员进行处理。
检错技术着重考虑几个要素:检测对象、检测延时、实现方式、处理方式
检测对象:包括两个层次的含义,即检测点和检测内容
检测延时:从软件发生故障到被自检出来是有一定延时的,这段延时的长短对故障的处理是非常重要的。
实现方式:最直接方式是判断返回结果,结果超出正常范围,则进行异常处理;计算运行时间也是常用的技术
处理方式:采用查出故障——停止软件系统运行——报警的处理方式,也有采用不停止或部分停止软件系统运行的情况,一般由故障是否需要实时处理来决定

降低复杂度设计:在保证实现软件功能的基础上,简化软件结构,缩短程序代码长度,优化软件数据流向,降低软件复杂度,从而提高软件可靠性

系统配置技术
双机热备技术:一种软硬件结合的较高容错应用方案,由两台服务器系统和一个外接共享磁盘阵列柜和相应的双机热备份软件组成。分3种不同的工作模式

  • 双机热备模式:Active/Standby方式,Active如武器处于工作状态,而Standby服务器处于监控准备状态,当Active服务器出现故障时,通过激活Standby服务器来保障应用的正常使用。
  • 双机互备模式:两台相对独立的应用在两台机器同时运行,批次均为备机
  • 双机双工模式:集群的一种形式,两天服务器均处于活动状态,同时运行相同的应用,以保证整体系统的性能

服务器集群技术:一组相互独立的服务器在网络中组成单一的系统工作,并以单一系统模式加以管理。集群内各结点服务器通过内部局域网相互通信,当某结点服务器发生故障时,这台服务器上所运行的应用程序将在另一结点服务器上被自动接管

软件可靠性测试

软件可靠性测试由可靠性目标确定、运行剖面开发、测试用例的设计、测试实施、测试结果的分析等主要活动组成。

定义软件运行剖面:为软件的使用行为建模,开发使用模型,明确需测试内容
可靠性测试用例设计:测试用例要能够反应实际的使用情况,优先测试最重要的和最频繁使用的功能
典型的测试用例包括以下内容:

  • 测试用例标识
  • 被测对象
  • 测试环境及条件
  • 测试输入
  • 操作步骤
  • 预期输出
  • 判断输出结果是否符合标准
  • 测试对象的特殊需求

可靠性测试实施
软件可靠性数据分4类:
失效时间数据:记录发生一次失效所累积经历的时间
失效间隔时间数据:记录本次失效与上一次失效间的间隔时间
分组时间内的失效数:记录某个时间区间内发生了多少次失效
分组时间的累积失效数:记录到某个区间的累积失效数

软件可靠性评价

评估和预测软件可靠性过程包含3个方面

  • 选择可靠性模型
  • 收集可靠性数据
  • 可靠性评估和预测

如何选择可靠性模型
可以从以下几方面进行比较和选择

  • 模型假设的适用性:模型假设要符合软件系统的现有状况
  • 预测的能力与质量:模型根据现在和历时的可靠性数据,预测将来的可靠性和失效概率的能力,以及预测结果的准确程度
  • 模型输出值能否满足可靠性评价需求:最重要需要精确估计的可靠性定量指标
    • 当前的可靠度
    • 平均无失效时间
    • 故障密度
    • 期望达到规定可靠性目标的日期
    • 达到规定的可靠性目标的成本要求
  • 模型使用的简便性:包含3层含义
    • 数据在软件系统中易于收集,收集成本不能超过可靠性计划的预算
    • 模型应该简单易懂,测试人员不需花费太多时间研究
    • 模型应该便于使用,最好能用工具实现数据的输入

可靠性数据收集
关于数据的收集工作,存在以下问题

  • 可靠性数据的规范不统一,对软件进行度量的定义混乱不清
  • 数据收集工作的连续性不能保证
  • 缺乏有效的数据收集手段
  • 数据的完整性不能保证
  • 数据质量和准确性不能保证

针对以上问题解决办法如下

  • 及早确定所采用的可靠性模型,以确定需要收集的可靠性数据
  • 制定可实施性较强的可靠性数据收集计划,指定专人负责
  • 重视软件测试特别是可靠性测试产生的测试数据的整理和分析
  • 充分利用数据库来完成可靠性数据的存储和统计分析

软件可靠性的评估和预测
目的:评估软件系统的可靠性状况和预测将来一段时间的可靠性水平
需要软件可靠性评价进行解答的问题:

  • 判断是否达到了可靠性目标,是否达到了软件付诸使用的条件,是否达到了中止测试的条件
  • 如未能达到,需要再投入多少时间、人力、资金
  • 在软件系统投入实际运行若干年后,经过维护、升级、修改,软件能否达到交付或部分交付用户使用的可靠性水平

软件可靠性数据分析方法:失效数据的图形分析法、试探性数据分析技术