您现在正在浏览：首页 » 学术成果 » 论文 » 正文

论文 | 吕孝礼、曹天成、苗圣法 | 应急情景模拟演练的即时评估与反馈：经验与启示

发布时间： 2026-03-21 14:03:38 作者：本站编辑来源：本站原创浏览次数：我要评论()

编者按

吕孝礼、曹天成、苗圣法近日在《灾害学》期刊发表了题为《应急情景模拟演练的即时评估与反馈：经验与启示 》的文章，也是《灾害学》“创刊40周年”纪念专栏编委征稿文章。以下为论文信息：

吕孝礼,曹天成,苗圣法.应急情景模拟演练的即时评估与反馈：经验与启示[J/OL].灾害学,1-9[2026-03-17].

应急情景模拟演练的即时评估与反馈：经验与启示

吕孝礼曹天成苗圣法

摘要：应急情景模拟演练作为提升突发事件应对能力的重要手段，其评估与反馈环节并未引起足够重视。已有演练评估实践面临“反馈结构化”与“情景真实性”间平衡的张力。针对此挑战，该文在梳理已有演练评估方法并结合应急桌面推演实践的基础上，发现即时评估与反馈机制可提供个体话语能力、群组互动动态以及多主体决策与冲突演化三类分析结果，同时也指出当前主要挑战：多源数据的模态间对齐、通用语义模型难以解析领域专业术语承载的决策逻辑、行为分析尚难以完全揭示互动中的复杂动态等。最后，该文围绕数据采集和整合、支撑团队建设等议题提出未来展望。

关键词：即时反馈;模拟演练;演练评估;应急管理;

基金资助：北京市教育科学“十四五”规划重点课题“情景模拟教学中的多模态即时反馈探索”（CDAA21029）

专辑：工程科技Ⅰ辑;社会科学Ⅰ辑

专题：安全科学与灾害防治;行政学及国家行政管理

分类号：X4;D63

在线公开时间：2026-03-10（知网平台在线公开时间，不代表文献的发表时间）

访问链接：https://link.cnki.net/urlid/61.1097.P.20260310.1012.002

本文所指的演练评估反馈，是指在导调员塑造的心理安全氛围中，由评估专家或导调员为参训学员提供演练任务及表现的反馈，同时激发学员自我反思，以期实现其对演练目标所涉及的知识、技能、态度等方面认识的集体意义建构。

相较于演练方案设计、场景构建等环节，演练评估与反馈的学术研究和实践探索仍处于相对滞后状态，其规范性、针对性与即时性不足的问题仍广泛存在。

国外围绕演练评估反馈的设计及其有效性的影响因素开展了持续探索[4]。1970 年代，美国陆军率先采用行动后学习机制（After Action Review, AAR）进行演练和行动复盘，并逐步在消防（AER, After Event Review)、医疗（Debrief)[5]、航空（Crew Resource Management）等高可靠性组织场景在实务和训练工作中得以推广。近年来，随着多模态数据采集、机器学习、自然语言处理等技术的发展[6,7]，进一步将音视频、生理指标、传感数据等融入演练评估[8,9]，医疗、航空等领域的模拟演练已出现探索和产品应用，如视频辅助的复盘、高级视频反馈系统[10–12]。

国内应急情景模拟演练评估反馈实践主要形成了两类典型模式。

以中石油、中海油、中国地震应急搜救中心为代表的结构化评估模式，通过预设量表、评分标准实现演练表现的量化反馈，虽保障了评估的规范性，却在一定程度上牺牲了模拟情景的真实性与连贯性[13,14]。
以中共中央党校（国家行政学院）、香港警察机动部队总部为代表的专家点评模式，强调场景的真实性与完整性，通过领域专家的非结构化观察与点评实现反馈，却因缺乏统一的评估指标与标准，难以形成结构化的即时评估结果[15–18]。

当前，国内学者关注了复盘式评估方法优化[19]、结构化评估量表设计[20]及多模态技术在演练评估中的应用[12]等议题，仍需进一步关注如下研究议题：

如何平衡反馈结构化与情景真实性的核心张力；
传统复盘式评估高度依赖专家经验，易受认知偏误与记忆衰减影响，自我报告量表等结构化评估易破坏演练的沉浸感与连贯性[19,21]，仍难以满足应急演练即时性、规范性、针对性的评估需求。

本文聚焦“如何在保持情景真实性的前提下实现演练评估的即时结构化反馈”这一核心问题。

与医疗等领域技术培训的反馈不同，应急桌面演练领域的探索存在三方面差异：

数据采集受限程度高，类似于电子假人的传感反馈数据可得性偏少，未来可考虑在减少干扰的情况使用穿戴设备，但使用脑电在此类演练中挑战较大；
应急桌面演练中言语互动是主要手段，互动中谈及的议题比单一主题的技术学习或者沟通更多元，这对语义和多模态建模提出了更高要求；
评估不仅仅关注个体表现，个体间互动、协调、冲突等过程建模需要进一步聚焦，进而锚定分析主题和变量，建模的复杂性和数据快速反馈评估的效率需要平衡，也需要更多前沿探索。

目前探索性的即时反馈主要提供三类分析结果：

个体的话语能力评估分析，即学员通过话语策略影响他人、构建和表达具有说服性的叙述的能力[63]，目前的评估包括两类指标，一类是为增强说服力使用的专业知识，如互动中使用专业数据的情况、引用数据和逻辑表达的情况等；另一类是为建立并强化其发言正当性而使用的话语策略，如引入上级论述的情况、引入制度规定的情况等。
群组互动的焦点及动态。研究团队使用语音识别软件将音频转写为文本，人工校验后再根据事先构建的学员之间指称1列表，进而根据团队成员之间的指称情况构建互动网络，分析互动强度，识别会议焦点人物、分析焦点人物演化动态。

群组互动的焦点及动态

多主体的决策演化与利益博弈。研究团队利用大语言模型微调预先提取了演练脚本中的角色职责、核心诉求及潜在冲突点，构建了“脚本知识图谱”，为演练提供结构化认知锚点。在演练过程中，团队实时采集学员对话数据，借助大语言模型开展语义解析，还原多主体博弈下的决策演化路径，并与“脚本知识图谱”进行比较分析。评估结果展示了学员在角色一致性（是否坚守了部门职责）、诉求响应度（是否有效回应了他人的关切）以及冲突协调能力（是否在博弈中推动了共识形成）等方面的表现。

演练角色间互动行为网络分析反馈结果

在前期两个场景实践中，研究发现即时评估与反馈仍面临下述挑战：

多元设备采集的多源数据的模态间对齐问题。前述演练中，课题组通过音频采集和识别技术能够分离角色，并开展内容转写，更多是文本层面的分析。然而，当试图整合音频和视频数据开展分析时，跨模态互动的捕捉和分析仍是面临的挑战。比较典型的场景是，当A发言时，B是点头示意、眼神回避还是与其他演练学员进行无声的目光接触。作为典型的即席言语实践，这仍需要探索多模态分析工具来快速捕捉上述动态，进而刻画跨模态互动过程。这也是当前其他场景多模态学习分析中面临的普遍问题[8]。
通用语义模型难以解析领域专业术语背后的决策逻辑。在演练A（病毒研判）中，参演专家频繁使用“GISAID 数据库”“CT 值”“气溶胶传播”等特定术语。这些术语并非孤立的词汇，其特定组合往往隐含了专家的风险研判逻辑。例如，当专家提及“关注 CT 值”时，其研判逻辑可能是为了区分“既往感染”与“新发感染”，进而决定是否启动流行病学调查。然而，缺乏领域知识支撑的通用NLP模型往往只能捕捉到“核酸检测”等表层关键词，无法理解其背后的临床与流调差异，易于导致对研判逻辑是否合理的误判。此外，专家发言过程具有差异性，高水平专家倾向于跳过常规研判步骤直接切入核心（如直接讨论封控范围，而不对传播原理进行铺垫陈述），这种模式极易被预设算法判定为“研判步骤缺失”或“逻辑不严密”。
客观的行为分析尚难以揭示互动中的复杂动态。目前的分析结果很难区分高效的“共识达成”与缺乏批判的“群体迷思”（Groupthink）。一个异议极少的小组在网络图谱中可能表现完美，但在专家眼中可能是为了维护表面和谐而回避矛盾的“虚假共识”。因此，对行为数据结果的解读分析仍高度依赖专家知识的支撑。