汉密尔顿抑郁量表不同版本临床测量特性评析 - 抑郁性神经症

TUhjnbcbe - 2021/8/13 18:23:00

前言

汉密尔顿抑郁量表(HAMD)是临床上使用最广泛的抑郁症评定量表，用于评估抑郁症患者的抑郁严重程度。第一个版本的HAMD最初是由MaxHAMilton在年出版的，由21个项目组成，即HAMD21。此版本的引用次数在Scopus上超过21,。然而，汉密尔顿本人建议只使用HAMD21的前17个项目，因为最后4个症状(即昼夜变化、人格解体/现实解体、偏执和强迫/强迫症状)要么不被认为是疾病的一部分，要么相对不常见，或者它们不被认为是与抑郁症严重程度相关的症状。

多年来，研究者提出了对该量表的一些修改意见，而且开发了多个版本的HAMD并投入使用。HAMD不同版本的主要区别有以下几个方面：

1.项目：

可用HAMD版本的项目数量、顺序和措辞上有所不同，包括评分程序。最广泛使用的HAMD版本的项目如表1所示。

2.非结构化与结构化版本：

实施方式包括只有评定、没有访谈指南和锚点的非结构化版本以及至少有锚点，辅之以半结构化的或结构化的面谈问题。HAMD原始版本(HAMD21)的格式是非结构化的，MaxHAMilton只提供了对HAMD21单个项目进行评定的一般说明。换言之，HAMD的非结构化版本，特别是HAMD21和HAMD17，完全依赖于评估人员的专业知识和临床判断。HAMD23版本明确提供了用于对HAMD的每个项目进行评定的项目定义和“操作标准”(即锚点)。引入的锚点(大多在0到4之间)是用来检测抑郁症状的存在和严重程度。

60年代中期，EugeneS.Paykel开始开发CID，来对抑郁症进行全面评估。CID包括项目定义、按7分等级评定的特定锚点和半结构化访谈，每个项目都有指定的初始问题，如果情况需要，可以修改这些问题，并在症状出现时进行进一步调查。Morriss等人出版了带有半结构式访谈的HAMD的结构化版本，由17个项目组成，包括评定抑郁症状严重程度和频率的锚点。此外，Timmerby等人介绍了HAMD6的结构化版本，其中包括用于评估抑郁症核心症状严重程度的锚点和访谈指南。

此外，还开发了HAMD的更多版本，包括结构化访谈，目的是提高评分员间信度，以及单个项目的可靠性。在一本关于人际心理治疗的书的附录中，Klerman等人介绍了HAMD的第一个结构化版本（HAMD21）的访谈格式。Miller等人开发了改良汉密尔顿抑郁评定量表(MHRSD)，这是一个包含25个项目的结构化访谈指南，其中包括用于评估抑郁症认知和抑郁症状的附加项目和锚点。Whisman等人出版了17个项目的HAMD版本，并进行了结构化访谈、诊断访谈量表（DIS）（DIS-HRSD）。Potts等人修改了原始HAMD17的非结构化版本，以适应结构化访谈（SI-HDRS）。Williams出版了HAMD21的结构化访谈指南（SIGH-D），它由一组标准问题和锚点组成，用于评定抑郁症状的频率和严重程度。几年后，Williams等人出版了季节性情感障碍的结构化访谈指南（SIGH-SAD），这是一个29项临床医生评定量表，专门为评估非典型抑郁症的症状(如贪食、嗜睡)而开发。Moberg等人开发了SIGH-D的修订版，其中增加了3个项目，并提供了锚点来评估绝望、无助和无价值感的症状。Williams等人还介绍了GRID-HAMD，这是一种结构化的访谈指南，其中对抑郁症状的严重程度和频率分别进行评定。GRID-HAMD评分系统涉及以下修订：进一步明确了项目内容，并提供了每个临床实例严重程度的锚点描述。

虽对HAMD进行了多次系统综述，但是这些综述大多集中在HAMD的心理测量学特性上。这些综述的作者没有分析不同版本的HAMD，最重要的是，他们没有评估这些评分量表的临床测量特性。因此，需要进行更新和系统化的工作，尤其是解决HAMD不同版本的临床测量特性。

临床测量方法特别适用于检验一些测量特性（如灵敏度、可伸缩性、临床效度）。成分同质性（如Cronbach的α系数和因子分析等）统计分析一直被认为是心理测量学评定量表最重要的要求。在心理测量学模型中，需要冗余的项目(即相互高度关联的问题)来确保组件的这种同质性。然而，相同的特性使量表在同质性方面得分很高，这可能会模糊其临床应用，特别是其检测变化的能力。在临床测量方法中，不需要成分的同质性，重要的是评定量表的灵敏度，即能够区分积极治疗和安慰剂、患者和健康对照组、不同的患者组、症状的严重程度(如某些症状可能比其他症状更麻烦或更易发生功能丧失)，以检测药物或心理治疗试验中的临床相关变化。当治疗效果不明显时，这种临床测量特性在亚临床症状的评估中就尤为重要。

本研究通过对HAMD不同版本的临床测量特性进行综述并对其进行了描述和评价，从而确定HAMD的哪一版本在抑郁症评估中最能显示出信度、效度以及变化敏感度的临床特性。

方法

在以下数据库中进行了全面的文献检索：Medline、Scopus、WebofScience和PubMed。每个数据库从成立到年7月23日都进行了检索。此外，还对文献进行人工检索，并对检索到的文章的参考列表进行了检查，以寻找尚未确定的进一步研究。使用以下搜索词：“HAMiltonRatingScaleforDepression”、“HRSD”、“HAMiltonDepressionRatingScale”、“HAMD”并使用布尔逻辑运算符“OR”来组合。

纳入标准：只选择和分析了那些集中在HAMD临床特性上的研究。

1.发表在同行评审期刊上的英文文献。

2.以全文形式发表。

3.是原创性研究(如学术论文、meta分析)。

4.文献对HAMD的临床测量特性进行了评价，或采用临床测量方法分析了该评定量表的临床实用性。

研究筛选流程：前两位作者(D.C.和C.P.)独立完成检索，筛选标题和摘要，选择研究，评估可能相关的文献全文，并从符合纳入标准的研究中提取数据。

结果

1.评分员间信度：

对于HAMD的非结构化版本，特别是HAMD21和HAMD17的非结构化版本的评分员间信度在很大程度上受到评分员的临床经验的影响：评分员的专业知识越强，评分员间的信度就越高。与非结构化的HAMD17相比，如果访谈员是有经验的临床医生或新手评分员，那么这些版本（包括锚点和访谈指南）的评分员间信度显著地高于非结构化的HAMD17。将HAMD24的非结构化版本与该评定量表的结构化版本进行比较，HAMD24的结构化版本比非结构化版本的评分员间信度要高。通过比较GRID-HAMD和非结构化HAMD17版本的评分员间信度，该HAMD结构化版本在培训前后对没有经验和有经验的评分员都显示出极好的评分员间信度。

对于仅有锚点的结构化版本：多项研究表明评分员间信度水平高。

对于半结构化访谈的结构化版本，多项研究通过检验CID评分员间信度，结果表明评分员间信度极好。

对于结构化访谈的结构化版本：许多研究检验了不同HAMD结构化版本在评分员间的信度。Whisman等人的结果表明HAMD结构化版本(DIS-HRSD)的评分员间信度令人满意。Akdemir等人检验了Williams出版的结构化访谈指南（SIGH-D）的评分员间效度，发现Pearson相关系数在为0.87~0.98；Rohan等人评估了SIGH-SAD的评分员之间的效度，发现ICC为0.92~0.96，都表明评分员的信度达到了一个极好的水平。而且HAMD结构化版本中包含的个别项目的评分员间信度显著高于在研究中不使用锚点和访谈问题的获得的信度。

2.重测信度

非结构化版本：

接受过HAMD17使用培训的评分员对HAMD17总分表现出很高的重测信度，相关系数为0.65。然而，分析HAMD17的个别项目发现在负罪感、躯体症状（胃肠道）、生殖系统症状、疑病和体重减轻等项目上重测信度较差。

结构化版本：

Williams证明了HAMD，SIGH-D结构化版本的使用，显著提高了大多数SIGH-D项目的重测信度且均高于非结构化版本。Akdemir等人对SIGH-D总分的重测信度进行了检验，相关系数为0.85，表明SIGH-D总分具有较高的重测信度。他们还表明，这种结构化版本的使用提高了17个HAMD项目中除一项(即体重减轻)以外的所有项目的重测信度。Shankman和Klein检验了MHRSD的重测信度，发现MHRSD具有极好的重测信度，ICC=0.96。Williams等人检验了他们的结构化网格GRID-HAMD的重测信度,表现出令人满意的重测信度水平，ICC=0.81。

3.区分效度

Chipman和Paykel发现在CID中特定单个项目与临床医生对抑郁症严重程度的总体评估相关。研究表明临床医生评定的抑郁程度更加严重的抑郁症患者是在CID的下列项目上得分较高的人：精神运动性迟滞、抑郁性妄想、激越、自责、失眠、绝望、自杀倾向、情绪低落的言语性抱怨、观察到的抑郁现象以及较低的情绪短期反应性。为评估HAMD17非结构化版本的效度，Bech等人进行的研究表明HAMD的17项中只有6个项目(包含在HAMD6中的项目)反映了临床医生对抑郁症严重程度的评估。更具体地说，只有抑郁、负罪感、兴趣缺失和疲倦、表现出精神运动性迟滞和精神焦虑等项目与有经验的临床医生用来全面评估抑郁严重程度的症状相对应。因此，发现HAMD6的总分与临床医生对抑郁症严重程度的总体认识有很强的相关性。进一步的研究表明HAMD6比HAMD17更能敏感地捕捉到抑郁症的核心症状，实际上HAMD17涵盖了焦虑和抑郁的混合症状，还包括药物治疗的副作用，如恶心、体重增加和性功能障碍。

对于区分患有同一疾病的不同患病群体的能力评估，Carroll等人研究显示重度抑郁症住院患者的HAMD17得分明显高于其他两组抑郁症患者。根据经验丰富的临床医生的总体判断，Knesevich等人的研究显示非结构化HAMD17版本的总分能敏感地判别了4种不同程度（无、轻度、中度和重度）的抑郁症。Thase等人显示HAMD17的非结构化版本敏感地判别了内源性抑郁症和非内源性抑郁症患者，发现内源性抑郁症患者在HAMD17上的得分明显高于非内源性抑郁症患者。Zheng等人使用Endicott等人开发的全面评估量表，以评估抑郁症的严重程度，然后测试非结构化HAMD17版本的区分效度。研究表明，HAMD17总分能灵敏地判别不同程度的抑郁症，而且根据全面评估量表，HAMD17得分较高的患者可能会有更严重的残疾。

为了检验HAMD将患者与健康受试者判别开来的能力，Ganchrow等人结果表明非结构化HAMD17能灵敏地区分抑郁症患者和对照组。Fava等人进行的研究结果表明，非结构化HAMD21版本中只有17项(前16个问题和关于情绪昼夜波动变化的项目)敏感地判别了抑郁症患者和健康对照组。除此之外，Rehm和O‘Hara的研究还发现有4项(即激越、胃肠道症状、缺乏自知力和体重减轻)不能区分抑郁症患者和对照组。

对于研究分析不同版本HAMD区分不同患者群体的能力，Rush等人发现非结构化HAMD17版本的总分能敏感地将重度抑郁症患者与其他精神病患者(如双相情感障碍、精神分裂症、广泛性焦虑症、惊恐障碍)区分开来。Carneiro等人结果显示，非结构化HAMD17中只有4项(即晚睡、躯体症状、疑病和自知力)敏感地判别了抑郁症患者和双相I型患者。

以有经验的临床医生的判断作为有效性的主要指标，Zimmerman等人建立了HAMD17的评分范围，反映了不同程度的抑郁症：8~16分为轻度抑郁，17~23分为中度抑郁，≥24分为严重抑郁。同样，Kyle等人在不同版本的HAMD中确立了缓解期的划界分数。临床上有效的缓解期指标的划界分数：HAMD65分，HAMD分，HAMD分，HAMD分。Bobo等人将重点放在完善临床医生的总体认识上，以明确指示非结构化HAMD17和HAMD6的临床显著变化的临界值。他们发现完善临床医生的全面评估与HAMD17得分降低11分有关，与之相对应的是HAMD17得分下降50-57%。至于HAMD6，发现完善的临床医生总体认识与HAMD6的绝对减少7分有关，相当于减少了57-63%。

对与在全科门诊(GP)中的HAMD17和CID区分效度的比较，Freeling等人的一项研究发现，那些未诊断为重度抑郁症患者看起来比那些已经确诊的抑郁症患者在CID上并没有明确显示那么严重，但在HAMD17上没有这一现象。在HAMD17和CID中，未被诊断为抑郁症的患者表现出明显抑郁情绪的证据较少。在HAMD17上，他们更多表现出缺乏自知力，而在CID上，他们在访谈时根据自己的外表不会表露那么明显的抑郁情绪。未诊断为抑郁症患者的CID对社会环境的反应性和明显的情绪质量得分也较高。在全科门诊接受新抗抑郁药物处方的抑郁症患者与接受其他治疗的患者以及接受抗抑郁药物治疗的精神科门诊患者进行比较时，门诊患者的平均HAMD17和CID抑郁评分明显高于2个全科门诊样本。在两个量表上的两个GP样本之间也发现了显著的差异，与接受其他治疗的患者相比，接受抗抑郁药物治疗的GP患者的得分更高。CID提供了每个亚组的具体症状模式的详细描述。诊断出抑郁症和为诊断出抑郁症患者在CID的两个项目(即疲倦和明显的抑郁情绪)上的症状评分有差异，但在HAMD17上没有差异。此外，在入院2周后，与无伴发人格障碍的抑郁患者相比，抑郁患者的CID改善明显缓慢，尽管HAMD17的差异没有达到显著性。在另一项研究中，HAMD17和CID都敏感地区分了急性和缓解性抑郁症患者。

4.变化的敏感度

与观察者评定量表相比，Khan等人分析了名抑郁症患者的记录，这些患者在-2年间参加了8项随机、安慰剂对照、双盲临床试验，他们发现Montgomery-?sberg抑郁评定量表（MADRS）在区分抗抑郁药物和安慰剂方面与HAMD17一样灵敏。研究还表明HAMD6、HAMD的简短版本比MADR敏感。HAMD6对米氮平比曲唑酮的抗抑郁作用敏感，而MADRS则不敏感。在测试金丝桃抗抑郁作用的研究中，Lecrubier等人显示HAMD6能敏感地判别活性药物和安慰剂，而MADR则不能。同样地，Liebowitz等人发现HAMD6检测到了琥珀酸去甲基文拉法辛相对于安慰剂的抗抑郁优势，而MADRS未有发现。

在一项为期10周的随机、安慰剂对照试验中，他们使用名患者的数据，比较舍曲林和认知行为疗法的疗效，他们发现28项临床版抑郁症状量表（IDS-C28）比HAMD17在治疗过程中检测抑郁症症状的微小变化方面更为敏感。Liu等比较了非结构化HAMD17与16项临床医生版本的抑郁症状快速量表（QIDS）的敏感度。在基线和6周后评估抑郁症时，他们发现QIDS和HAMD17对抑郁症状的变化同样敏感。

在评价西酞普兰的抗抑郁作用方面，?stergaard等人发现HAMD6比HAMD17更敏感。在另一项研究中，Bech等人发现HAMD6对安非他酮抗抑郁效果敏感优于丁螺环酮，而HAMD17则无。许多其他研究也发现HAMD6能敏感地判别不同的抗抑郁药物效果，而HAMD17不能区分。

HAMD6能敏感地判别活性药物和安慰剂，而HAMD17则不能。在Chouinard等人的研究中，在HAMD6上显示溴法罗明优于安慰剂[p0.]，但在HAMD17上溴法罗明与安慰剂无显著差异。Fabre等人的研究表明HAMD6显示舍曲林在3个剂量(即50、和mg/d)上都明显优于安慰剂。当他们使用HAMD17时，这一发现没有被复制。在随后的研究中，HAMD6能敏感地判别了积极治疗和安慰剂，而HAMD17不能。更具体地说，Feiger等人发现在HAMD6上显示在统计学上司来吉兰在减轻重度抑郁症症状方面(p0.01)优于安慰剂。

Carroll等人研究表明，HAMD17能够敏感地区分严重抑郁住院患者和中度或轻度抑郁门诊患者，但Zung自评抑郁量表则不能。Edwards等人进行一项meta分析，比较了非结构化版本的HAMD17与贝克抑郁量表（BDI）的敏感性。他们发现HAMD17比BDI对变化更敏感。多项研究表明HAMD17对变化高度敏感，但BDI和Zung自评抑郁量表则对变化的敏感度不高。

在6周的治疗中，CID的几个单独项目显示阿米替林疗效优于安慰剂，而HAMD17中只有4项(即抑郁情绪、自责、入睡困难和早醒)显示出药物与安慰剂的显著差异。

在一项关于认知疗法(CT)预防残余抑郁症复发的研究中，与单纯CM组相比，CT+CM组在1年的随访中发现HAMD17和CID评分相似且无显著降低。两组之间的差异在治疗结束和接下来6个月的时间最为显著，直到CT结束后3年半才完全消失。在CID抑郁评分和2个单独项目(即自责和自尊，以及绝望和悲观)的随访1年中发现时间-组间交互作用显著，但对HAMD17没有影响。

5.可伸缩性

在临床测量方法中，测试评定量表的项目是否反映抑郁症严重程度的单一维度尤为重要。更具体地说，需要项目反应理论模型(即Rasch和Mokken分析)来确定评定量表的可伸缩性水平。Rasch分析是项目反应理论模型的参数化版本，而Mokken分析是相应的非参数化版本。在Rasch模型中，通过使用多个匹配指数来评估可伸缩性，例如不同项目的功能(每个项目的难度水平)、固定项目排序(“容易”项目的预期分数总是高于“困难”项目的预期分数)和项目的局部独立性(项目得分为正的概率不应取决于任何其他项目的正分)。当数据满足这些标准时，Rasch模型假设受访者的能力(例如，他/她的抑郁水平)和由项目测量的临床信息程度(例如，抑郁症的严重程度)以用相同的量表进行评估。这表明在临床上评定量表的所有项目都是多维的，即它们可以衡量不同的症状，但具有相同的临床维度。在Mokken分析中，通过使用Loevinger系数来评估可伸缩性。这种临床系数是一种程度的表达，它表示评定量表的每一项涵盖了一个潜在临床维度的特定症状的严重程度。根据Mokken的说法，Loevinger系数≥0.30时，不仅表明项目没有多余，而且在统计学上评定量表的总分是一个能充分、有效的评估临床状况严重程度的指标。因此，可伸缩性的临床测量特性对于区分不同版本的HAMD非常重要。

许多研究发现HAMD6具有极好的可伸缩性，Mokken系数范围为0.42至0.65。使用Rasch分析的研究进一步证实了非结构化HAMD6版本的可伸缩性。发现具有可伸缩性的其他版本HAMD是非结构化HAMD24和CID。使用Rasch分析，Bech等人证明CID包含有效的子量表，用于评估情感障碍，如抑郁、焦虑和淡漠。而HAMD17非结构化版本的可扩展性得到了相互矛盾的结果。Mokken系数在0.24~0.35之间，表明HAMD17是一个多维评定量表。同样，Bobes等人和Kyle等人质疑非结构化HAMD21版本的可伸缩性。他们发现Mokken系数为0.29~0.30，这表明HAMD的原始版本HAMD21是一个多维评定量表。

6.同时效度

通过对名抑郁症患者的抽样调查，Prusoff等人发现HAMD17在基线(即在疾病急性发作期间)与自我评定量表的相关性很低；而在随访时发现，当患者随着治疗而好转时，这一相关性明显更高。作者的结论是与自我评定量表相比，HAMD17是更好的抑郁症严重程度的衡量标准。Fava等人以40名门诊抑郁症患者和40名健康对照者为样本，采用症状自评量表和症状问卷(SQ)检验非结构化HAMD21版本的同时效度。他们发现，在HAMD21和症状自评量表与SQ之间有相似的乘积-矩相关性(0.65~0.72)。他们的结论是，Prusoff等人发现的低相关性可能是由于实施了特定的自我评定量表，而不是根据临床医生评定量表和患者报告量表之间的实质性差异。Gottlieb等人比较HAMD21和Zung抑郁自评量表，发现在轻度阿尔茨海默病(AD)患者亚组中，两种评定量表之间有统计学意义的相关性(r=0.49)；然而，在重度AD患者亚组中，HAMD21和Zung量表之间没有相关性。作者得出结论，特别是在晚期AD患者中自我报告问卷的临床实用性值得怀疑。研究也使用BDI来评估不同版本HAMD的同时效度。Rehm和O‘Hara发现非结构化HAMD17版本的总分与BDI之间存在显著的统计学相关性(r=0.73)。Whisman等人发现DIS-HRSD和HAMD17的非结构化版本与BDI表现出相似的相关性。以94例抑郁症患者为总样本，Akdemir等人对Whisman出版的HAMD结构化访谈版本SIGH-D的同时效度进行了测试后，发现SIGH-D与BDI之间存在明显的中度相关性(r=0.48)。然而，当他们只分析严重抑郁症患者亚组时，他们发现这种相关性不再具有统计学意义。得出结论，SIGH-D在临床上优于BDI，特别是在评估抑郁症严重程度方面。

通过比较HAMD17和CID的同时效度，发现CID抑郁得分具有较高的相关性，而CID焦虑得分与HAMD17有一定程度的相关性，反映了HAMD17中包含了几个焦虑项目。除了抑郁情绪外，HAMD17和CID的个别项目之间的相关性也被检验，并且相关性高；在CID中，抑郁情绪是根据提问的强度来评定的，而在HAMD17中，抑郁情绪是根据他们在访谈时候的口头和非口头内容中占主导地位的程度来评定的，包括观察到的外表。在对重度抑郁症患者的另一项研究中也发现HAMD17和CID之间存在显著的高度相关性。

讨论

考虑到HAMD是一个有缺陷的措施，Bagby等人和Zimmerman等人建议采用心理测量学上的高级评分标准，如MADRS和临床版IDS。MADRS是专门为比HAMD对变化更敏感而开发的。然而，现有文献与这一假设背道而驰，特别是当使用HAMD6时。事实上，研究表明，HAMD6能敏感地区分了积极治疗和安慰剂，而MADR则不可以。类似的考量也适用于IDS的临床医生版本。在STAR*D研究的临床再分析中，Bech等人发现IDS是衡量抑郁症严重程度的一种不太敏感的多维测量方法。

Bagby等人和Zimmerman等人认为不同的项目权重是HAMD最重要的限制因素之一。某些HAMD项目比其他项目对总分的贡献更大的证据与心理测量学关于项目同质性的假设相冲突。在心理测量模型中，所有项目都必须显示相同的临床权重，才能纳入评分量表。然而，在临床测量方法中，不同的项目权重不是缺点，而是评定量表的基本要求。因此，并不是所有项目都具有相同的临床权重，并且主要症状和次要症状可以区分。Bech等人证明了HAMD项目不同权重的临床实用性，可以用来灵敏地区分重度抑郁症和中度到轻度抑郁症。使用HAMD，Bech等人还显示情绪低落、兴趣丧失和疲倦的症状更普遍，并且发生在更严重的抑郁症症状出现之前。

Bagby等人和Zimmerman等人提出的另一个评论是HAMD项目没有涵盖DSM对重度抑郁症的诊断标准。因此，对抑郁症的精神病学分类标准的不完全覆盖极大地限制了HAMD作为诊断手段的实用性。

精神症状诊断标准的引入大大减少了由于不同的评估者和使用诊断标准而不是直接观察造成的差异。在为值得临床