研究进展 l 评价中国基本药物制度的剂量反应效应：处理类阶梯设计层次结构数据的两种方法比较

2017年04月12日 08:26 华西卫生政策与经济

Assessing dose–response effects of national essential medicine policy in China: comparison of two methods for handling data with a stepped wedge-like design and hierarchical structure

评价中国基本药物制度的剂量反应效应：处理类阶梯设计层次结构数据的两种方法比较

任燕

四川大学华西公共卫生学院

杨珉

四川大学华西公共卫生学院

李茜

西部农村卫生发展研究中心

潘杰

四川大学华西公共卫生学院

陈飞

四川大学华西公共卫生学院

李晓松

四川大学华西公共卫生学院

孟群

中国卫生计生统计信息中心

原文：Ren Y, Yang M, Li Q, Pan J, Chen F, Li X, Meng Q. Assessing dose–response effects of national essential medicine policy in China: comparison of two methods for handling data with a stepped wedge-like design and hierarchical structure. BMJ Open. 2017;7(2). PMCID: PMC5337672.

摘要

目的：利用具有层次结构的阶梯设计试验数据，建立多水平重复测量模型与多水平双重差分模型，用以评价政策干预时长与结局间的线性关系（即剂量反应效应）。方法：中国基本药物制度（基药）效果评价数据来源于国家卫生计生统计信息中心，共收集2008年至2012年间31个省份2675个县的34506家基层医疗卫生机构监测数据。该制度实施过程类似于阶梯设计试验。本研究以基层医疗卫生机构的门诊服务量结局指标为例，解释如何用多水平重复测量模型和多水平双重差分模型来评价基药制度的剂量反应效应。结果：通过建立四个多水平双重差分模型，估计出基本药物制度的剂量反应效应为0.015；多水平重复测量模型估计其效应为0.012。两种模型均估计出从2009年至2012年门诊服务量增加了2.5倍，但多水平双重差分模型的随机效应系数标准误比多水平重复测量模型大2~4.3倍。多水平重复测量模型能根据剂量反应效应在省、县和机构水平的变异，从而判断哪个省/县/机构实施的效果最好或最差。结论: 基于多个时间点和层次结构的类阶梯试验数据，评价其政策干预的剂量反应效应时，多水平重复测量模型比多水平双重差分模型更为方便、高效且获得的信息更丰富。

图文扼要

前言

双重差分模型（Difference in Difference, DID）是经济学及社会学领域广泛应用于评价政策干预效应的定量分析方法。该方法试图通过观察性研究数据模拟实验性研究，用干预组测量前后差值减去对照组前后差值，即构建两次差值（双重差分）以控制事前差异及时间因素对干预效应的影响。

政策干预的效应不能立即显示出来时，通常需要进行多个时间点上的长期随访调查。有文献报道基于多年的月报数据，采用间断时间序列和分段回归分析政策效应的变化情况。

目前的研究方法可以用于估计一段时间内政策的平均效应，或者用于估计政策效应随时间的变化，但是尚没有研究探索这些政策效应受地区经济、文化环境和影响以及政策效应的地区变异情况。而估计政策效应的地区变异可以为政策制定者提供不同地区政策实施效果的有用信息。

国家基本药物政策是中国深化医药卫生体制改革中的重要部分。该政策是逐步实施的，类似于“阶梯试验设计”。该政策于2009年开始实施，要求国家基层医疗卫生机构实现基本药物“零加成”，因此到基层医疗卫生机构的就诊患者可以购买到比以前价格低的基本药物，且低于综合医院。理论上该政策不仅可以提高药物可及性、可负担性及合理适用性，还可吸引患者基层就诊，实现患者合理分流。

基于基药数据，已有研究用倾向得分匹配法和DID模型分析了基药政策对降低药物费用及增加服务量的影响。但此研究忽略了数据的层次结构，且没有估计基药政策的“剂量反应效应”。

本研究考虑了数据的层次机构以及研究机构暴露于干预政策的时长，建立新的统计模型，回答之前研究不能回答的如下三个问题：

1）是否政策干预时间越长，干预效应越好，即是否存在“剂量反应效应”？

2）剂量反应效应中有多少变异应分别归于省水平、县水平和机构水平？

3）如何确定政策实施的最好或最差的地区？

本研究采用多水平双重差分模型和多水平重复测量模型两种方法分析基药数据回答以上问题，并对两种方法进行比较。

方法

样本数据及变量

数据来源于国家卫生计生信息中心监测系统，我们从中提取了2008年-2012年间31个省份、2675个县、34506家基层医疗卫生机构的年门诊量数据（年服务量）来评价基药制度对基层医疗卫生服务利用的影响。

研究变量包括：因变量（年门诊人次量）、时间自变量1（基层医疗卫生机构暴露干预政策下的年数）、时间自变量2（2008年-2012年这五个年份）、其余可能对结局有影响的协变量（卫生技术人员占医院总员工数比例、医院床位数与医院员工数比、总资产与医院员工数比的对数、基层医疗卫生机构类型、省级层面协变量为地区，分为东、中、西部）。

不同地区、机构类型、年份和政策干预时长的年门诊人次量（服务量）的描述分析结果见表1。

可见社区卫生服务中心的服务量高于乡镇卫生院，东部的服务量高于中部和西部，从2008年至2012年服务量存在上升趋势，揭示了年份可能是服务量的影响因素之一。干预时长与年份对角线上的服务量存在上升趋势，表明实施基药政策的时间越长，基层医疗卫生机构的服务量越大，即存在“剂量反应效应”。因此，我们试图通过统计模型来验证这些描述性结果。

研究设计

阶梯试验的第一步即所有的研究对象都处于对照状态时，需要对研究对象随机分组，并且随机安排干预顺序的先后。接下来考虑到干预时间间隔，步数等实施干预，直至所有的群组都接受了干预。每个阶段干预完成后，需要对每个组进行数据收集。这样的数据收集方式构成了阶梯试验数据的结构。

因为实施基药政策项目没有对实施干预的组进行随机化处理，该试验数据不是标准的“阶梯试验数据”，故称为“类阶梯试验数据”。

本例2008年没有基层医疗卫生机构实施基药政策；2009年间有27%的基层医疗卫生机构开始实施干预；2010年、2011年间分别有53%及78%的基层医疗卫生机构实施干预；到2012年100%的基层医疗卫生机构都已实施干预。这就意味着到2012年， 9266家基层医疗卫生机构接受了4年的干预，8935家基层医疗卫生机构接受了3年的干预，8590家基层医疗卫生机构接受了2年的干预，7715家基层医疗卫生机构接受了1年的干预。

模型

传统DID模型及多水平DID模型

利用传统DID模型分析政策干预的效应，其基本模型（M1）如下：

模型中，i=（1，2，....，n）代表各个基层医疗卫生机构。系数β3为政策干预的主效应。

DID模型有一个严格的假设：干预组及对照组在没有实施干预的情况下两者随时间的变化趋势一致，所以就要求干预组和对照组的基线情况尽量一致或匹配。本研究采用Parsons提供了贪心法进行1:1匹配，配对成功的对照组和干预组进行DID模型分析。

本研究用5年的基药政策面板数据评价基药政策干预时长对基层医疗卫生机构服务量的线性趋势影响（剂量反应效应），将干预时间时长定义为一个连续型变量，以此作为政策暴露时长的变量。然而，M1模型中时间变量是一个二分类变量，既只能考虑两个时间点上的数据。因此，我们需要建立四个DID模型，这四个模型基于相同的对照组和不同干预时长的干预组，以揭示干预4年、3年、2年、1年的效应。

表3是四个DID模型用于评价剂量反应效应时所采用的时间点及匹配后的机构数。

但是利用M1模型建模分析存在一个很大的局限性，即没有考虑到基药数据中的层次聚集性。为了克服上述局限性，考虑采用多水平DID模型的统计方法，模型中机构为水平一，县为水平二，省份为水平三，根据MLwiN软件的设定28， i，j，k代表水平1，2，3，三水平的DID模型如下：

M2模型中固定效应系数β3表示两个时间点上的政策干预效应，随机部分, 和分别代表省份、县及基层医疗卫生机构水平上服务量平均估计值的方差，随机变量表示k省份的服务量均数与总体均数之差，表示k省份j县的服务量均数与k省份的总体均数之差，它们称之为“随机效应”，并且假设服从正态分布。

M2模型可以有效处理含随机效应的层次结构数据，但是使用M2模型分析基药政策干预的剂量反应效应，我们仍然需要构建4个多水平DID模型，这种分析过程较为繁琐且低效，对于分析各个省份/县/基层医疗卫生机构上不同的剂量反应效应，这种方法也不可行。

多水平重复测量模型

采用四水平重复测量模型分析政策剂量反应效应，并估计其在省份/县/基层卫生机构上的随机效应。重复测量时间点为一水平，机构为二水平，县为三水平，省为四水平，根据MLwiN软件的定义，令i，j，k，l分别代表水平一二三四，这与多水平DID模型相比水平层次产生了变化。根据本研究的目的，我们逐步建立三个四水平重复测量模型。

首先建立最简单的四水平重复测量模型M3，总方差分解为四个水平上的方差，分别代表省份/县/机构/时间点上平均门诊服务量的随机效应。通过模型M3的系数β1估计政策的剂量反应效应，M3模型如下：

由于模型M3中系数β1估计的政策剂量反应效应未考虑其他协变量的影响，所以为了控制年份效应以及卫生人力相关因素，我们将这些协变量纳入模型，即为模型M4：

该模型中X代表一系列协变量，如床位数占比、总资产占比、机构类型、地区等。year为协变量时间，以分类变量的形式纳入，以2008年为对照组，系数β2h代表2009年、2010年、2011年、2012年与2008年相比的差值。

为了进一步考虑省份/县/基层医疗卫生机构上的政策效应差异，回答研究问题2和3，我们利用如下模型M5估计效应系数β1的随机效应：

模型M5中存在两个随机效应，W0l，V0kl，μ0j，kl指总均数在省份/县/基层卫生机构层次的随机效应，W1l，V1kl，μ1jkl为各层次上的剂量反应效应的随机效应。通过对随机效应W1l，V1kl，μ1jkl的方差系数进行假设检验，我们可以找到各水平上各单元的剂量反应效应的分布，通过对随机效应W1l，V1kl，μ1jkl进行排序，可以判断哪个做的最好或者最差。

模型拟合及比较

常见的三水平及以下水平模型分析可采用SAS或者Stata，本研究中数据存在四水平结构，故采用MLwiN2.30拟合多水平模型。我们用SAS9.3进行描述性分析，用Wald检验对固定效应系数βs、随机效应的方差值进行假设检验，根据-2对数似然值（-2LL）对模型的拟合优度进行评价。

结果

剂量反应效应

从四个多水平DID模型的结果可以看出，干预1年、2年、3年、4年的平均年门诊服务量（门诊人次数对数值）分别增加了0.036、0.073、0.068及0.097。根据这个增加的线性趋势可粗略地估计政策剂量反应效应值为0.015。而多水平重复测量模型的结果显示政策剂量反应效应为0.012，即干预4年政策效应将增加0.048（表4）。尽管四个多水平DID模型与多水平重复测量模型分析估计的政策剂量反应效应值较为接近，但后者系数的标准误（0.002）比前者（0.018）小，因此后者得到的U值要比前者大，表明多水平重复测量模型具有更高的统计效能，其主要原因是多水平DID模型未将所有的基层医疗卫生机构纳入模型。此外，多水平重复测量模型只建立了一个统计模型，较多水平DID模型更为简单方便。

随机效应

本研究数据分析中存在两个随机效应：门诊服务量总均数的随机效应，称为“随机截距”；另外还存在干预政策剂量反应效应的随机效应，称为“随机斜率”。表5中，多水平DID模型与多水平重复测量模型均表明门诊服务量在省份、县、基层医疗卫生机构的变异具有统计学意义，说明多水平DID模型比传统DID模型更为合适。

然而，多水平DID模型不能估计基药政策剂量反应效应的随机效应，多水平重复测量模型可以分别估计其省、县、结构水平的随机效应（即剂量反应效应的方差），结果见表5，所有估计的方差均有统计学意义，这表明不同省份间、同一省份不同县间、同一县不同初级卫生机构间的门诊服务量随政策干预时间增加的增长趋势是不一致的，从而可以判断哪个省、县、基层医疗机构政策实施效应的好与差，如一些省份的门诊服务量增长更快，一些省份的门诊服务量保持平稳。

评价政策实施的好与差

从多水平重复测量模型M5中，我们可以计算每个省、县、基层医疗卫生机构的剂量反应效应的变异值。

图1线条的斜率表示剂量反应效应，可以看出东、中、西部各个省份上政策干预效应的趋势，有的省份增加，有的省份降低。

图2是将总体平均剂量反应效应β1加上各省份上效应的变异值 W1l，得到各个省份的剂量反应效应值，位于中国东部的A省实施干预政策所带来的服务量增加最快（每年增加0.14），该省份政策干预实施效果最好；位于中国中部的B省实施干预政策所带来的服务量下降（每年下降0.097），该省份政策干预实施效果较差。

时间效应

四个多水平DID模型中系数β1分别代表2009年、2010年、2011年、2012年与2008年对比的时间效应，从表6可以看出，2012年的服务量是2009年的2.55倍；而多水平重复测量模型M4将年份作为分类变量直接纳入模型，得到2012年的服务量是2009年的2.51倍。尽管两种方法对年份效应的估计值较为接近，但多水平重复测量模型对应的U值比多水平DID模型大，因此前者可以得到更为稳健和准确的估计值。此外，对比没有纳入年份和纳入年份的多水平重复测量模型结果，可以发现政策剂量反应效应的系数从0.064变为0.014，表明78%的剂量反应效应可以归因于时间因素。然而，多水平DID模型不能进行此分析。

其它协变量的效应

利用多水平DID模型及多水平重复测量模型分析机构层次上的协变量，结果见表7。

卫生技术人员占比和机构总资产占比越多，机构的服务量越高；而床位数占比没有统计学意义。乡镇中心卫生院及乡镇卫生院的服务量低于社区卫生服务中心；位于中西部的机构服务量低于东部，西部的服务量最低。此外，没有纳入其余协变量与纳入其余协变量的多水平重复测量模型相比，剂量反应效应值从0.014变为0.012，表明14%的剂量反应效应归因于这些协变量。

讨论

本文基于基药政策干预试验数据分析两种方法的异同，当数据存在层次结构，多水平DID模型比传统DID模型更为合适；当数据存在多个时间点上的层次结构，且试验设计类似于阶梯设计时，多水平重复测量模型较多水平DID模型更高效、统计效能更高。

对于层次结构数据，含有随机效应的多水平模型或者混合模型被认为是分析此类数据较为合适的统计方法，传统DID模型忽视了数据的相关性，从而会导致估计结果产生偏倚。本研究中，省、县、基层医疗卫生机构层次上平均门诊服务量的随机效应可以通过多水平DID模型及多水平重复测量模型估计出来。因此，多水平DID模型比传统DID模型更适合分析具有层次结构数据的政策干预效应。

DID模型主要是用于评价基于两个时间点上的平均政策干预效应，若为了评价政策干预效应时间上的线性趋势或者剂量反应效应，需要多个时间点上的面板数据，对于长时间序列数据、分段时间序列数据，DID模型分析是可行的20。本研究数据为5个时间点，我们选择建立4个多水平DID模型估计不同政策干预时间的累积效应、协变量影响、和三个水平上的聚集效应。然而不同研究者可以选择不同的时间点、不同的干预组和对照组构建多个多水平DID模型，从而得到不同的结果和解释。从统计学角度看，我们不能基于如上4个多水平DID模型对政策剂量反应效应的统计推断，只能做出描述性的统计分析。此外，不同多水平DID模型估计的同一协变量影响可能不同，结果难以解释。相比之下，多水平重复测量模型通过一个模型可以估计政策的剂量反应效应、协变量影响以及随机效应，具有更高的统计效能，更容易做出统计推断。

评估基药政策的剂量反应效应时，时间因素必须控制。

尽管本例多水平DID模型及多水平重复测量模型估计能得到相似的剂量反应效应、协变量效应和各水平上截距的方差，但多水平测量模型中剂量反应效应和时间因素系数的标准误均小于多水平DID模型。

多水平DID模型和多水平重复测量模型都可以将平均门诊服务量的总方差分解在各个水平层次上，然而，前者不能估计剂量反应效应在各水平的随机效应，从而不能回答本文的研究问题2和问题3。多水平重复测量模型能够估计出剂量反应效应在各个水平层次上的随机效应，从而判断哪个省/县/基层卫生机构实施政策效果的最好与最差，还能固定分析某个省进一步检验哪些环境因素会影响干预效应、以及如何去改善当前情况。

两种方法均显示卫生技术人员占比和资产占比越大，基层医疗卫生机构的服务量越高；而乡镇基层医疗卫生机构与城市基层卫生机构、东中西部间服务量存在显著差异，这与另一研究所得的结论一致。然而，这些因素只能解释少量的剂量反应效应，因此还需要考虑到其他环境因素，如社会地理因素、文化因素、当地政策实施因素等。

结论

对于层次结构的面板数据，如基药政策干预试验数据，多水平DID模型和多水平重复测量模型都能估计政策的剂量反应效应，但后法更为简单且高效，且能够估计出各水平剂量反应效应的随机效应，从而判断哪个研究对象实施政策的好与差，以便进一步研究原因。