壹生大学

壹生身份认证协议书

本项目是由壹生提供的专业性学术分享,仅面向医疗卫生专业人士。我们将收集您是否是医疗卫生专业人士的信息,仅用于资格认证,不会用于其他用途。壹生作为平台及平台数据的运营者和负责方,负责平台和本专区及用户相关信息搜集和使用的合规和保护。
本协议书仅为了向您说明个人相关信息处理目的,向您单独征求的同意,您已签署的壹生平台《壹生用户服务协议》和《壹生隐私政策》,详见链接:
壹生用户服务协议:
https://apps.medtrib.cn/html/serviceAgreement.html
壹生隐私政策:
https://apps.medtrib.cn/html/p.html
如果您是医疗卫生专业人士,且点击了“同意”,表明您作为壹生的注册用户已授权壹生平台收集您是否是医疗卫生专业人士的信息,可以使用本项服务。
如果您不是医疗卫生专业人士或不同意本说明,请勿点击“同意”,因为本项服务仅面向医疗卫生人士,以及专业性、合规性要求等因素,您将无法使用本项服务。

同意

拒绝

同意

拒绝

知情同意书

同意

不同意并跳过

工作人员正在审核中,
请您耐心等待
审核未通过
重新提交
完善信息
{{ item.question }}
确定
收集问题
{{ item.question }}
确定
您已通过HCP身份认证和信息审核
(
5
s)

想说爱你不容易——如何正确理解医学研究论文中的P值

2018-05-07作者:论坛报小塔资讯
临床研究P值

作者:北京大学第一医院医学统计室  姚晨 李雪迎

P值被质疑啦?

2018年1月22日,美国政治学知名学术期刊《政治分析》(Political Analysis)在其官方twitter账号上宣布:政治分析将不再在回归表或其他结果中报告P值,造成这种变化的原因有很多,其中最重要的一个原因是,单纯依靠P值本身并不能提供支持特定模型或假设的证据。

那么,P值真的没用了吗?

P值的由来

P值于20世纪20年代由英国统计与遗传学家、现代统计科学的奠基人之一罗纳德·费希尔(Ronald Fisher)首次提出,时至今日已发展近百年。百年来,在大量的应用研究中,研究者通过P值验证研究假设,获取研究结论,假设检验已经成为数据分析不可缺少的重要一环。

P值在告诉我们什么

假设检验,是帮助我们通过样本推知总体的重要方法。以差别性检验为例,如果要检验两种临床干预措施的治疗效果是否不同,我们首先将治疗效应相同(即两种干预措施的样本实际是来自同一总体的两个样本,所见差异来自抽样误差)作为原假设,同时设定原假设的对立面——两种干预措施的治疗效应不同作为备择假设。在假设检验中,将借助特定的统计量——P值,来获得两样本间差异来自抽样误差的可能性。当P值足够小时(通常是小于0.05),就可以认为两样本间差异来自抽样误差的可能性足够小,因而拒绝原假设,接受备择假设,即认为两种干预方法的效果不同。

为什么以0.05作为检验标准呢?通常认为可能性小于0.05的事件为小概率事件,故而0.05这一标准被统计学界公认。

从以上描述可见,假设检验是基于发生概率,以样本推知总体的方法。同时我们也注意到,当P<0.05时,虽然两样本间的差异来自抽样误差的可能性很小,但并非完全没有可能,这种不大的可能性被称为Ⅰ类错误,也就是把两个实际上没有差异的样本误判为存在差异。与此相反,我们当然也有可能将两个实际上不同的样本误判为没有差异,这就Ⅱ类错误。

P值使用6原则

近年在国内外很多权威期刊中,有学者质疑统计学P值和假设检验的意义。针对质疑,美国统计学会(ASA)于2016年2月5日发表关于统计学意义和P值的声明,阐述了P值使用6项原则,以期规范行业对P值的理解和用法。

1.P值可以表示数据与一个特定的统计模型是否相容;

2.P值不能代表假设为真的概率,也不代表数据完全是由随机因素造成的概率;

3.科研结论、商业决定和政策制定不能完全凭P值是否小于一个特定的值来决定;

4.正确的推理需要全面的报告和透明度;

5.一个P值的大小或者显著性,不能表示一个效应的大小或者一个结果的重要性;

6.P值本身不能作为判断一个模型或假设的良好量度。

监管审批机构对临床试验P值的规定

在药物/器械注册研究中,监管审批机构关心的重点是,验证性临床试验结果的Ⅰ类错误可能性的大小,也就是批准一个本来无效的药物/器械上市的错误概率。在Ⅰ类错误的标准下计算所得的拒绝原假设时犯错误概率P值,往往是药物/器械监管审批机构关心的要点,以期减少把一个无效的药物/器械推向市场的风险。

而药品注册方或研究发起人关心的重点则是验证性临床试验Ⅱ类错误的大小,也就是一个本来有效的药物/器械在临床试验中并未获得疗效的统计学意义。因此,无论对于临床研究的阴性结果(本文定义为研究结果无统计学意义),还是阳性结果(本文定义为研究结果有统计学意义),Ⅱ类错误以及由Ⅱ类错误计算的检验效能(1-β)都是注册方或研究发起人关注的要点。在得到阴性结果之后,他们往往会进行各种分层分析,通过更换统计分析方法或逆推统计学把握度等措施辅助下一步决策。值得注意的是,基于阴性结果的数据去逆推检验效能的可行性,一直存在争议。

解读研究中的P值

  • 作为医学研究工作者,当我们审读他人的研究结果时,应特别注意以下要点。

统计学角度 ①主要指标的结果与当初的假设是否一致;②是否满足当时假设的样本量;③次要指标与主要指标的结论是否一致;④是否存在多重比较或试验提前终止带来的Ⅰ类错误的消耗,或者某些探索性研究可能扩大Ⅰ类错误的标准;⑤在重要的亚组分析中,主要结论是否一致;⑥有效性或安全性的平衡是否考虑患者个体因素(如进行多因素模型校正)。

临床角度 ①临床获益有多大;②主要指标是否有临床意义,结论内部是否一致(如替代终点和复合重点的选择问题);③是否存在安全性问题,从而抵消掉了有效性的收益;④研究设计和执行是否存在缺陷(如缺失太多或非盲状态引起的偏倚);⑤研究成果的适应人群问题(如入选标准、试验时间和空间以及对照的选择)。

  • 作为临床试验研究者,如果研究获得了阴性结果,则应该从以下角度审视自己是否存在问题。

统计学角度  ①原假设不成立,主要指标结果与原假设差距较大(可能原因有选择适应证人群有误、治疗方案不当、优效或非劣效假设选择有误等);②样本量不足,把握度不大;③试验操作过程中带来的混杂因素影响,如中心效应、数据缺失、非盲等;④主要指标设计问题,如复合指标构成不当、指标定性和定量不准确等;⑤统计方法使用不当。

临床角度 ①在得到阴性结果时,是否会有其他潜在获益(如其他疗效指标的统计学意义);②当差异性检验无统计学意义时,是否可发现有价值的非劣效结论(如可以提高依从性或减少毒副作用,但建议事先设定好非劣界值);③次要指标提示了阳性结果(但仍需要验证性试验证明);④是否有更多的外部证据存在(可以进行汇总分析或荟萃分析);⑤是否有强力的生物学机理支持。

即使获得“令人满意”的阳性结果,仍要对阳性结果尚需考虑的问题进行逐一分析。同时,也必须认识到,并不是所有的阳性结果均可得出“值得临床推广”的结论。这是因为,当样本量足够大,且样本的变异度又较小的时候,统计学把握度也会相应增加,很容易得出统计学意义,但却不一定具有临床意义。因此,如果仅关注统计学意义,就有可能产生被误解的结论。

对于对照设计的临床研究,若原假设并未达到,但是由于试验组和对照组的差异较预期更大而得出的阳性结论,也需要引入临床角度共同探讨,进而判断其疗效是否满足临床需求。

同时,当获得“令人沮丧”的阴性结果时,也无需直接否定。通过阴性结果项目的后续统计分析,可以发现有价值的结论,用于指导后续试验的设计和开展。

实际上,在我们做出任何决策的时候都存在着出现Ⅰ类错误或Ⅱ类错误的可能。无论怎样,在医学研究中,统计推断及来自假设检验的P值都将为临床决策提供有益的重要参考。

本文来自《中国医学论坛报》,如需转载,请联系授权。

200 评论

查看更多