k8·凯发(国际) - 官方网站_行业动态_凯发国际官网|星光大道朱之文周赛|分享E9：临床试验统计原则（另附中英文对照词汇

资讯动态

......

凯发国际官网|星光大道朱之文周赛|分享E9：临床试验统计原则（另附中英文对照词汇

发布时间：2026-05-21 文章分类：行业动态文章来源：凯发K8国际生物科技

　　K8凯发ღ◈✿，天生赢家ღ◈✿，凯发天生赢家一触即发首页ღ◈✿！凯发K8国际ღ◈✿，凯发k8一触即发凯发一触即发,k8凯发ღ◈✿。凯发k8(中国)天生赢家ღ◈✿。医药产品的有效性和安全性需由临床试验来论证ღ◈✿。所采用的临床试验需遵循ICH在1996年5月1日通过的“良好临床实践（GCP）ღ◈✿：综合指南”（ICH E6）ღ◈✿。ICH E6 已阐明统计学在临床试验设计和分析中不可或缺的作用ღ◈✿。由于统计学研究在临床试验领域的不断发展ღ◈✿，加之临床研究在药物审批流程及一般医疗保健中的重要作用ღ◈✿，因此ღ◈✿，有必要制订一份关于临床试验统计学问题的简明文件ღ◈✿。本指南旨在协调在欧洲ღ◈✿、日本和美国提交上市申请的临床试验所应用的统计学方法的原则ღ◈✿。

　　作为起点ღ◈✿，本指南使用了欧盟专利医药产品委员会（CPMP）在题为《用于申请医药产品上市许可的临床试验生物统计学方法》（1994年 12月）指南的意见ღ◈✿，并参照了日本厚生省的《临床研究中的统计分析指南》（1992 年 3 月）和美国食品药品监督管理局的《新药申请中临床与统计部分的格式与内容指南》（1998 年 7 月）ღ◈✿。其他 ICH 指南也包含一些与统计学原则和方法有关的主题ღ◈✿，特别是下面所列的指南ღ◈✿。

　　本指南旨在为申办方在整体临床研发背景下ღ◈✿，对研究产品临床试验的设计ღ◈✿、实施ღ◈✿、分析和评价提供指导ღ◈✿。本指南也将会帮助科学专家准备上市申请总结报告或者评价主要来自研发后期的临床试验的有效性和安全性证据ღ◈✿。

　　本指南的重点是统计学原则ღ◈✿，并不涉及具体统计步骤或方法的使用ღ◈✿。确保这些原则得到正确实施的具体程序性步骤是申办方的职责ღ◈✿。本指南对不同临床试验之间的数据整合亦作了讨论ღ◈✿，但并不作为重点ღ◈✿。其他 ICH指南涵盖了与数据管理及临床试验监查活动有关的原则和程序ღ◈✿，此处不再赘述ღ◈✿。

　　本指南对很多科学学科的人士都是有意义的ღ◈✿。然而ღ◈✿，正如 ICH E6 所述凯发国际官网ღ◈✿，我们假定所有与临床试验有关的统计工作的实际职责由训练有素且经验丰富的统计师承担ღ◈✿。试验统计师（见词汇表）在与其他临床试验专家合作时ღ◈✿，其作用和职责是确保在支持药物研发的临床试验中恰当地应用统计学原则ღ◈✿。因此ღ◈✿，试验统计师应同时具备足够的教育/训练和经验以贯彻本指南所阐明的原则ღ◈✿。

　　对于每一个用于上市申请的临床试验ღ◈✿，有关设计ღ◈✿、实施和拟采用的统计分析的主要特征等重要细节需在研究方案中阐明ღ◈✿。对方案中步骤的遵循程度和主要分析预先计划的程度ღ◈✿，都将决定试验最终结果和结论的可信度ღ◈✿。方案及后续修订应获得包括试验统计师在内的责任人员的批准ღ◈✿。试验统计师应恰当使用技术术语ღ◈✿，保证方案以及任何修订都能清楚准确地涵盖所有相关的统计问题ღ◈✿。

　　本指南所述的原则主要与研发后期实施的临床试验有关ღ◈✿，其中很多是有效性的确证性试验ღ◈✿。除有效性外ღ◈✿，确证性试验也可把安全性指标（如不良事件ღ◈✿、临床实验室指标或心电图测量）ღ◈✿、药效学或药代动力学指标（如确证性的生物等效性试验）作为主要指标ღ◈✿。其次ღ◈✿，有些确证性结果可能来源于不同试验的整合数据ღ◈✿，本指南有些原则适用于这种情况ღ◈✿。最后ღ◈✿，虽然药物研发早期本质上以探索性临床试验为主ღ◈✿，但统计学原则也与这些临床试验有关星光大道朱之文周赛ღ◈✿。因此ღ◈✿，本指南应尽可能地应用于临床研发的各个阶段ღ◈✿。

　　有些偏倚源于试验设计ღ◈✿，例如ღ◈✿，在处理分配过程中将风险较低的受试者系统地分配到其中一个处理组ღ◈✿。其他偏倚源于临床试验的实施和分析ღ◈✿。例如ღ◈✿，违背方案且基于对受试者结局的认识从分析中排除受试者是偏倚的可能来源ღ◈✿，这可能影响处理效应的准确估计ღ◈✿。偏倚常在不知不觉中发生ღ◈✿，且难以直接测量ღ◈✿，因而评价试验结果和主要结论的稳健性是重要的ღ◈✿。稳健性是一个概念ღ◈✿，是指整体结论对数据的各种限制ღ◈✿、假设和数据分析方法的敏感性ღ◈✿。稳健性意味着ღ◈✿，当基于另一假设或分析方法进行分析时ღ◈✿，试验的处理效应和主要结论不会受到实质性的影响ღ◈✿。在对处理效应和处理间比较的不确定性的统计测量进行解释时ღ◈✿，应考虑偏倚对 P值ღ◈✿、置信区间或推断的潜在影响ღ◈✿。

　　由于临床试验设计和分析的主要方法基于频率派统计方法ღ◈✿，因此在讨论假设检验和/或置信区间时ღ◈✿，本指南主要使用频率派方法（见词汇表）ღ◈✿。这并不意味着其它方法不可取ღ◈✿，如果理由充分且所得结论足够稳健ღ◈✿，则贝叶斯方法（见词汇表）及其他方法亦可考虑ღ◈✿。

　　新药临床研发过程的广义目标是发现药物是否在某一剂量范围和用法上能够显示出既安全又有效ღ◈✿，且其风险获益关系能够被接受ღ◈✿。可能从药物获益的特定对象以及特定的适应症也需要被定义ღ◈✿。

　　满足这些目标通常需要一系列循序渐进的临床试验ღ◈✿，每一个临床试验有其特定目的（见 ICH E8） ღ◈✿，应该在一个或一系列临床计划中明确ღ◈✿，这些计划应具有适当的决策点和随知识累积而进行修订的灵活性ღ◈✿。上市申请应清晰地描述这些计划的主要内容和每个试验的作用ღ◈✿。对整个试验项目证据的解释和评价需要综合单个试验的证据（见第 7.2章节） ღ◈✿，为此应确保试验在一些特征上采用通用标准ღ◈✿，如医学术语词典ღ◈✿、主要测量的定义与时点ღ◈✿、方案违背的处理ღ◈✿，等等ღ◈✿。当医学问题通过一个以上的试验来回答时ღ◈✿，统计汇总ღ◈✿、综述或 meta分析（见词汇表）可能会有用ღ◈✿。应尽量在计划中考虑到这一点ღ◈✿，以便清晰地确定相关的试验ღ◈✿，并且预先指定必要的设计方面的共同特征ღ◈✿。应该在该计划中阐述可能会涉及整体计划中若干试验的其他主要统计学问题（如果有的线确证性试验

　　确证性试验是一种预先提出假设并进行评价的具有充分对照的试验ღ◈✿。原则上确证性试验需要提供有效性或安全性的确凿证据ღ◈✿。此类试验中ღ◈✿，感兴趣的关键假设通常需预先定义ღ◈✿，应能直接反映试验的主要目的ღ◈✿，且在试验完成后得到检验ღ◈✿。在确证性试验中ღ◈✿，以适当的精度估计处理效应的大小ღ◈✿，与把这些效应和临床意义联系起来同等重要ღ◈✿。

　　支持所主张的确凿证据要求确证性试验的结果证实研究产品具有临床获益ღ◈✿。因此确证性试验应清晰明确地回答每一个与有效性或安全性主张有关的关键临床问题ღ◈✿。另外ღ◈✿，推论（见词汇表）到目标患者人群的基础得以理解和解释很重要ღ◈✿，这也会影响到所需研究中心和/或试验的数量和参与人员（如专家或全科医师）ღ◈✿。确证性试验的结果应当是稳健的ღ◈✿。某些情况下ღ◈✿，单一确证性试验所提供证据强度可能就足够了ღ◈✿。

　　确证性试验的理论基础和设计几乎总是依赖于一系列早期探索性临床研究工作ღ◈✿。这些探索性研究和所有临床试验一样应有清晰和明确的目的ღ◈✿，但与确证性试验相比ღ◈✿，它们的目的并不总是对预先定义的假设进行简单检验ღ◈✿。此外ღ◈✿，探索性试验可能有时需要采用更灵活的方法进行设计ღ◈✿，以便根据积累的结果更改设计ღ◈✿。它们的分析可能仅限于数据探索ღ◈✿，也可能进行假设检验ღ◈✿，但假设的拟定可能依赖于数据ღ◈✿。尽管这类试验可能对整体的相关证据有贡献ღ◈✿，但不能作为证明有效性的正式依据ღ◈✿。

　　在药物研发的早期阶段ღ◈✿，临床试验受试者的选择在很大程度上受到主观愿望的影响ღ◈✿，即希望最大可能地观察到感兴趣的特定临床疗效ღ◈✿，因此ღ◈✿，研究对象往往是药物最终适用的患者总体中一个非常局限的亚组ღ◈✿。但在开展确证性试验的时候ღ◈✿，试验受试者应更能反映目标人群ღ◈✿。因此ღ◈✿，在保持足够的同质性以精确估计处理效应的同时ღ◈✿，尽可能放宽目标人群的纳入和排除标准ღ◈✿，这对确证性试验是有益的ღ◈✿。由于地理位置ღ◈✿、实施时间ღ◈✿、特定研究者和诊所的医疗实践等因素的影响ღ◈✿，任何一个临床试验都不可能完全代表将来的用药者ღ◈✿。尽管如此ღ◈✿，应尽可能减少这些因素的影响ღ◈✿，并在解释试验结果时充分讨论ღ◈✿。

　　主要指标（又称“目标”指标ღ◈✿，主要终点）应能够提供与试验主要目的直接相关的最具临床相关性和说服力的证据ღ◈✿。

　　通常应只设置一个主要指标ღ◈✿。因大部分确证性试验的主要目的是提供与有效性相关的强有力的科学证据ღ◈✿，所以主要指标通常是有效性指标ღ◈✿。安全性/耐受性有时也可能是主要指标ღ◈✿，且会一直是一种重要的考量ღ◈✿。有关生活质量和卫生经济的指标是进一步的潜在主要指标ღ◈✿。主要指标的选择应反映相关研究领域公认的准则和标准ღ◈✿。建议使用在早期研究或发表文献中获得的具有实践经验的可靠且已验证的指标ღ◈✿。在纳入和排除标准所描述的患者人群中ღ◈✿，应该有充分的证据说明主要指标能够有效和可靠地度量临床相关的和重要的治疗获益ღ◈✿。主要指标通常用于样本量估计（见第3.5章节）ღ◈✿。

　　另一个常见的例子是复发事件ღ◈✿，处理效应的测量可以是简单的二分类指标（特定时期内的任何复发）ღ◈✿、首次复发的时间ღ◈✿、复发率（观察的单位时间的事件数）ღ◈✿，等等ღ◈✿。在评价慢性病的处理效应时ღ◈✿，随时间变化的功能状态对选择主要指标提出了其他挑战ღ◈✿。相应的方法有多种ღ◈✿，例如ღ◈✿，观察期开始和结束时所做评价的比较ღ◈✿、由观察期所有评价求得的斜率的比较ღ◈✿、超过或低于规定阈值的受试者比例的比较ღ◈✿、基于重复测量数据方法的比较ღ◈✿。为避免因事后定义所产生的多重性担忧ღ◈✿，在方案中规定主要指标的精确定义至关重要ღ◈✿，因为该定义将用于统计分析ღ◈✿。另外ღ◈✿，所选择的具体主要指标的临床相关性和相关测量过程的合理性通常需要在方案中阐明ღ◈✿。

　　当与主要目的相关的多种测量方法中难以确定单一的主要指标时ღ◈✿，另一种有用的策略是按预先确定的计算方法将多个指标组合成一个单一或“复合”指标ღ◈✿。主要指标有时以多种临床测量方法相组合的形式出现（如关节炎ღ◈✿、精神疾病和其它疾病使用的量表）ღ◈✿，这虽涉及多重性问题ღ◈✿，但无需调整 I类错误ღ◈✿。将多个指标组合的方法应在方案中详细说明ღ◈✿，且应以临床获益的大小对结果进行解释ღ◈✿。当复合指标被用作主要指标时ღ◈✿，可以对复合指标中有临床意义的单个指标进行单独分析ღ◈✿。当量表被用作主要指标时ღ◈✿，阐明内容效度（见词汇表）ღ◈✿、评价者内和评价者间信度（见词汇表）及检测疾病严重程度变化的反应度等尤其重要ღ◈✿。

　　在某些情况下ღ◈✿，全局评价指标（见词汇表）用于评价某个处理的整体安全性ღ◈✿、有效性和/或实用性ღ◈✿。这种指标类型整合了客观指标和研究者对受试者的状态或状态变化的总体印象ღ◈✿，它通常是一个有序分类量表ღ◈✿。整体有效性的全局评价方法已经用于某些治疗领域ღ◈✿，如神经病学和精神病学ღ◈✿。

　　全局实用性评价综合了获益与风险两方面因素ღ◈✿，反映了经治医生的决策过程ღ◈✿，即医生在做出使用产品的决策时ღ◈✿，必须权衡获益与风险ღ◈✿。全局实用性指标会产生这样的问题ღ◈✿，即某些情况下会将获益和不良反应方面差别很大的两种产品判断为等效ღ◈✿。例如ღ◈✿，将一种治疗的全局实用性指标判断为等效于或优效于另一种治疗时ღ◈✿，可能掩盖了其疗效甚微或无效但不良反应较少的事实ღ◈✿。因此不建议将全局实用性指标作为主要指标ღ◈✿。如果全局实用性指标被用作主要指标ღ◈✿，则将特定的有效性和安全性结局分别作为附加的主要指标考虑是非常重要的ღ◈✿。

　　有时需要使用一个以上的主要指标ღ◈✿，且每一个指标（或其中一个子集）都足以涵盖其治疗效果的范围ღ◈✿。解释这类证据的既定方式应当详细说明ღ◈✿，即应该说明对任一指标ღ◈✿，或最少几个指标ღ◈✿，或全部指标的影响是否被认为是达到试验目的所必需的ღ◈✿。应该针对已定义的主要指标清楚地说明主要假设或相关的假设与参数（如均数ღ◈✿、百分数ღ◈✿、分布）星光大道朱之文周赛ღ◈✿，并清楚地叙述统计推断方法ღ◈✿。因为存在潜在的多重性问题ღ◈✿，所以应解释对 I类错误的影响（见第 5.6章节）ღ◈✿，也应在方案中给出控制I类错误的方法ღ◈✿。在评价对 I类错误的影响时ღ◈✿，所提出的主要指标之间的相关程度也需要考虑ღ◈✿。如果试验目的是证实所有主要指标的效果ღ◈✿，则无需调整 I 类错误ღ◈✿，但必须仔细考虑对II类错误和样本量的影响ღ◈✿。

　　当通过观察实际临床有效性直接评价受试者的临床获益不可行时ღ◈✿，可以考虑间接标准（替代指标—见词汇表）ღ◈✿。一些被认为可以预测临床获益的指标通常可作为替代指标ღ◈✿。确定替代指标有两个主要关注点ღ◈✿：第一ღ◈✿，它可能不是相关临床结局的真正预测因子ღ◈✿，例如ღ◈✿，它可以测量与一个特定药理学机制有关的治疗活性ღ◈✿，但不能提供治疗的作用范围与最终效果的全部信息ღ◈✿，无论是阳性还是阴性ღ◈✿。许多例证表明ღ◈✿，治疗在替代指标显示出高度阳性效应ღ◈✿，而最终被证明对受试者的临床结局是有害的ღ◈✿。与此相反ღ◈✿，也有一些例证显示ღ◈✿，治疗的临床获益明确却未能在替代指标体现ღ◈✿。第二ღ◈✿，替代指标可能不会定量测量可直接权衡不良反应的临床获益ღ◈✿。验证替代指标的统计学标准已经具备ღ◈✿，但是使用它们的经验相对有限ღ◈✿。

　　连续型或等级指标有时可能需要转化为二分类或其他分类指标ღ◈✿。“成功”和“应答”的标准是二分类的常见例子ღ◈✿。分类标准需明确规定ღ◈✿，例如ღ◈✿，连续型指标最小百分比的改善（相对于基线）ღ◈✿，或者有序等级量表中等于或高于某个阈值水平（如“良”）的按顺序分类ღ◈✿。

　　临床试验中ღ◈✿，避免偏倚的最重要的设计技术是盲法和随机化ღ◈✿，它们为上市申请中大多数对照临床试验所常规采用ღ◈✿。

　　大多数此类试验采用双盲法ღ◈✿，按照合适的随机化方案ღ◈✿，对治疗药物进行预先包装并提供给试验中心ღ◈✿，只标明受试者编号和疗程ღ◈✿，从而使参与试验的任何人都不知道分配给任何特定受试者的具体治疗药物ღ◈✿，甚至不知道编码字母ღ◈✿。该方法会在第 2.3.1章节和第 2.3.2章节中的大部分内容中进行介绍ღ◈✿，例外情况会在最后考虑ღ◈✿。

　　盲法或遮蔽是为了限制临床试验的实施和解释时所产生的有意或无意的偏倚ღ◈✿，这些偏倚可能源于以下情况的影响ღ◈✿：知晓受试者的招募和处理分组ღ◈✿、受试者的后续治疗ღ◈✿、受试者对治疗的态度ღ◈✿、终点评价ღ◈✿、退出的处理ღ◈✿、从分析中剔除数据ღ◈✿，等等ღ◈✿。盲法的根本目标是防止知晓处理分组ღ◈✿，直到所有产生偏倚的机会都消失ღ◈✿。

　　达到理想的双盲会有很多困难ღ◈✿：有些处理可能具有完全不同的性质ღ◈✿，例如ღ◈✿，手术和药物治疗ღ◈✿；两种药物可能具有不同的剂型ღ◈✿，虽然使用胶囊可以令它们无法被区分ღ◈✿，但改变剂型可能会改变药代动力学和/或药效学的特性ღ◈✿，因此需要建立制剂的生物等效性ღ◈✿；两种处理的每日用法可能不同ღ◈✿。这些情况下ღ◈✿，使用“双模拟”（见词汇表）技术是实现双盲条件的一种方法ღ◈✿，该技术有时会强制实施一种非同寻常的使用方案ღ◈✿，使得受试者的积极性和依从性受到负面影响ღ◈✿。伦理上的困难也可能会干扰该技术的应用ღ◈✿，例如手术过程的模拟ღ◈✿。无论如何ღ◈✿，应当努力克服这些困难ღ◈✿。

　　如果双盲试验不可行ღ◈✿，则应考虑用单盲方案ღ◈✿。有些情况下ღ◈✿，只有开放试验在实践上或伦理上是可行的ღ◈✿。单盲和开放试验更具灵活性ღ◈✿，但特别重要的是ღ◈✿，研究者知道了下一个受试者的处理不应影响入组受试者的决定ღ◈✿，即该决定应在知道随机化处理之前做出ღ◈✿。对于这些试验ღ◈✿，应考虑使用中央随机化方法ღ◈✿，如采用电话随机化管理处理的分配ღ◈✿。此外ღ◈✿，应该由不参与治疗受试者并对处理保持盲态的医务人员进行临床评价ღ◈✿。在单盲或开放试验中ღ◈✿，应尽一切努力使各种已知的偏倚来源降到最低ღ◈✿，并且应采用尽可能客观的主要指标ღ◈✿。应在方案中解释所采用的盲态程度的原因ღ◈✿，以及所采取的使偏倚最小化的措施ღ◈✿。例如ღ◈✿，申办方应当有严格的标准操作规程ღ◈✿，以保证在清理数据库以供分析之前ღ◈✿，适当限制对处理编码的获取ღ◈✿。

　　在临床试验中ღ◈✿，随机化将机会元素引入到受试者的处理分配中ღ◈✿。在试验数据的后续分析期间ღ◈✿，它为定量评价与处理效应有关的证据提供了坚实的统计基础ღ◈✿。它倾向于使各处理组的已知和未知的预后因素分布相似ღ◈✿。与盲法结合ღ◈✿，在受试者的选择和分配时ღ◈✿，随机化有助于避免因处理分配的可预测性而可能出现的偏倚ღ◈✿。

　　临床试验的随机化列表记录了施与受试者处理的随机分配ღ◈✿，其最简单的方式是处理的序列表（或交叉试验中的处理序列）ღ◈✿，或按受试者编号对应的编码ღ◈✿。有些试验ღ◈✿，如具有筛选阶段的试验ღ◈✿，可能使问题复杂一些ღ◈✿，但是预先计划的受试者的处理分配或处理序列应是唯一的ღ◈✿。不同的试验设计需要不同的程序来生成随机化列表ღ◈✿。随机化列表应当有重现性（如果需要）ღ◈✿。

　　虽然无限制条件的随机化是一种可接受的方法ღ◈✿，但区组随机一般具有某些优势ღ◈✿，它有助于增加处理组间的可比性ღ◈✿，特别是当受试者特征可能随时间变化时ღ◈✿，例如由于招募策略改变引起的变化ღ◈✿。它还能更好地保证各处理组的样本量几乎相等ღ◈✿。在交叉试验中ღ◈✿，它提供了获得具有更高效率和更易于解释的平衡设计的方法ღ◈✿。选择区组长度时需注意ღ◈✿，既要足够短以限制可能的不平衡ღ◈✿，又要足够长以避免对区组序列末尾的可预测性ღ◈✿。区组长度通常应对研究者及其他有关人员保持盲态ღ◈✿；使用两种或多种区组长度与每个区组随机选择长度ღ◈✿，可达到同样目的ღ◈✿。（理论上ღ◈✿，在双盲试验中ღ◈✿，可预测性并不重要ღ◈✿，但药物的药理作用可能提供猜测机会ღ◈✿。）

　　对于多中心试验（见词汇表）ღ◈✿，应按中心进行随机化ღ◈✿。提倡每个中心有一个单独的随机方案ღ◈✿，即按中心分层或为每个中心分配若干完整的区组ღ◈✿。更一般地凯发国际官网ღ◈✿，按照基线测量的重要预后因素（如疾病的严重程度ღ◈✿、年龄ღ◈✿、性别等）进行分层ღ◈✿，可保障层内的平衡分配ღ◈✿，这种方法在小型试验中潜在益处更大ღ◈✿。分层因素一般不超过三个ღ◈✿，否则实现平衡不仅困难ღ◈✿，而且麻烦ღ◈✿。应用动态分配程序（见下文）可能有助于同时在多个分层因素之间达到平衡ღ◈✿，只要可以调整其余试验流程以适应这类方法ღ◈✿。应当在后续的分析中对分层随机化的因素加以考虑ღ◈✿。

　　进入试验的下一个随机化受试者ღ◈✿，应该接受对应于随机化列表（如果随机化是分层的ღ◈✿，则在相应的层中）中下一个号码的处理ღ◈✿。只有当已经确认下一个受试者进入到试验的随机化阶段时ღ◈✿，才能给受试者分配合适的号码和相关处理ღ◈✿。具有增加可预测性的随机化细节ღ◈✿，如区组长度ღ◈✿，不应包含在试验方案中ღ◈✿。随机化列表本身应该由申办方或独立方安全存档ღ◈✿，以确保整个试验过程维持盲态ღ◈✿。在试验期间获取随机化列表应该考虑在紧急情况下为任何受试者破盲的可能性ღ◈✿。破盲应遵循的程序ღ◈✿、必要的文件以及受试者后续的处理和评价均应在方案中写明ღ◈✿。

　　动态分配也是一种选择ღ◈✿，该方法根据当前已分配的处理的平衡情况进行处理分配ღ◈✿，对于分层试验ღ◈✿，处理分配视受试者所属层内的平衡情况而定ღ◈✿。应当避免确定性的动态分配程序ღ◈✿，应当为每个处理分配纳入适当的随机化要素ღ◈✿。应尽一切努力保持试验的双盲状态ღ◈✿。例如ღ◈✿，仅限于中央试验办公室知道处理编码ღ◈✿，并由办公室通过电话联系来控制动态分配ღ◈✿。这种方法允许对入选标准进行额外检查ღ◈✿，并会建立试验入组的记录ღ◈✿，这些信息对某些类型的多中心试验具有价值ღ◈✿。随后会启用双盲试验的预包装和贴标签的药品供应系统ღ◈✿，但它们的使用顺序不再是依次的ღ◈✿。最好使用适当的计算机算法使中央试验办公室的人员对处理编码保持盲态星光大道朱之文周赛ღ◈✿。当考虑动态分配时ღ◈✿，应该仔细评价物流的复杂性以及对分析的潜在影响ღ◈✿。

　　对于确证性试验ღ◈✿，最常见的临床试验设计是平行组设计ღ◈✿，该设计将受试者随机分配到两组或多组中的一组ღ◈✿，每组采用不同的处理ღ◈✿。这些处理包括一个或多个剂量的研究产品ღ◈✿，以及一个或多个对照处理ღ◈✿，如安慰剂或/和阳性对照ღ◈✿。该设计的假设比大多数其它设计简单ღ◈✿，但与其它设计一样ღ◈✿，可能会有使分析和解释复杂化的额外试验特征ღ◈✿，如协变量ღ◈✿、随时间的重复测量ღ◈✿、设计因素之间的交互作用ღ◈✿、方案违背ღ◈✿、脱落（见词汇表） ღ◈✿、退出等ღ◈✿。

　　在交叉设计中ღ◈✿，每个受试者被随机分到两个或多个处理序列ღ◈✿，因此处理间的比较相当于自身对照ღ◈✿。这种简单策略之所以有吸引力ღ◈✿，主要因为它减少了满足检验效能所需的受试者ღ◈✿，有时减少的程度相当可观ღ◈✿。2×2 交叉设计是最简单的ღ◈✿，该设计通常在先后两个处理周期中安排一个洗脱期ღ◈✿，每个受试者以随机顺序在每个处理周期接受两个处理中的其中一个ღ◈✿。最常见的扩展设计是 n 个周期和 n（2）个处理ღ◈✿，每个受试者先后接受所有 n 个处理ღ◈✿。此类设计形式多样ღ◈✿，例如ღ◈✿，每个受试者接受 n（2）个处理中的一个子集ღ◈✿，或者对一个受试者重复给予处理ღ◈✿。

　　交叉设计有很多问题可导致其结果无效ღ◈✿，主要困难在于残留效应ღ◈✿，即在后继处理周期内的前序处理的残余影响ღ◈✿。使用相加模型时ღ◈✿，不同的残留效应将使处理间的直接比较产生偏倚ღ◈✿。对于 2×2设计ღ◈✿，统计上无法将残留效应从处理与周期的交互作用中区分开来ღ◈✿，并且因为相应的对比是“受试者之间”ღ◈✿，故检验这两个效应中任何一个都缺乏检验效能ღ◈✿。这一问题在高阶设计中并不严重ღ◈✿，但不能完全消除ღ◈✿。

　　采用2×2交叉设计验证相同药物的两种制剂的生物等效性甚为常用ღ◈✿，往往令人满意ღ◈✿，尤其是以健康志愿者为对象的试验ღ◈✿，如果两个周期间的洗脱时间足够长ღ◈✿，极不可能发生相关药代动力学指标的残留效应ღ◈✿。不过ღ◈✿，在分析期间基于获得的数据核实这一假设仍然非常重要ღ◈✿，例如ღ◈✿，通过在每个周期开始时未检测到药物来证实无残留效应ღ◈✿。

　　在析因设计中ღ◈✿，通过使用不同的处理组合可以同时评价两个或多个处理ღ◈✿。最简单的例子是2×2析因设计ღ◈✿，受试者被随机分配到两个处理 A 和 B 的四种可能组合之一星光大道朱之文周赛ღ◈✿，即单独Aღ◈✿、单独 Bღ◈✿、既有 A又有 Bღ◈✿、既无A又无 Bღ◈✿。该设计多以检验 A和 B的交互作用为特定目的ღ◈✿。如果基于检验主效应计算样本量ღ◈✿，则交互作用统计检验的检验效能可能不足ღ◈✿。当该设计被用于检验 A和 B的联合效应时ღ◈✿，特别是如果两者可能被一起使用ღ◈✿，这一考虑尤为重要ღ◈✿。

　　析因设计的另一个重要用途是ღ◈✿，建立同时使用处理 C和D时的剂量-反应特征ღ◈✿，特别是在先前试验中每种单一疗法的某个剂量的有效性已被证实的情况ღ◈✿。设 C的剂量数为 m（通常包括零剂量ღ◈✿，即安慰剂）ღ◈✿，相似的 D的剂量数为 nღ◈✿，整个设计由 m×n 个处理组构成ღ◈✿，每个处理组为一种不同的 C 和 D的剂量组合ღ◈✿，则应用响应面的结果估计可以帮助确定临床使用的 C和 D剂量的恰当组合（见 ICH E4）ღ◈✿。

　　某些情况下ღ◈✿，如评价两种处理的有效性所需的受试者数量与单独评价任一种处理的有效性所需的受试者数量相同时ღ◈✿，2×2 设计可能会更高效地利用受试者ღ◈✿，这一策略已经被证实对非常大型的死亡率试验颇有价值ღ◈✿。该方法的效率和可靠性取决于处理 A 和 B 之间不存在交互作用ღ◈✿，使得 A 和 B对主要有效性指标的主效应服从相加模型ღ◈✿，因此ღ◈✿，无论是否追加 B的效应ღ◈✿，A的效应是确定的ღ◈✿。对于交叉试验ღ◈✿，应在试验前利用先前的信息和数据ღ◈✿，这很可能会找到满足无交互作用的证据ღ◈✿。

　　开展多中心试验主要有两个原因ღ◈✿。首先ღ◈✿，多中心试验是一种更加高效地评价新药的可接受的方法ღ◈✿；某些情况下ღ◈✿，为在合理的时间框架内获得足够的受试者以满足试验目的ღ◈✿，它可能是唯一可行的方法ღ◈✿。原则上ღ◈✿，在临床研发的任何阶段均可开展这种性质的多中心试验ღ◈✿。多中心试验可能有几个中心ღ◈✿，每个中心的受试者数量较大ღ◈✿；也可能有很多中心ღ◈✿，每个中心只有很少的受试者ღ◈✿，比如罕见病研究ღ◈✿。

　　其次ღ◈✿，设计成多中心（和多个研究者）试验主要是为研究结果的后续推论提供更好的基础ღ◈✿，因为从更广泛的人群中招募受试者和呈现更宽泛的使用药物的临床环境ღ◈✿，从而呈现出更典型的未来用药场景ღ◈✿。这种情况下ღ◈✿，许多研究者的参与也可提供更宽泛的药物价值临床判断ღ◈✿。此类试验在药物研发后期将成为确证性试验ღ◈✿，可能有大量的研究者和中心参与ღ◈✿。

　　要想充分解释和外推多中心试验结论ღ◈✿，所有中心实施研究方案的方式应该是明确的和相似的ღ◈✿。样本量和检验效能的计算通常基于各中心的处理间差异是相同的无偏估计的假设ღ◈✿，因此ღ◈✿，制定共同研究方案并给予实施很重要ღ◈✿。试验的实施流程应该尽可能标准化ღ◈✿。通过研究者会议ღ◈✿、试验前的人员培训和试验期间的严密监查ღ◈✿，可以减少评价标准和方法的不一致性ღ◈✿。良好设计的目的通常是实现每个中心内各处理组的受试者分布相同ღ◈✿，而良好管理可以对该目的起到支持作用ღ◈✿。

　　应避免中心间的病例数相差太大以及个别中心病例数太少ღ◈✿，这一考虑的好处会在后期探查中心间处理效应的异质性时显示出来ღ◈✿，因为这样可以减少处理效应不同加权估计之间的差异ღ◈✿。（这一点并不适用于所有中心病例数都非常少的试验ღ◈✿，以及分析时不考虑中心效应ღ◈✿。）如果不采取这些预防措施ღ◈✿，加之对结果同质性的质疑ღ◈✿，会使多中心试验的价值降低ღ◈✿，有时甚至严重到不能为申办方的主张提供令人信服的证据的地步ღ◈✿。

　　最简单的多中心试验是每位研究者负责在一家医院招募受试者ღ◈✿，所以ღ◈✿，“中心”是由研究者或医院唯一确定的ღ◈✿。可是ღ◈✿，很多试验会更复杂一些ღ◈✿，例如ღ◈✿，一个研究者可能从几家医院招募受试者ღ◈✿；一个研究者可能代表一个临床医生团队（参与研究者）ღ◈✿，他们或从一家医院所辖的几个诊所ღ◈✿，或从几家相关的医院招募受试者ღ◈✿。只要对统计模型中关于中心的定义有疑义ღ◈✿，方案中的统计章节（见第 5.1 章节）就应在特定试验背景下明确定义该术语（例如ღ◈✿，按研究者ღ◈✿、场所或地区）ღ◈✿。

　　某些试验ღ◈✿，如大型的死亡率试验ღ◈✿，每个中心只有很少受试者ღ◈✿，设想中心对主要或次要指标有任何影响都是缺乏依据的ღ◈✿，因为中心因素的影响不可能代表临床重要性ღ◈✿。还有一些试验可能从一开始就会认识到每个中心有限的受试者使得统计模型中包含中心效应变得不切实际ღ◈✿。这种情况下ღ◈✿，模型中不应包含中心项ღ◈✿，而且也没有必要按中心进行分层随机化ღ◈✿。

　　对于每个中心都有充足的受试者的试验ღ◈✿，如果发现阳性处理效应ღ◈✿，通常应探索不同中心间处理效应的异质性ღ◈✿，因为这可能影响结论的外推性ღ◈✿。通过各中心结果的图示方法ღ◈✿，或通过对中心与处理间交互作用的统计检验ღ◈✿，可能会发现明显的异质性ღ◈✿。对交互效应做统计检验时ღ◈✿，需认识到其检验效能不高ღ◈✿，因为试验是基于探测处理的主效应而设计的ღ◈✿。

　　在缺乏原因的情况下ღ◈✿，一旦证实处理效应的异质性ღ◈✿，例如ღ◈✿，通过明显的定量交互作用（见词汇表）ღ◈✿，意味着处理效应可能需要另一种估计ღ◈✿，比如给中心不同赋权以保障处理效应估计的稳健性ღ◈✿。理解定性交互作用（见词汇表）的异质性甚至更为重要ღ◈✿，当未能找到原因时ღ◈✿，要想可靠地预测处理效应ღ◈✿，可能需要进一步开展临床试验ღ◈✿。

　　科学地讲ღ◈✿，通过安慰剂对照试验显示优于安慰剂ღ◈✿，或通过显示优于阳性对照处理ღ◈✿，或显示剂量-反应关系ღ◈✿，所得到的疗效是最可信的ღ◈✿。此类试验被称为“优效性”试验（见词汇表）ღ◈✿。

　　某些情况下ღ◈✿，研究产品与参照处理相比的目的并非为了显示优效性ღ◈✿。此类试验根据其目的分为两大类ღ◈✿，一类是“等效性”试验（见词汇表）ღ◈✿，另一类是“非劣效性”试验（见词汇表）ღ◈✿。

　　阳性对照等效性或非劣效性试验也可引入安慰剂对照ღ◈✿，从而在一个试验中设定多个目标ღ◈✿，例如ღ◈✿，这种设计在验证优效于安慰剂的同时ღ◈✿，还可以评价相对于阳性对照的有效性与安全性的相似程度ღ◈✿。众所周知ღ◈✿，采用不包含安慰剂或不设置新药多个剂量的阳性对照等效性（或非劣效性）试验会面临一些困难ღ◈✿。与优效性试验相比ღ◈✿，此类试验隐性缺乏内部效度ღ◈✿，因此必须进行外部验证ღ◈✿。等效性（或非劣效性）试验本质上并不保守ღ◈✿，因此ღ◈✿，在试验设计或实施中的许多缺陷倾向于使结果倾向等效的结论ღ◈✿。由于这些原因ღ◈✿，这些试验的设计特点应受到特别关注ღ◈✿，它们的实施需要特别小心ღ◈✿，例如ღ◈✿，尽量减少违反入选标准ღ◈✿、不依从ღ◈✿、退出ღ◈✿、失访ღ◈✿、数据缺失和其它偏离方案的发生率ღ◈✿，并使它们对后续分析的影响降至最低ღ◈✿。

　　应谨慎选择阳性对照ღ◈✿。恰当的阳性对照应该是一种被广泛使用的疗法ღ◈✿，其针对相关适应症的疗效已在良好设计和良好记录的优效性试验中得到了量化确认ღ◈✿，并且能够可靠地预期在将要实施的试验中显示出相似的疗效ღ◈✿。为此ღ◈✿，新试验应该与以前实施且明确显示出临床相关疗效的优效性试验具有相同的重要设计特征（主要指标ღ◈✿、阳性对照的剂量ღ◈✿、入排标准等） ღ◈✿，且考虑与新试验相关的医学或统计学实践的进展ღ◈✿。

　　在试验方案中ღ◈✿，一个关键问题是要把证明等效性或非劣效性的意图清晰明确地表述出来ღ◈✿。方案中应规定一个等效界值ღ◈✿，该界值被视为临床可接受的最大差异ღ◈✿，并且应当小于在阳性对照优效性试验中所观察到的差异ღ◈✿。对于阳性对照等效性试验ღ◈✿，需规定等效界值的上限和下限ღ◈✿；而对于阳性对照非劣效性试验ღ◈✿，仅需规定界值下限ღ◈✿。等效界值的选择应具备临床的合理性ღ◈✿。

　　统计分析通常采用置信区间方法（见第 5.5章节）ღ◈✿。对于等效性试验ღ◈✿，应当使用双侧置信区间ღ◈✿。如果置信区间完全落在等效界值之内ღ◈✿，可推断为等效ღ◈✿。在实操上ღ◈✿，该法相当于双单侧检验方法ღ◈✿，其（复合）无效假设是处理间差异在等效界值之外ღ◈✿，（复合）备择假设是处理间差异在等效界值之内ღ◈✿。由于两个无效假设无重叠ღ◈✿，故 I 类错误可控ღ◈✿。对于单侧假设检验ღ◈✿，其无效假设是处理间差异（试验品减去对照品）等于或小于等效界值的下限ღ◈✿，而备择假设是处理间差异大于等效界值下限ღ◈✿。单侧或双侧检验的 I 类错误选择有所不同ღ◈✿。样本量计算应当基于这些方法（见第 3.5章节）ღ◈✿。

　　新研究产品的剂量与应答如何相关ღ◈✿，是一个在研发的所有阶段通过各种方法都可获得答案的问题（见 ICH E4）ღ◈✿。剂量反应试验可服务于许多目的ღ◈✿，相对重要的有ღ◈✿：有效性的确证ღ◈✿；剂量反应曲线的形状和位置的研究ღ◈✿；适宜初始剂量的估计ღ◈✿；个体剂量调整的最优策略确定ღ◈✿；最大剂量的确定（超出该剂量不可能额外获益） ღ◈✿。达到上述目的需要收集研究中各种剂量的数据ღ◈✿，包括安慰剂（零剂量）ღ◈✿。为此ღ◈✿，需用到估计剂量反应关系的方法ღ◈✿，包括统计检验以及同样重要的置信区间构建和图示方法ღ◈✿。假设检验可能需要根据剂量的自然顺序或关于剂量-反应曲线的形状（如单调性）的特定问题做出调整ღ◈✿。

　　采用成组序贯设计便于进行期中分析（见第 4.5 章节和词汇表）ღ◈✿。成组序贯设计虽然不是用于期中分析的唯一可接受的设计类型ღ◈✿，却是最常用的ღ◈✿，因为在试验期间以周期性间隔评价不同分组的受试者的结局比在获得整个试验每一个受试者数据后进行评价更为可行ღ◈✿。在获得处理结局和受试者的处理分配（如揭盲ღ◈✿，见第 4.5 章节）的信息之前ღ◈✿，应充分说明统计方法ღ◈✿。独立数据监查委员会（见词汇表）可对来源于成组序贯设计的数据实施审查或进行期中分析（见第 4.6章节）ღ◈✿。该设计不仅已被最广泛地ღ◈✿、成功地应用于大型ღ◈✿、长周期的以死亡率或主要非致死性结局为终点的试验ღ◈✿，它在其它方面的应用也在增加ღ◈✿。尤其是ღ◈✿，人们已经认识到所有试验中都必须监查安全性ღ◈✿，因此ღ◈✿，为了出于安全原因提早终止试验而制定正式流程的必要性往往是需要考虑的ღ◈✿。

　　临床试验的受试者例数应足够大ღ◈✿，以对所提出的问题提供可靠答案ღ◈✿。样本量通常由试验的主要目的确定ღ◈✿，如果由其它要素确定ღ◈✿，则应明确说明理由ღ◈✿。例如ღ◈✿，基于安全性问题或需要或者基于重要的次要目的确定的样本量可能比基于主要有效性问题确定的样本量需要更多的受试者（例如ღ◈✿，见 ICH E1a）ღ◈✿。

　　应在方案中给出计算样本量的方法ღ◈✿，以及在计算中使用的任何估计量（如方差ღ◈✿、均值ღ◈✿、反应率ღ◈✿、事件率ღ◈✿、待检测的差异）ღ◈✿。也应该给出这些估计的依据ღ◈✿。研究这些假设的偏离对样本量估计的敏感性很重要ღ◈✿，而根据偏离假设的合理范围给出对应的样本量范围则是一种方便可行的方法ღ◈✿。在确证性研究中ღ◈✿，假设通常应基于公开发表的数据或早期试验的结果ღ◈✿。

　　对于待检测的处理间差异ღ◈✿，可依据在患者管理中对具有临床相关性的最小效应的判断星光大道朱之文周赛ღ◈✿，也可依据对新处理的预期效应的判断ღ◈✿，相比之下后者的预期效应更大ღ◈✿。通常 I 类错误概率设在 5%或者更小ღ◈✿，或者由多重比较所需要的任何调整来决定ღ◈✿；检验假设的事先合理性以及结果的预期影响可能会影响 I 类错误的精确选择ღ◈✿。II类错误的概率通常设在10%到20%之间ღ◈✿，申办方通常愿意让该值尽可能低ღ◈✿，尤其当试验难以或不可能重复时ღ◈✿。某些情况下ღ◈✿，采用与常规的 I类和 II类错误水平不同的值也可能被接受ღ◈✿，甚至更可取ღ◈✿。

　　等效性或非劣效性试验（见第 3.3.2章节）的样本量通常应基于获得处理间差异的置信区间的目的ღ◈✿，该差异是指临床可接受的最大处理间差异ღ◈✿。如果等效性试验的检验效能是在假设线的条件下确定的ღ◈✿，如果线ღ◈✿，则达到这一检验效能所需的样本量会被低估ღ◈✿。如果非劣效性试验的检验效能是在假设 0差异的条件下确定的ღ◈✿，如果试验产品的效应低于对照ღ◈✿，则达到这一检验效能所需的样本量会被低估ღ◈✿。“临床可接受的”差异的选择需要合理说明它对将来患者的意义ღ◈✿，并且可能小于上文提到的优效性试验旨在证明的“临床相关的”差异ღ◈✿。

　　数据的收集和研究者向申办方传输数据可通过各种媒介进行ღ◈✿，包括纸质病例报告表ღ◈✿、远程现场监查系统ღ◈✿、医疗计算机系统和电子传输ღ◈✿。无论采用何种数据收集工具ღ◈✿，所收集信息的形式和内容都应完全符合方案ღ◈✿，并应在临床试验实施前确定ღ◈✿。应注重分析计划的实施所必须的数据ღ◈✿，包括确认方案依从性或确定重要方案违背所需要的背景信息（如与服用剂量有关的时点评价）ღ◈✿。“缺失值”应该与“0 值”或“特征缺失”区分开来ღ◈✿。

　　按照方案认真实施临床试验ღ◈✿，对结果的可靠性具有重大影响（见 ICH E6）ღ◈✿。仔细监查可以确保尽早发现困难ღ◈✿，并将它们的发生和复发减至最小ღ◈✿。

　　出于监督试验质量的目的ღ◈✿，试验监查中所涉及的检查可能包括ღ◈✿：是否遵循方案凯发国际官网ღ◈✿，累积数据是否可接受ღ◈✿，计划的收集目标是否达到ღ◈✿，设计假设是否合适ღ◈✿，以及在试验中保留患者是否成功ღ◈✿，等等（见第 4.2至 4.4章节）ღ◈✿。这种类型的监查既不需要获取比较处理效应的信息ღ◈✿，也不需要对数据进行揭盲ღ◈✿，因此对 I 类错误没有影响ღ◈✿。出于这一目的对试验进行监查是申办方的职责（见 ICH E6）ღ◈✿，可由申办方或申办方选择的独立小组来进行ღ◈✿。这种类型的监查周期一般是从选择试验现场开始ღ◈✿，到收集和清理最后一位受试者的数据结束ღ◈✿。

　　纳入与排除标准应按方案的规定保持恒定ღ◈✿，贯穿受试者招募期ღ◈✿。偶尔有些改变是允许的ღ◈✿，例如ღ◈✿，在长周期试验中ღ◈✿，从试验外部或期中分析所获得的对医学知识新的认识ღ◈✿，可能建议修改入组标准ღ◈✿。监查人员发现违背入组标准情况经常发生ღ◈✿，或者由于入组标准过严导致非常低的招募率ღ◈✿，也都可能是修改入组标准的理由ღ◈✿。修改入组标准应在不破盲的情况下进行ღ◈✿，并通过方案修订进行描述ღ◈✿，修订的方案应涵盖任何统计学方面的变动ღ◈✿，如不同事件率所致的样本量调整ღ◈✿，或者分析计划的修改ღ◈✿，如根据修改的纳入/排除标准进行分层分析ღ◈✿。

　　在受试者入组时间较长的试验中ღ◈✿，应监查入组率ღ◈✿，如果它明显低于预期水平ღ◈✿，应该查明原因并采取补救措施ღ◈✿，以确保试验的检验效能ღ◈✿，并减轻对选择性入组和其他质量问题的担忧ღ◈✿。这些考虑适用于多中心试验的各个中心ღ◈✿。

　　在长周期试验中ღ◈✿，通常有可能对原设计和样本量计算所依据的假设进行检查ღ◈✿。如果试验设计的某些重要规定是根据初步的和/或不确定的信息做出的ღ◈✿，这种检查尤其重要ღ◈✿。对盲态数据进行期中检查可能会发现总应答的方差ღ◈✿、事件率或生存状态不如预期ღ◈✿。此时ღ◈✿，可能需要通过适当修改假设来修正样本量ღ◈✿，还应在方案修订和临床研究报告中说明其合理性并记录在案ღ◈✿。应该解释为保持盲态所采取的措施及其对 I 类错误和置信区间宽度的影响（如果有）ღ◈✿。只要可能ღ◈✿，都应在方案中表述样本量再估计的潜在需要（见 3.5章节）ღ◈✿。

　　期中分析是指ღ◈✿，在试验正式完成之前的任何时间ღ◈✿，为比较处理组间的有效性或安全性而进行的任何分析ღ◈✿。因为这些比较的次数ღ◈✿、方法及结果影响试验的解释ღ◈✿，因此所有期中分析都应当预先仔细计划并在方案中阐明ღ◈✿。有些特殊情况ღ◈✿，期中分析可能在试验开始后才发现有必要实施ღ◈✿。对于这种情况ღ◈✿，补充定义期中分析的方案修订应在分析数据揭盲之前ღ◈✿。当期中分析用于决定是否终止试验时ღ◈✿，通常会采用成组序贯设计ღ◈✿，该设计以统计监查计划作为准则（见第 3.4章节）ღ◈✿。对于这种期中分析ღ◈✿，出现以下情况可以提早终止试验ღ◈✿：研究处理的优效性已被证实ღ◈✿；相关处理间差异已被证实是不可能的ღ◈✿；发生了不可接受的不良反应ღ◈✿。一般来说ღ◈✿，与安全性监查相比星光大道朱之文周赛ღ◈✿，通过有效性监查来提早终止试验要求更多的证据ღ◈✿，即边界更保守ღ◈✿。当试验设计和监查目的涉及多个终点时ღ◈✿，应考虑多重性问题ღ◈✿。

　　方案中应描述期中分析计划ღ◈✿，或至少描述一些相关的考虑ღ◈✿，如是否使用灵活的 α消耗函数方法ღ◈✿，并在第一次期中分析前ღ◈✿，在修订的方案中提供进一步的细节ღ◈✿。终止试验的准则和特性应在方案或修订的方案中清晰阐述ღ◈✿。其他重要指标的分析对提早终止的潜在影响也应考虑ღ◈✿。如果试验设有数据监查委员会（见第 4.6章节）ღ◈✿，上述材料应由其撰写或批准ღ◈✿。偏离计划总有可能使试验结果失效ღ◈✿。如果试验需要修正ღ◈✿，任何统计方面的相应修改应尽早在方案修订中详细说明ღ◈✿，特别是讨论这些修改对任何分析或推断的影响ღ◈✿。在统计方面应始终确保控制总 I类错误概率ღ◈✿。

　　期中分析的执行应该是一个完全保密的过程ღ◈✿，因为可能涉及非盲的数据和结果ღ◈✿。参与试验实施的所有人员应当对这些分析结果保持盲态ღ◈✿，因为他们对试验的态度可能会改变并导致招募患者的特征改变或产生处理间比较的偏倚ღ◈✿。除了直接参与执行期中分析的人员之外ღ◈✿，这一原则可适用于所有研究人员和申办方所雇佣的人员ღ◈✿。研究者应仅被告知继续或终止试验的决定ღ◈✿，或实施修订试验程序的决定ღ◈✿。

　　大部分支持研究产品有效性和安全性的临床试验应全部完成计划入组的样本量ღ◈✿。只有出于伦理原因ღ◈✿，或者出现检验效能不再可接受的情况凯发国际官网ღ◈✿，试验可提早终止ღ◈✿。然而ღ◈✿，人们都知道出于各种原因申办方的药物研发计划需要获取处理间比较的数据ღ◈✿，如为其它试验制定计划ღ◈✿；另外ღ◈✿，仅有一部分试验会涉及到严重威胁生命的结局或死亡率的研究ღ◈✿，出于伦理原因可能需要对入组病例的处理效应比较进行连续监查ღ◈✿。无论是哪一种情况ღ◈✿，为了应对可能引入的潜在统计偏倚和操作偏倚ღ◈✿，应当在分析数据揭盲之前ღ◈✿，在方案或修订方案中制定期中统计分析计划ღ◈✿。

　　独立数据监查委员会可由申办方组建ღ◈✿，每隔一段时间评价临床试验进展ღ◈✿、安全性数据和关键有效性指标ღ◈✿，并向申办方建议继续ღ◈✿、修改或终止试验ღ◈✿。该委员会应当有书面的操作规程ღ◈✿，并保存所有会议记录ღ◈✿，包括期中分析结果ღ◈✿；当试验完成时ღ◈✿，这些应可供审查ღ◈✿。该委员会的独立性旨在控制重要的比较信息的分享ღ◈✿，防止临床试验的完整性受到因获取试验信息而造成的不利影响ღ◈✿。该委员会是独立于机构审查委员会或独立伦理委员会的实体ღ◈✿，它的组成应包括通晓统计学等相关学科的临床试验科学家ღ◈✿。

　　当设计一个临床试验时ღ◈✿，数据的最终统计分析的主要特征应该在方案的统计章节进行描述ღ◈✿。该章节应包括所提出的主要指标确证性分析的所有主要特征以及解决预期分析问题的方法ღ◈✿。对于探索性试验ღ◈✿，该章节可描述更一般性的原则和方向ღ◈✿。

　　统计分析计划（见词汇表）可作为独立文件撰写ღ◈✿，并在最终确定方案之后完成ღ◈✿。该文件可以更加技术性地和详细地阐述方案所述的主要特征（见第 7.1章节）ღ◈✿。该计划可包括对主要和次要指标以及其他数据进行统计分析的详细程序ღ◈✿。统计分析计划应经审核或根据数据盲态审核（见第 7.1 章节定义）结果更新后ღ◈✿，在揭盲前最终确定ღ◈✿。最终统计分析计划的确定及随后的揭盲应保留正式记录ღ◈✿。

　　数据纳入主分析的受试者集应在方案的统计章节进行定义ღ◈✿。另外ღ◈✿，对试验程序（如导入期）启动的所有受试者进行文档记录可能是有用的凯发国际官网ღ◈✿。该受试者文档的内容取决于特定试验的详细特征ღ◈✿，只要可能ღ◈✿，至少应收集人口统计学和疾病状态的基线数据ღ◈✿。

　　如果所有随机入组的受试者都满足全部入组标准ღ◈✿，完全遵从所有试验程序且无失访ღ◈✿，并能提供完整的数据记录ღ◈✿，那么要纳入分析的受试者集是显而易见的ღ◈✿。试验设计和实施的目标应该尽可能地接近这一理想状态ღ◈✿，但实践中却难以达到这一状态ღ◈✿。因此ღ◈✿，方案的统计章节应该预先阐述可能影响受试者和分析数据的问题ღ◈✿。方案还应该说明旨在减少研究实施中任何预期的且可能影响数据分析的不规则问题的程序ღ◈✿，这些不规则问题包括各种类型的方案违背ღ◈✿、退出和数据缺失ღ◈✿。

　　方案应考虑降低这些问题发生频率的方法以及如何解决数据分析中会发生的问题ღ◈✿。在盲态审核期间ღ◈✿，应确定针对方案违背分析方法可能的修订ღ◈✿。最好是根据发生时间ღ◈✿、原因及对试验结果的影响来确定任何重大方案违背ღ◈✿。方案违背ღ◈✿、数据缺失以及其它问题的发生频率和类型应记录在临床研究报告中ღ◈✿，并描述它们对试验结果的潜在影响（见 ICH E3）ღ◈✿。

　　意向性治疗（见词汇表）原则是指主分析应包括所有随机化受试者ღ◈✿。遵循该原则需要完成所有随机化受试者的随访以获得研究结局ღ◈✿。实践中这一理想状态很难达到ღ◈✿。在本文件中ღ◈✿，术语“全分析集”被用来描述尽可能完整的分析集ღ◈✿，即尽可能接近包括所有随机化受试者的意向性治疗的理想状态的分析集ღ◈✿。在分析中保持初始随机化对于防止偏倚以及为统计检验提供可靠基础是很重要的ღ◈✿。全分析集的使用为许多临床试验提供了一种保守策略ღ◈✿。许多情况下ღ◈✿，它也可以提供处理效应的估计ღ◈✿，这些估计更有可能反映了后续临床实践中观察到的效应ღ◈✿。

　　某些情况下ღ◈✿，从所有随机化受试者集中排除任何未服用试验药物的受试者可能是合理的ღ◈✿。例如ღ◈✿，是否开始治疗的决定并不受已知晓所分配治疗的影响ღ◈✿，即使排除了这些患者ღ◈✿，但意向性治疗原则仍得以遵守ღ◈✿。其他情况下ღ◈✿，可能需要从所有随机化受试者集中剔除任何随机化后无数据的受试者ღ◈✿，除非来自这些特定排除的潜在偏倚或任何其它偏倚得到解决ღ◈✿，否则任何分析都不是完整的ღ◈✿。

　　当使用受试者全分析集时ღ◈✿，随机化后发生的方案违背可能会对数据和结论产生影响ღ◈✿，特别是如果它们的发生与处理分配相关时ღ◈✿。大多数情况下把这些受试者的数据纳入分析是合适的ღ◈✿，这符合意向性治疗原则ღ◈✿。接受一次或多次剂量后退出治疗且以后未提供数据的受试者ღ◈✿，或失访的受试者ღ◈✿，导致了特殊问题的产生ღ◈✿，因为不把这些受试者纳入全分析集中可能会破坏这个原则ღ◈✿。这种背景下ღ◈✿，受试者无论因任何原因失访ღ◈✿，其已经获得的ღ◈✿、或根据方案中规定的评价时间点随后收集到的主要指标测量数据ღ◈✿，都是有价值的ღ◈✿。在主要指标是死亡率或严重疾病发病率的研究中ღ◈✿，后续数据的收集尤为重要ღ◈✿。

　　如何收集此类数据应在方案中描述ღ◈✿。从末次观察值结转方法到复杂数学模型的填补技术可尝试用于替代缺失值ღ◈✿。用于确保全分析集中每个受试者主要指标测量值可利用的其它方法ღ◈✿，可能会要求做出关于受试者结局或更简单的结局（如成功或失败）的一些假设ღ◈✿。任何策略的使用都应在方案的统计章节中进行描述并说明合理性ღ◈✿，并且所用的任何数学模型所依据的假设均应解释清楚ღ◈✿。证实相应分析结果的稳健性也同样重要ღ◈✿，特别是所考虑的策略本身可能会导致处理效应有偏估计的情况ღ◈✿。

　　受试者的“符合方案”集ღ◈✿，有时被称为“有效病例”ღ◈✿、“有效性”样本或“可评价的受试者”样本ღ◈✿，被定义为全分析集的受试者中对方案更具依从性的子集ღ◈✿，并且以符合如下标准为特征ღ◈✿：

　　一般说来ღ◈✿，证明主要试验结果对选择不同受试者集具有不敏感性是有利的ღ◈✿。在确证性试验中ღ◈✿，计划对全分析集及符合方案集都进行分析通常是恰当的ღ◈✿，这样可以明确地讨论和解释它们之间的任何差异ღ◈✿。某些情况下ღ◈✿，需要深入探讨用于分析的受试者集的选择对结论的敏感性ღ◈✿。当全分析集和符合方案集得出实质上相同的结论时ღ◈✿，会增加试验结果的可信度ღ◈✿，但应注意ღ◈✿，对于排除了大比例受试者的符合方案分析会给试验的整体正确性带来一些疑虑ღ◈✿。

　　在优效性试验（试图验证研究产品更优）和等效性或非劣效性试验（试图验证研究产品具有可比性ღ◈✿，见第 3.3.2 章节）中ღ◈✿，全分析集和符合方案集发挥的作用不同ღ◈✿。在优效性试验中ღ◈✿，全分析集用于主分析（除了例外情况）ღ◈✿，因为它倾向于避免符合分析集所导致的对有效性的过度乐观估计ღ◈✿，因为包含在全分析集中的非依从者一般会降低所估计的处理效应ღ◈✿。然而ღ◈✿，在等效性或非劣效性试验中ღ◈✿，使用全分析集一般不保守ღ◈✿，应非常仔细地考虑它的作用ღ◈✿。

　　缺失数据是临床试验中的一个潜在偏倚来源ღ◈✿。因此ღ◈✿，应尽一切努力满足方案对数据收集和管理的所有要求ღ◈✿。然而ღ◈✿，现实中几乎总会有一些缺失数据ღ◈✿。虽然如此ღ◈✿，只要缺失数据的处理方法合理ღ◈✿，尤其是在方案中预先定义了这些方法ღ◈✿，则试验可以被认为是可靠的ღ◈✿。在盲态审核期间ღ◈✿，可以更新统计分析计划ღ◈✿，完善这些方法的定义ღ◈✿。遗憾的是ღ◈✿，没有可推荐的普遍适用的缺失数据处理方法ღ◈✿。应该对缺失数据的处理方法做敏感性研究ღ◈✿，特别是当缺失数据的比例较大时ღ◈✿。

　　应采用类似的方法探索离群值的影响ღ◈✿，它们的统计定义在某种程度上是主观的ღ◈✿。只有从医学上和统计上都认为是合理的ღ◈✿，把某一特定值明确地确定为异常值才最具说服力ღ◈✿，而且医学方面通常会定义适当的操作程序ღ◈✿。在方案或统计分析计划中预先设定的有关离群值的程序应当不倾向任何处理组ღ◈✿。同样ღ◈✿，在盲态审核期间可以有效地更新这方面的分析ღ◈✿。

　　最好在试验设计期间基于早期临床试验的类似数据ღ◈✿，在分析前做出对关键指标进行转换的决定ღ◈✿。应该在方案中对数据转换（如平方根转换ღ◈✿、对数转换）进行详细说明ღ◈✿，并叙述基本原理ღ◈✿，尤其是主要指标ღ◈✿。在标准教材中可以找到进行数据转换的一般原则ღ◈✿，可确保满足统计方法所依据的假设ღ◈✿，而且在许多特定的临床领域已经形成了针对特定指标的惯例ღ◈✿。

　　为满足试验的主要目的ღ◈✿，应该在方案的统计章节中详细说明待检验的假设和/或待估计的处理效应ღ◈✿。用于完成这些任务的统计方法应当针对主要指标（以及优选的次要指标）进行描述ღ◈✿，并明确所依据的统计模型ღ◈✿。只要有可能ღ◈✿，处理效应的估计应伴有置信区间ღ◈✿，并确定其计算方法ღ◈✿。应当说明使用基线数据以提高精度或以潜在基线差异校正估计值的任何意图ღ◈✿，例如ღ◈✿，使用协方差分析进行校正ღ◈✿。

　　所选择的特定统计模型应当反映人们对待分析指标以及试验的统计设计在医学和统计方面的目前认识状态ღ◈✿。应充分说明在分析中待拟合的所有效应（例如在方差模型分析中）ღ◈✿，并应解释根据初步结果对这些效应进行修改的方式（如果有）ღ◈✿。同样的考虑也适用于在协方差分析中所拟合的协变量集合（见第 5.7章节）ღ◈✿。在选择统计方法时（如参数和非参数方法）ღ◈✿，应注意主要和次要指标的统计分布ღ◈✿，其分析结果应包含处理效应量的统计估计值及置信区间（显著性检验除外）ღ◈✿。

　　当存在多重性时ღ◈✿，用于临床试验数据分析常用的频率派方法可能需要对 I 类错误进行调整ღ◈✿。多重性可能来源于多个主要指标（见第 2.2.2章节）ღ◈✿、处理的多重比较ღ◈✿、随时间的多次评价和/或期中分析（见第 4.5章节）ღ◈✿。在可行的情况下ღ◈✿，避免或减少多重性的方法有时更可取ღ◈✿，例如ღ◈✿，在多个指标中确定一个关键主要指标ღ◈✿，在多重比较中选择一个关键的处理比较ღ◈✿，对于重复测量使用汇总测量如“曲线下面积”等ღ◈✿。在确证性分析中ღ◈✿，除采取此类步骤ღ◈✿，对多重性的其余任何解决办法也应当在方案中确定ღ◈✿。应始终考虑多重性的调整ღ◈✿，并应在分析计划中交待任何调整程序的细节ღ◈✿，或者解释不必调整的理由ღ◈✿。

　　除处理之外ღ◈✿，主要指标通常系统性地与其它影响因素相关ღ◈✿。例如ღ◈✿，它可能与年龄和性别等协变量相关ღ◈✿，或者比如多中心试验中不同中心接受处理的受试者这样的特定亚组之间可能存在差异ღ◈✿。有些情况下ღ◈✿，对协变量影响的调整或者对亚组效应的调整是分析计划中不可缺少的部分ღ◈✿，因此应在方案中阐明ღ◈✿。应通过试验前的缜密考虑ღ◈✿，确定这些协变量以及预期对主要指标有重要影响的因素ღ◈✿，并考虑在分析中如何处理ღ◈✿，以提高精度和补偿处理组之间的任何不平衡ღ◈✿。如果使用一个或多个因素进行分层设计ღ◈✿，那么在分析中应考虑这些因素ღ◈✿。当不确定调整的潜在价值时ღ◈✿，通常建议主要关注未调整的分析ღ◈✿，把调整分析作为支持性分析ღ◈✿。应特别注意中心效应和主要指标基线值的作用星光大道朱之文周赛ღ◈✿。不建议在主分析中校正随机化后测量的协变量ღ◈✿，因为它们可能受到处理的影响ღ◈✿。

　　处理效应本身也可能随亚组或协变量而变化ღ◈✿，例如凯发国际官网ღ◈✿，处理效应可能随年龄降低或者可能在特定诊断类别的受试者中更大ღ◈✿。某些情况下ღ◈✿，预期会产生交互作用或对交互作用有特别兴趣（如老年病学）时ღ◈✿，亚组分析或者包含交互项的统计模型因此成为计划的确证性分析的一部分ღ◈✿。然而ღ◈✿，大多数情况下亚组分析和交互作用分析应当确定为探索性的ღ◈✿，即探索所有处理效应的一致性ღ◈✿。一般而言ღ◈✿，应首先在所讨论的统计模型添加交互项进行分析ღ◈✿，辅之以在相关受试者亚组内或者由协变量定义的层内进行额外的探索性分析ღ◈✿。对于探索性分析ღ◈✿，应谨慎解释其分析结果ღ◈✿，仅仅基于探索性亚组分析的治疗有效性（或缺乏有效性）或安全性的任何结论都不太可能被接受ღ◈✿。

　　分析结果的可信性取决于用于数据管理（数据录入ღ◈✿、存储ღ◈✿、验证ღ◈✿、校正和检索）以及在统计上处理数据的方法和软件（内部和外部编写）的质量和可靠性ღ◈✿。因此ღ◈✿，数据管理活动应当基于全面和有效的标准操作规程ღ◈✿。用于数据管理和统计分析的计算机软件应当是可靠的ღ◈✿，并应提供适当的软件测试过程的文件ღ◈✿。

　　在所有临床试验中ღ◈✿，安全性和耐受性（见词汇表）的评价是一个重要方面ღ◈✿。在早期阶段ღ◈✿，这种评价主要是探索性的ღ◈✿，并且只对毒性的直接表达敏感ღ◈✿，而在后期阶段ღ◈✿，可在更大样本量的受试者中更加全面地描述药物的安全性和耐受性特征ღ◈✿。后期阶段的对照试验代表了以无偏的方式探索任何新的潜在不良反应的重要方法ღ◈✿，即使这些试验在这方面通常缺乏检验效能ღ◈✿。

　　在任何临床试验中ღ◈✿，选择用于评价药物安全性和耐受性的方法和测量取决于许多因素ღ◈✿，包括对与药物密切相关的不良反应的了解ღ◈✿，来自非临床和早期临床研究的信息以及特定药物的药效/药代动力学特性的可能结果ღ◈✿、给药方式ღ◈✿、待研究的受试者类型ღ◈✿，以及试验持续时间ღ◈✿。有关临床化学和血液学ღ◈✿、生命体征ღ◈✿、临床不良事件（疾病ღ◈✿、体征和症状）的实验室检查通常构成安全性和耐受性数据的主体ღ◈✿。发生严重不良事件以及因不良事件导致治疗终止对于注册是特别重要的（见ICH E2A和 ICH E3）ღ◈✿。

　　此外ღ◈✿，建议在整个临床试验规划中采用一致的方法来收集和评价数据ღ◈✿，以便合并来自不同试验的数据ღ◈✿。使用通用的不良事件词典尤为重要ღ◈✿。该词典具有一种结构ღ◈✿，提供了在三个不同层级上汇总不良事件数据的可能性ღ◈✿，即系统-器官分类ღ◈✿、首选术语和收录术语（见词汇表）ღ◈✿。首选术语通常是汇总不良事件的层级ღ◈✿，在数据的描述性展示中ღ◈✿，可以汇集属于同一系统-器官分类的首选术语（见 ICH M1）ღ◈✿。

　　对于整体安全性和耐受性评价ღ◈✿，待汇总的受试者集通常被定义为那些接受至少一个剂量研究药物的受试者ღ◈✿。应尽可能全面地从这些受试者中收集安全性和耐受性指标ღ◈✿，包括不良事件类型ღ◈✿、严重程度ღ◈✿、发病和持续时间（见 ICH E2B）ღ◈✿。可能需要在特定的亚组人群ღ◈✿，如女性ღ◈✿、老年人（见 ICH E7）ღ◈✿、严重疾病或那些有常见伴随治疗的人群ღ◈✿，进行额外的安全性及耐受性评价ღ◈✿。这些评价可能需要解决更加特殊的问题（见ICH E3）ღ◈✿。

　　在评价过程中需要注意所有安全性和耐受性指标ღ◈✿，并且在方案中应阐明方法ღ◈✿。所有不良事件都应报告ღ◈✿，无论它们是否被认为与治疗有关ღ◈✿。在评价中应当考虑研究人群中的所有可用数据ღ◈✿。应当谨慎地定义测量值的单位和实验室指标的参考范围ღ◈✿，如果在同一试验中出现不同的单位或不同的参考范围（例如涉及一个以上的实验室）ღ◈✿，则测量值应当被适当标准化ღ◈✿，以便统一评价ღ◈✿。应预先确定毒性分级量表的使用ღ◈✿，并说明合理性ღ◈✿。

　　某种不良事件的发生率通常以经历事件的受试者数量与处于风险中的受试者数量之比来表示ღ◈✿。然而ღ◈✿，如何评价发生率并不总是显而易见的ღ◈✿，例如ღ◈✿，根据情况可考虑把暴露的受试者数量或暴露程度（用人年表示）作为分母ღ◈✿。无论计算的目的是估计风险还是在处理组之间进行比较ღ◈✿，重要的是要在方案中给出定义ღ◈✿。如果计划进行长周期治疗ღ◈✿，并预期有相当比例的退出治疗或死亡ღ◈✿，这一点尤其重要ღ◈✿。对于这些情况ღ◈✿，应考虑生存分析方法ღ◈✿，并计算累积不良事件率ღ◈✿，以避免低估的危险ღ◈✿。

　　安全性与耐受性的研究是一个多维问题ღ◈✿。对于任何药物ღ◈✿，虽然通常可以预见和监测到某些特定不良反应ღ◈✿，但由于可能的不良反应范围非常大ღ◈✿，新的和不可预见的反应总可能出现ღ◈✿。

　　计算P值有时是有意义的ღ◈✿，无论作为评价有关特定差异的辅助手段ღ◈✿，还是作为“标记”符号以引起对大量安全性与耐受性指标所出现差异的进一步关注ღ◈✿。这对于实验室数据尤其有用ღ◈✿，否则可能难以适当地进行汇总ღ◈✿。建议对实验室数据既要进行定量分析ღ◈✿，如对处理组均数的评价ღ◈✿，又要进行定性分析ღ◈✿，如计算高于或低于某些阈值的比例ღ◈✿。

　　在研究产品的开发过程中ღ◈✿，特别是在上市申请时ღ◈✿，通常会将不同试验的药物安全性与耐受性的特性进行汇总ღ◈✿。然而ღ◈✿，这样汇总是否可用取决于每一个具有高数据质量的ღ◈✿、充分和控制良好的试验ღ◈✿。

　　如引言所述ღ◈✿，临床研究报告的结构与内容是 ICH E3 的主题ღ◈✿。该 ICH指南充分地涵盖了统计工作报告并适当整合临床和其它资料ღ◈✿，本章节因此相对简短ღ◈✿。

　　如第 5章节所述ღ◈✿，在试验的计划阶段ღ◈✿，分析的主要特征应在方案中确定ღ◈✿。当试验结束而且数据经整理可供初步检查时ღ◈✿，如第 5章节提到的按计划进行盲态审核是有价值的ღ◈✿。在分析前盲态审核应当包括相关决定ღ◈✿，例如ღ◈✿，从分析集中排除受试者或数据ღ◈✿，可能的数据转换的核查ღ◈✿，离群值的定义ღ◈✿，将近期其它研究中确定的重要协变量加入模型ღ◈✿，参数或非参数方法的重新考虑ღ◈✿，等等ღ◈✿。这些决定应在报告中加以描述ღ◈✿，而且应当与统计师获得处理编码之后做出的决定加以区别ღ◈✿，因为盲态下的决定通常会减少产生偏倚的可能性ღ◈✿。参与非盲期中分析的统计师或其他人员不应参与盲态审核或修订统计分析计划ღ◈✿。数据中如果存在明显的处理诱导效应的可能ღ◈✿，将会削弱盲态效果ღ◈✿，此时ღ◈✿，盲态审核需要特别谨慎ღ◈✿。

　　许多更详细的报告内容和表格应在盲态审核时或盲态审核前完成ღ◈✿，以便在实际分析时有一个包括各方面的完整计划ღ◈✿，如受试者选择ღ◈✿、数据选择与修改ღ◈✿、数据汇总与列表ღ◈✿、估计与假设检验等ღ◈✿。一旦完成数据验证ღ◈✿，应按照预先拟定的计划进行分析ღ◈✿，越依从于这些计划ღ◈✿，结果的可信度越高ღ◈✿。应特别注意在方案ღ◈✿、方案修订以及基于数据盲态审核更新的统计分析计划中所描述的计划分析与实际分析之间的任何差异ღ◈✿。应对偏离计划的分析做出详细解释ღ◈✿。

　　一般而言ღ◈✿，应少用计划外分析ღ◈✿。当认为处理效应可能随某个或某些其他因素而变化时ღ◈✿，会用到计划外分析ღ◈✿，比如会尝试确定特别获益的受试者亚组ღ◈✿。众所周知ღ◈✿，计划外亚组分析有过度解释的潜在风险（见第 5.7章节）ღ◈✿，应谨慎避免ღ◈✿。虽然当受试者亚组中未显示出获益或具有不良反应时会出现类似的解释问题ღ◈✿，但应该恰当地评价这些可能性并予以报告ღ◈✿。

　　上市申请需要对所有报告临床试验的安全性和有效性证据进行全面总结和综合（欧盟的专家报告ღ◈✿、美国的综合总结报告ღ◈✿、日本的概要）ღ◈✿，在适当的时候还可能伴随结果的统计汇总ღ◈✿。

　　总结中有一些特定的统计关注的领域ღ◈✿：描述在临床试验项目过程中受试人群的人口统计学和临床特征ღ◈✿；通过考虑相关（通常有对照组）试验的结果并强调它们相互印证或矛盾的程度来解决有效性的关键问题ღ◈✿；对于其结果有助于上市申请的所有试验ღ◈✿，总结从它们的合并数据库中可获得的安全信息ღ◈✿，并确定潜在的安全问题ღ◈✿。在设计临床项目中ღ◈✿，应认真关注测量的统一定义和收集ღ◈✿，这将有助于随后一系列试验的解释ღ◈✿，特别是如果不同试验之间的测量可能被合并时ღ◈✿。应该选择和使用可记录用药细节ღ◈✿、病史和不良事件的通用词典ღ◈✿。对主要和次要指标采用通用定义几乎总是有价值的ღ◈✿，这对 meta分析极为重要ღ◈✿。关键有效性指标的测量方式ღ◈✿、相对于随机化/入组的评价时机ღ◈✿、方案违背和偏离的应对以及可能的预后因素定义都应该保持一致ღ◈✿，除非有合适的理由不这么做ღ◈✿。

　　单个临床试验的样本量应该总是大到足以满足其目的的程度ღ◈✿。通过总结一系列解决基本相同的关键有效性问题的临床试验ღ◈✿，也可以获得额外的有价值的信息ღ◈✿。为了便于比较ღ◈✿，应该以相同的形式ღ◈✿，通常是关注于估计值和置信限的表格和图形ღ◈✿，呈现一系列试验的主要结果ღ◈✿。使用 meta分析技术来合并这些估计值常常是一个有用的补充ღ◈✿，因为它允许对处理效应量生成更精确的总体估计ღ◈✿，并提供完整而简明的试验结果总结ღ◈✿。在一些特殊情况下ღ◈✿，meta分析方法也可能是通过整体假设检验提供充分的有效性整体证据的最适当方式ღ◈✿，或者唯一方式ღ◈✿。当用于此目的时ღ◈✿，meta分析应该有它自己的前瞻性书面方案ღ◈✿。

　　在总结安全性数据时ღ◈✿，重要的是要彻底检查安全性数据库ღ◈✿，以寻找潜在毒性的任何迹象ღ◈✿，并通过寻找相关的支持性观察模式来跟踪这些迹象ღ◈✿。将人暴露于药物的所有安全数据进行合并ღ◈✿，能提供重要的信息来源ღ◈✿，因为较大的样本量能提供发现更罕见不良事件的最佳机会ღ◈✿，并且可能提供估计罕见不良事件近似发生率的最佳机会ღ◈✿。然而ღ◈✿，由于缺乏对照组ღ◈✿，难以评价来自该数据库的发生率数据ღ◈✿，来自对照试验的数据在克服这种困难方面特别有价值ღ◈✿。应合并具有相同对照组（安慰剂或特定阳性对照）的研究的结果ღ◈✿，并分别展示每个提供充足数据的对照组的结果ღ◈✿。

　　在试验完成（最后一例病人的最后一次观察）与揭盲之间对数据进行核对和评价ღ◈✿，以便把计划的分析最后定下来ღ◈✿。

　　在临床试验中当两种处理不能做到一样时ღ◈✿，使应用制品时仍保持盲态的一种技术ღ◈✿，如为处理 A（有效药和不能区别的安慰剂）及处理 B（有效药和不能区别的安慰剂）制备制品ღ◈✿。病人接受两套处理ღ◈✿：或者是 A（有效药）及 B（安慰剂）ღ◈✿，或者是A（安慰剂）和 B（有效药）ღ◈✿。

　　一个试验的主要目的是要显示两种或多种处理的反应差别大小在临床上并无重要性ღ◈✿。这通常以显示真正的处理差异是在临床上可以接受的等效性的上下界之间ღ◈✿。

　　统计方法ღ◈✿，如统计意义检验和可信区间ღ◈✿，可以用同一试验情况下假设的重复实现时某一结果出现的频率来说明凯发国际官网ღ◈✿。

　　尽可能接近按意向性治疗原则的理想的病例集ღ◈✿。由所有随机化的病人中以最少的和合理的方法排除病例得出ღ◈✿。

　　一个临床试验的结果可以被可信地由参加试验的病人外推到广大的病人群体和广大范围的临床环境的程度ღ◈✿。

　　单一变量ღ◈✿，通常是把客观变量和研究者对病人的状况或者状态的改变情况结合起来的顺序分类等级尺度ღ◈✿。

　　定临床试验的进度ღ◈✿、安全性数据以及关键性效果的结果ღ◈✿，并且向申办者提出建议是否继续ღ◈✿、修改或停止试验ღ◈✿。

　　一种认为处理策略以想要治疗病人(即计划好的治疗进程)ღ◈✿，而不是基于实际给予的治疗为基础进行评价ღ◈✿，可以对效果作出最好的评定原则ღ◈✿。其结果是分到一个处理组的病人即应作为该组的成员被随访ღ◈✿、评价和分析ღ◈✿，而不管他们是否依从计划的处理过程ღ◈✿。

　　一种处理的对比(例如研究产品与对照之间的差异)依赖于另外一个因素(如中心)的情况ღ◈✿。定量的交互作用是指对比差异的大小在因素的不同水平时不同ღ◈✿，而定性交互作用时对比差异的方向至少在因素的一个水平上不同ღ◈✿。

　　对同一个问题的两个或更多的试验的定量证据进行正式的评价ღ◈✿。这常是从各试验的小结统计资料进行统计合作ღ◈✿，但此名词有时也用于对原始数据的合并ღ◈✿。

　　在一个分层次的医学词典中ღ◈✿，例如 MedDRAღ◈✿，包括名词是最低级别的词典名词ღ◈✿，以研究者的描述进行编码ღ◈✿。推荐名词是对包括名词进行并组的级别ღ◈✿，用于报告发生频率ღ◈✿。例如ღ◈✿，研究者写的是“左臂疼痛”ღ◈✿，包括名词编码为“关节疼痛”ღ◈✿，在推荐名词级别可报告为“关节痛”ღ◈✿。

　　医学产品的安全性涉及到病人的医疗风险ღ◈✿，通常在临床试验中由实验室检查（包括临床生化与血液学）ღ◈✿、生命体征ღ◈✿、临床不良事件（疾病ღ◈✿、体征和症状）ღ◈✿，以及其他专门的安全性检查（例如心电图ღ◈✿、眼科检查）等来评定ღ◈✿。医学产品的耐受性代表了病人能忍受明显的不良反应的程度ღ◈✿。

　　统计分析计划是包括比方案中描述的主要分析特征更加技术性和更多详细细节的文件ღ◈✿，并且包括了对主要和次要变量及其他数据进行统计分析的详细过程ღ◈✿。

　　在临床试验中归因于处理的效果ღ◈✿。在大多数临床试验中感兴趣的处理效应是两个或多个处理的比较（或对比）ღ◈✿。

凯发国际官网|星光大道朱之文周赛|分享E9：临床试验统计原则（另附中英文对照词汇

上一个：凯发K8旗舰厅|猩球崛起2|强歼app8499网站直播 下一个：凯发k8旗舰厅ag|奇虎口袋|企业 - 华夏小康网