Evaluación crítica de un ECA (febrero de 2018):
Versión en español
El ejercicio ha
demostrado ser tan eficaz como la cirugía para el síndrome de dolor subacromial
(SAPS) en una serie de diferentes estudios [1, 2, 3]. Si bien esto es alentador
para los defensores de la fisioterapia basada en el ejercicio, también plantea
más preguntas de las que responde. ¿Qué tipo de ejercicio? ¿Cuánto de eso? ¿Por
cuánto tiempo? ¿Importa si es doloroso o no? ¿Cómo, por qué? o incluso ¿algún tratamiento
realmente ayuda?. Este mes examinamos un ECA diseñado para tratar de arrojar
algo de luz sobre algunas de estas preguntas al investigar si un tipo de
ejercicio (en este caso, entrenamiento excéntrico no doloroso de los rotadores
externos del hombro) produce mejores resultados que otro (ejercicio general) en
este grupo de pacientes
Este es el
tercero de una serie de blogs (los dos primeros se pueden encontrar aquí
y aquí).
Una vez más, este blog no proporcionará una evaluación crítica sistemática o
exhaustiva del documento elegido, ni empleará una de las muchas herramientas de
evaluación crítica disponibles, pero resaltará lo que consideramos que son tres
elementos importantes a considerar al tratar de interpretar los resultados del
ensayo y aplicarlos a nuestros pacientes. Este blog considerará varios aspectos
del diseño e implementación de un ECA, cuya descripción general se puede
encontrar aquí.
Este mes
consideraremos las fuentes potenciales de sesgo y el grado de confianza o duda
que tenemos en los resultados del siguiente ECA:
Entrenamiento excéntrico de rotadores externos de
hombro versus ejercicios generales de hombro para el síndrome de dolor
subacromial: un ensayo controlado aleatorizado. The International Journal of
Sports Physical Therapy, 12 (7), 1121-33.
Este estudio fue
diseñado para investigar si el entrenamiento excéntrico de los rotadores
externos del hombro (ETER) o el ejercicio general (GE) produce mejores
resultados clínicos en aquellos con SAPS. Este estudio definió SAPS basado en
la presencia de al menos tres de los siguientes hallazgos; un test positivo de
la prueba de Neer, Hawkins-Kennedy o empty can, rotación externa resistida
dolorosa, sensibilidad a la palpación de la inserción del supraespinoso o del
infraespinoso o un arco de abducción doloroso. La medida de resultado primaria
fue el índice Wenstern Ontario para el manguito rotador (Western Ontario
Rotator Cuff Index o WORC), una medida de resultado informada por el paciente que
considera los síntomas físicos, los deportes y la recreación, el trabajo, el
estilo de vida y las emociones. Las medidas de resultado secundarias fueron una
Escala de calificación numérica del dolor (NPRS o Numerical Pain Rating Scale)
para el mejor dolor, peor dolor y el dolor promedio, fuerza isométrica, rango
de movimiento activo, prueba Y de equilibrio y la puntuación global de cambio (Global
Rating of Change o GROC). 48
participantes fueron aleatorizados en dos grupos (25 en el grupo ETER y 23 en el
grupo GE) y se sometieron a un programa de ejercicios de seis semanas que
incluyó cuatro visitas a un fisioterapeuta (el estudio se realizó en los
Estados Unidos). El grupo ETER realizó rotaciones externas excéntrica no
dolorosa (3 series de 15, con una fase excéntrica de 3 segundos), retracción
resistida de la escápula (2 series de 10) y un estiramiento en aducción horizontal
del brazo (3 repeticiones con retenciones de 30-45 segundos). El grupo GE realizó
flexiones y abducciones activas sin resistencia (2 x 10 repeticiones de cada
uno), y la misma retracción resistida de la escápula y estiramientos como el
grupo ETER. Todos los resultados se midieron al inicio, 3 semanas, 6 semanas y
6 meses. El estudio encontró que ETER produjo resultados superiores estadísticamente
significativos en comparación con GE a las 3 semanas, 6 semanas y 6 meses según
la puntuación WORC, la puntuación NPRS y la fuerza muscular isométrica. No hubo
diferencias estadísticamente significativas en el rango de movimiento activo,
la prueba Y de equilibrio o GROC. Los autores concluyen que el entrenamiento
excéntrico puede ser eficaz para mejorar el dolor autoinformado, la función y
la fuerza en aquellos con SAPS.
A menudo es más
fácil encontrar fallas cuando se evalúa críticamente un estudio, así que
comencemos con las fortalezas de este ECA. Hizo una pregunta clínicamente
relevante y utilizó un diseño apropiado para responderla, y el protocolo de
estudio se publicó antes de que comenzara el ensayo, lo que protege contra
sesgos. Además, las intervenciones y las medidas de resultado fueron bien
descritas. Esto puede sonar simple, pero la calidad de la descripción de las
intervenciones y las medidas de resultado en ECA, especialmente aquellas que
incluyen ejercicios terapéuticos, a menudo es un mal limitante de la
interpretación, aplicación y replicación de los resultados.
Sin embargo, hay
algunos aspectos del ensayo que debemos considerar antes de decidir qué tan
seguros podemos estar de la supuesta superioridad de los ejercicios ETER sobre
GE. Las tres áreas que consideramos más importantes a considerar son:
1.
Deserción diferencial y
análisis estadístico.
2.
La elección del comparador.
3.
Métodos de asignación al azar y
diferencias iniciales entre los grupos.
1.
Tasas de deserción diferencial
y análisis estadístico:
Los abandonos y
los datos incompletos resultantes causan una serie de problemas a los
investigadores a la hora de analizar e interpretar los resultados de los ECA.
Una de las características clave de los ECA que reduce su susceptibilidad a los
sesgos es la asignación al azar. La asignación aleatoria de participantes a
diferentes grupos de tratamiento tiene como objetivo garantizar que los grupos
sean comparables al inicio en relación a factores conocidos y desconocidos que
puedan influir en el resultado del ensayo. Esto aumenta nuestra confianza en
que cualquier diferencia en la efectividad del tratamiento se relaciona con la
intervención de interés más que con cualquier diferencia inicial. Para mantener
este control del sesgo, la asignación del tratamiento aleatorio se debe
preservar a través de todo el ensayo, incluido en el análisis estadístico. Esto
aumenta nuestra confianza en que cualquier diferencia en la efectividad del
tratamiento se relaciona con la intervención de interés más que con cualquier
diferencia inicial entre los grupos. Para mantener este control del sesgo, la
asignación del tratamiento aleatorio se debe preservar a través de todo el
ensayo, incluido en el análisis estadístico. Esta forma de análisis estadístico
se conoce como un análisis de intención de tratar (ITT). Esto analiza a los
participantes según el grupo al que fueron asignados al azar,
independientemente del tratamiento que recibieron o si completaron el ensayo.
Este se considera el método de análisis más apropiado cuando se compara la
efectividad de los tratamientos en los ECA.
Los autores de
este estudio no utilizaron un enfoque ITT porque les preocupaba que los
abandonos asimétricos entre grupos pudieran causar un error de tipo I
(encontrar una diferencia significativa cuando en realidad no existe). En su
lugar, analizaron solo a los participantes que completaron la prueba, lo que se
denomina análisis de casos completados. Si los abandonos asimétricos causan
errores en los resultados de un ECA depende de el por qué faltan los datos
(algo torpemente denominado "faltante") y cómo se maneja en el
análisis [7]. Si los que abandonan lo hacen completamente al azar, entonces un
análisis de casos completado es razonable porque los dos grupos disponibles
para el análisis se basan todavía solo en el azar. Sin embargo, si los datos no
faltan completamente por al azar, un enfoque de casos completado analiza un
subconjunto no aleatorio de participantes que ingresaron al ensayo y compromete
el proceso inicial de asignación al azar. En esta prueba, los abandonos
diferenciales entre los grupos (abandonaron 39% en el grupo GE en comparación
con 12% en el grupo ETER) aumenta la sospecha de que las razones para esto
pueden no haber sido completamente al azar [8]. El uso de un análisis de casos
completado por lo tanto aumenta la duda de que las diferencias en el resultado
del tratamiento se pueden atribuir con confianza a la intervención de interés.
Respuesta del autor:
Gracias, este es un gran punto y que hemos deliberado
durante bastante tiempo. Existen pros y contras con el ITT y nos preocupaba que
la comparación grupal a las 3 semanas pudiera inflarse con los 2 sujetos en el
grupo control que informaron un ligero empeoramiento en los resultados
subjetivos y, posteriormente, abandonaron temprano el ensayo. Esto terminará
otorgando al debate del grupo de intervención comparador pero, en general mi
principal preocupación fue que los ejercicios de rango activo de movimiento
utilizados como comparador pueden haber aumentado levemente los síntomas en la
fase inicial del tratamiento para algunos sujetos en el grupo de control y llevar
los datos de la semana 1 podría inflar falsamente las diferencias entre los
grupos a favor del grupo experimental. Si los abandonos a los 6 meses fueran el
único asunto para utiliza ITT para trasladar los datos de la semana 6 a los
datos de 6 meses, sería una decisión más fácil, pero los abandonos tempranos
del grupo de control fueron un factor importante en la decisión.
2.
La elección del comparador:
Para evaluar con
precisión qué tan eficaz es un tratamiento, debe ser comparado con algo. Los
estudios donde los resultados del tratamiento se miden sin un grupo de
comparación pueden mostrar que un paciente tuvo un tratamiento determinado y
mejoró, pero no pueden demostrar que mejoraron debido ese tratamiento en
particular. Los estudios controlados (ECA y otros estudios controlados no
aleatorios) usan un grupo control para demostrar lo que hubiera sucedido si los
participantes no hubieran tenido el tratamiento de interés, ya sea al no hacer
nada (control sin tratamiento), hacer que los pacientes piensen que han tenido
el tratamiento de interés pero sin administrar los componentes activos (control
con placebo), o al compararse con otro tratamiento (control activo). En este
caso, se eligió un control activo. Si bien esto es razonable porque la
alternativa al uso de ejercicios excéntricos sería proporcionar un tratamiento
alternativo basado en el ejercicio, el comparador más apropiado sería
representativo de la práctica actual (entonces sabremos si cambiar a este "nuevo"
o "diferente" tratamiento sería mejor que lo que ya hacemos). Este
estudio usa ejercicios de rangos de movimiento (con un ejercicio resistido que
fue estandarizado en todo el grupo) para representar el ejercicio general. Los
propios autores identifican que esto puede no ser representativo de un programa
de ejercicio típico utilizado en la práctica clínica. A menos que esto refleje
nuestra práctica actual, es muy difícil saber qué significan estos resultados.
La elección del
control también introduce dudas sobre si podemos estar seguros de que fue el
tipo de ejercicio el factor decisivo para determinar los resultados de esta
prueba. Ambos grupos realizaron ejercicios que involucraron fases concéntricas
y excéntricas. Esto hace que sea menos claro si esta fue una verdadera
comparación entre dos tipos de ejercicio distintos. El grupo de control también
realizó ejercicios de menor dosis y menor resistencia que el grupo ETER.
Estudios previos han sugerido que los protocolos de ejercicio que incluyen
ejercicio resistido pueden ser más efectivos que aquellos que no lo hacen [9],
y que la dosis más alta de ejercicio puede ser más efectiva que una dosis más
baja de ejercicio [10]. Incluso si aceptamos las diferencias informadas en los
resultados entre los dos grupos, ¿podemos estar seguros de que fue el tipo de
ejercicio que los causó?
Respuesta del autor: este es otro gran punto. No estoy
seguro de que el ejercicio de comparación en este ensayo sea representativo de
lo que un fisioterapeuta haría en su práctica. Simplemente hacer que un
paciente mueva activamente el hombro a través de un movimiento de elevación sin
carga puede no ser un programa típico de ejercicio general. Es posible que las
diversas diferencias entre los programas de ejercicio, es decir, la carga, el
movimiento específico aislado, la posición del brazo, etc. podrían ser la razón
de las diferencias entre grupos en lugar del hecho de que el grupo experimental
utilizó un ejercicio excéntrico.
3.
Métodos de asignación al azar y
diferencias iniciales entre los grupos:
Como se
describió, el beneficio de la asignación al azar es que teóricamente equilibra
factores conocidos y desconocidos que podrían influir en el resultado del
ensayo entre los grupos. Esto aumenta nuestra confianza en que cualquier
diferencia en el resultado se debe a la intervención de interés y no a alguna
otra diferencia conocida o desconocida entre grupos. En este ensayo, los
investigadores aleatorizaron a los pacientes pidiéndoles que colocaran a ciegas
un lápiz en una tabla de números aleatorios. Los métodos de asignación al azar
manuales como este (o el uso de un lanzamiento de moneda, sorteos, barajar
cartas) introducen más dudas que los métodos más sólidos como usar números
aleatorios generados por computadora o generados remotamente porque el
participante o el investigador podrían teóricamente influir en el proceso. Nosotros,
como lectores, nunca sabremos con certeza si los resultados fueron
influenciados indebidamente, y es por eso que evaluamos el riesgo de sesgo en
lugar del propio sesgo real.
Si hubo un sesgo
en el proceso de asignación al azar, esto significaría que hubo diferencias
sistemáticas entre los dos grupos de tratamiento. Sin embargo, el hecho de que
haya diferencias sistemáticas entre los dos grupos no significa necesariamente
que haya un sesgo en el proceso de asignación al azar. La aleatorización solo
puede maximizar la probabilidad de que los factores conocidos y desconocidos
estén equilibrados entre los dos grupos; no puede garantizar que este sea el
caso. Cuanto mayor sea el tamaño de la muestra, más probable es que se
equilibren (las razones de esto se discutieron en un blog anterior aquí).
En este estudio hubo diferencias estadísticamente significativas a favor del
grupo ETER en la fuerza (relación ABD / RE) y la prueba Y de equilibrio. También
hubo diferencias no significativas (pero no necesariamente no importantes) en
todas las demás mediciones iniciales de fuerza, en la mayoría de las mediciones
de movimiento, mejor dolor y edad más temprana. Realmente no sabemos cómo, por
qué o incluso si el ejercicio realmente ayuda a los pacientes con SAPS, por lo
que no podemos saber cómo, por qué o si estas diferencias iniciales afectaron
los resultados del tratamiento. Si es factible que los pacientes más jóvenes y
fuertes con un mejor rango de movimiento y equilibrio tengan más probabilidades
de beneficiarse más del tratamiento basado en el ejercicio, entonces tenemos
que considerar que podrían haber sido las diferencias entre los grupos en lugar
de las diferencias en la efectividad del tratamiento las que causaron las
diferencias en los resultados.
Respuesta del
autor: También estoy de acuerdo con esto, la retrospectiva es de 20/20. Si
hiciéramos una prueba similar nuevamente, sería mucho más preferible el uso de
aleatorización generada por computadora. El tema de las variables iniciales que
podrían estar asociadas a mejores resultados es muy importante. Me encantaría
haber recopilado más variables de base en una muestra más grande y ejecutar una
regresión de los respondedores para determinar las características del paciente
que sean consistentes con un resultado positivo. En este caso, estamos
examinando la media entre los grupos, pero algunos participantes tienen mejoras
dramáticas sobre otros. Sería interesante saber qué pacientes responden mejor a
los ejercicios de carga pesada y cuáles no responden tan favorablemente.
Los abandonos
diferenciales entre grupos y la forma en que se analizaron los datos podrían
aumentar el riesgo de sesgo y por lo tanto disminuir nuestra confianza en los
resultados informados, y las diferencias iniciales entre los grupos y la
elección del comparador aumentan las dudas sobre si las diferencias en el
resultado pueden vincularse específicamente con el tipo de ejercicio realizado.
Respuesta del autor: un último punto sobre este tema es que
la progresión del modo de ejercicio, la dosificación de la carga y el volumen
es críticamente importante. El nivel de irritabilidad tisular también es un
factor importante para ayudar a dictar la prescripción del ejercicio y en la
práctica clínica no prescribiría arbitrariamente ejercicios excéntricos a
ningún paciente con dolor sub acromial crónico. Las progresiones en la posición
del brazo, el tipo de movimiento (es decir, isométrico vs. isotónico leve
frente a excéntrico) y los incrementos de carga / dosis respectivos de la tolerancia
del paciente y la resistencia inicial serán importantes para integrar en
ensayos futuros. Un diseño pragmático que le permita al médico manipular estas
variables de prescripción de ejercicios en función de la presentación del
paciente será importante en futuros estudios. Gracias a todos por su interés y
la revisión de este tema.
Eric Chaconas
Translated by Tomas Parraguez on behalf of Paul Regan, Chris
Littlewood, Tomas Parraguez, Brian Cho, Sijmen Hacquebord
[1] Haahr JP, Østergaard S, Dalsgaard J, Norup K, Frost
P, Lausen S, Holm
EA, Andersen JH, (2005). Exercises
versus arthroscopic decompression in patients with subacromial impingement: a
randomised, controlled study in 90 cases with a one year follow up. Annals
of Rheumatic Diseases, 64(5), 760-4.
[2] Haahr JP, Anderson JH, (2006). Exercises may be as
efficient as subacromial decompression in patients with subacromial stage II
impingement: 4–8-years’ follow-up in a prospective, randomized
study. Scandinavian Journal of Rheumatology,
35(3), 224–228.
[3] Ketola S, Lehtinen
JT, Arnala I, (2017). Arthroscopic
decompression not recommended in the treatment of rotator cuff tendinopathy: a
final review of a randomised controlled trial at a minimum follow-up of ten
years. The Bone and Joint Journal, 99-B(6), 799-805.
[4] Hoffmann
TC, Glasziou
PP, Boutron I, Milne
R, Perera
R, Moher D, Altman
DG, Barbour V, Macdonald
H, Johnston
M, Lamb
SE, Dixon-Woods M, McCulloch
P, Wyatt
JC, Chan
AW, Michie S, (2014). Better
reporting of interventions: template for intervention description and
replication (TIDieR) checklist and guide. British Medical Journal,
348:g1687.
[5] Page P, Hoogenboom B, Voight
M, (2017). Improving the reporting of therapeutic exercise
interventions in rehabilitation research. International Journal of
Sports Physical Therapy, 12(2):297-304.
[6] Higgins JPT, Green S (editors). Cochrane Handbook for Systematic
Reviews of Interventions Version 5.1.0 [updated March 2011]. The Cochrane
Collaboration, 2011. Available from http://handbook.cochrane.org.
[7] Bell ML, Kenward, MG, Horton, NJ, (2013). Differential
dropout and bias in randomised controlled trials: when it matters and when it
may not. British Medical Journal, 346:e8668.
[8] Moher D, Hopewell S, Schulz KF, Montori V, Gøtzsche PC, Devereaux, PJ, Elbourne D, Egger M, Altman DG, (2010). ConSoRT
2010 explanation and elaboration: updated guidelines for reporting parallel
group randomised trials. British Medical Journal,340:c869
[9] Littlewood
C, Malliaras
P, Chance-Larsen K, (2015). Therapeutic
exercise for rotator cuff tendinopathy: a systematic review of contextual
factors and prescription parameters. International Journal of
Rehabilitation Research, 38(2), 95-106.
[10] Østerås H, Torstensen TA, Østerås B, (2010). High-dosage
medical exercise therapy in patients with long-term subacromial shoulder pain:
a randomized controlled trial. Physiotherapy Research International, 15(4),
232-42.