Research4Physiotherapists: March 2018

Evaluación crítica de un ECA (febrero de 2018): Versión en español

El ejercicio ha demostrado ser tan eficaz como la cirugía para el síndrome de dolor subacromial (SAPS) en una serie de diferentes estudios [1, 2, 3]. Si bien esto es alentador para los defensores de la fisioterapia basada en el ejercicio, también plantea más preguntas de las que responde. ¿Qué tipo de ejercicio? ¿Cuánto de eso? ¿Por cuánto tiempo? ¿Importa si es doloroso o no? ¿Cómo, por qué? o incluso ¿algún tratamiento realmente ayuda?. Este mes examinamos un ECA diseñado para tratar de arrojar algo de luz sobre algunas de estas preguntas al investigar si un tipo de ejercicio (en este caso, entrenamiento excéntrico no doloroso de los rotadores externos del hombro) produce mejores resultados que otro (ejercicio general) en este grupo de pacientes

Este es el tercero de una serie de blogs (los dos primeros se pueden encontrar aquí y aquí). Una vez más, este blog no proporcionará una evaluación crítica sistemática o exhaustiva del documento elegido, ni empleará una de las muchas herramientas de evaluación crítica disponibles, pero resaltará lo que consideramos que son tres elementos importantes a considerar al tratar de interpretar los resultados del ensayo y aplicarlos a nuestros pacientes. Este blog considerará varios aspectos del diseño e implementación de un ECA, cuya descripción general se puede encontrar aquí.

Este mes consideraremos las fuentes potenciales de sesgo y el grado de confianza o duda que tenemos en los resultados del siguiente ECA:

Entrenamiento excéntrico de rotadores externos de hombro versus ejercicios generales de hombro para el síndrome de dolor subacromial: un ensayo controlado aleatorizado. The International Journal of Sports Physical Therapy, 12 (7), 1121-33.

Este estudio fue diseñado para investigar si el entrenamiento excéntrico de los rotadores externos del hombro (ETER) o el ejercicio general (GE) produce mejores resultados clínicos en aquellos con SAPS. Este estudio definió SAPS basado en la presencia de al menos tres de los siguientes hallazgos; un test positivo de la prueba de Neer, Hawkins-Kennedy o empty can, rotación externa resistida dolorosa, sensibilidad a la palpación de la inserción del supraespinoso o del infraespinoso o un arco de abducción doloroso. La medida de resultado primaria fue el índice Wenstern Ontario para el manguito rotador (Western Ontario Rotator Cuff Index o WORC), una medida de resultado informada por el paciente que considera los síntomas físicos, los deportes y la recreación, el trabajo, el estilo de vida y las emociones. Las medidas de resultado secundarias fueron una Escala de calificación numérica del dolor (NPRS o Numerical Pain Rating Scale) para el mejor dolor, peor dolor y el dolor promedio, fuerza isométrica, rango de movimiento activo, prueba Y de equilibrio y la puntuación global de cambio (Global Rating of Change o GROC). 48 participantes fueron aleatorizados en dos grupos (25 en el grupo ETER y 23 en el grupo GE) y se sometieron a un programa de ejercicios de seis semanas que incluyó cuatro visitas a un fisioterapeuta (el estudio se realizó en los Estados Unidos). El grupo ETER realizó rotaciones externas excéntrica no dolorosa (3 series de 15, con una fase excéntrica de 3 segundos), retracción resistida de la escápula (2 series de 10) y un estiramiento en aducción horizontal del brazo (3 repeticiones con retenciones de 30-45 segundos). El grupo GE realizó flexiones y abducciones activas sin resistencia (2 x 10 repeticiones de cada uno), y la misma retracción resistida de la escápula y estiramientos como el grupo ETER. Todos los resultados se midieron al inicio, 3 semanas, 6 semanas y 6 meses. El estudio encontró que ETER produjo resultados superiores estadísticamente significativos en comparación con GE a las 3 semanas, 6 semanas y 6 meses según la puntuación WORC, la puntuación NPRS y la fuerza muscular isométrica. No hubo diferencias estadísticamente significativas en el rango de movimiento activo, la prueba Y de equilibrio o GROC. Los autores concluyen que el entrenamiento excéntrico puede ser eficaz para mejorar el dolor autoinformado, la función y la fuerza en aquellos con SAPS.

A menudo es más fácil encontrar fallas cuando se evalúa críticamente un estudio, así que comencemos con las fortalezas de este ECA. Hizo una pregunta clínicamente relevante y utilizó un diseño apropiado para responderla, y el protocolo de estudio se publicó antes de que comenzara el ensayo, lo que protege contra sesgos. Además, las intervenciones y las medidas de resultado fueron bien descritas. Esto puede sonar simple, pero la calidad de la descripción de las intervenciones y las medidas de resultado en ECA, especialmente aquellas que incluyen ejercicios terapéuticos, a menudo es un mal limitante de la interpretación, aplicación y replicación de los resultados.

Sin embargo, hay algunos aspectos del ensayo que debemos considerar antes de decidir qué tan seguros podemos estar de la supuesta superioridad de los ejercicios ETER sobre GE. Las tres áreas que consideramos más importantes a considerar son:

1. Deserción diferencial y análisis estadístico.

2. La elección del comparador.

3. Métodos de asignación al azar y diferencias iniciales entre los grupos.

1. Tasas de deserción diferencial y análisis estadístico:

Los abandonos y los datos incompletos resultantes causan una serie de problemas a los investigadores a la hora de analizar e interpretar los resultados de los ECA. Una de las características clave de los ECA que reduce su susceptibilidad a los sesgos es la asignación al azar. La asignación aleatoria de participantes a diferentes grupos de tratamiento tiene como objetivo garantizar que los grupos sean comparables al inicio en relación a factores conocidos y desconocidos que puedan influir en el resultado del ensayo. Esto aumenta nuestra confianza en que cualquier diferencia en la efectividad del tratamiento se relaciona con la intervención de interés más que con cualquier diferencia inicial. Para mantener este control del sesgo, la asignación del tratamiento aleatorio se debe preservar a través de todo el ensayo, incluido en el análisis estadístico. Esto aumenta nuestra confianza en que cualquier diferencia en la efectividad del tratamiento se relaciona con la intervención de interés más que con cualquier diferencia inicial entre los grupos. Para mantener este control del sesgo, la asignación del tratamiento aleatorio se debe preservar a través de todo el ensayo, incluido en el análisis estadístico. Esta forma de análisis estadístico se conoce como un análisis de intención de tratar (ITT). Esto analiza a los participantes según el grupo al que fueron asignados al azar, independientemente del tratamiento que recibieron o si completaron el ensayo. Este se considera el método de análisis más apropiado cuando se compara la efectividad de los tratamientos en los ECA.

Los autores de este estudio no utilizaron un enfoque ITT porque les preocupaba que los abandonos asimétricos entre grupos pudieran causar un error de tipo I (encontrar una diferencia significativa cuando en realidad no existe). En su lugar, analizaron solo a los participantes que completaron la prueba, lo que se denomina análisis de casos completados. Si los abandonos asimétricos causan errores en los resultados de un ECA depende de el por qué faltan los datos (algo torpemente denominado "faltante") y cómo se maneja en el análisis [7]. Si los que abandonan lo hacen completamente al azar, entonces un análisis de casos completado es razonable porque los dos grupos disponibles para el análisis se basan todavía solo en el azar. Sin embargo, si los datos no faltan completamente por al azar, un enfoque de casos completado analiza un subconjunto no aleatorio de participantes que ingresaron al ensayo y compromete el proceso inicial de asignación al azar. En esta prueba, los abandonos diferenciales entre los grupos (abandonaron 39% en el grupo GE en comparación con 12% en el grupo ETER) aumenta la sospecha de que las razones para esto pueden no haber sido completamente al azar [8]. El uso de un análisis de casos completado por lo tanto aumenta la duda de que las diferencias en el resultado del tratamiento se pueden atribuir con confianza a la intervención de interés.

Respuesta del autor:

Gracias, este es un gran punto y que hemos deliberado durante bastante tiempo. Existen pros y contras con el ITT y nos preocupaba que la comparación grupal a las 3 semanas pudiera inflarse con los 2 sujetos en el grupo control que informaron un ligero empeoramiento en los resultados subjetivos y, posteriormente, abandonaron temprano el ensayo. Esto terminará otorgando al debate del grupo de intervención comparador pero, en general mi principal preocupación fue que los ejercicios de rango activo de movimiento utilizados como comparador pueden haber aumentado levemente los síntomas en la fase inicial del tratamiento para algunos sujetos en el grupo de control y llevar los datos de la semana 1 podría inflar falsamente las diferencias entre los grupos a favor del grupo experimental. Si los abandonos a los 6 meses fueran el único asunto para utiliza ITT para trasladar los datos de la semana 6 a los datos de 6 meses, sería una decisión más fácil, pero los abandonos tempranos del grupo de control fueron un factor importante en la decisión.

2. La elección del comparador:

Para evaluar con precisión qué tan eficaz es un tratamiento, debe ser comparado con algo. Los estudios donde los resultados del tratamiento se miden sin un grupo de comparación pueden mostrar que un paciente tuvo un tratamiento determinado y mejoró, pero no pueden demostrar que mejoraron debido ese tratamiento en particular. Los estudios controlados (ECA y otros estudios controlados no aleatorios) usan un grupo control para demostrar lo que hubiera sucedido si los participantes no hubieran tenido el tratamiento de interés, ya sea al no hacer nada (control sin tratamiento), hacer que los pacientes piensen que han tenido el tratamiento de interés pero sin administrar los componentes activos (control con placebo), o al compararse con otro tratamiento (control activo). En este caso, se eligió un control activo. Si bien esto es razonable porque la alternativa al uso de ejercicios excéntricos sería proporcionar un tratamiento alternativo basado en el ejercicio, el comparador más apropiado sería representativo de la práctica actual (entonces sabremos si cambiar a este "nuevo" o "diferente" tratamiento sería mejor que lo que ya hacemos). Este estudio usa ejercicios de rangos de movimiento (con un ejercicio resistido que fue estandarizado en todo el grupo) para representar el ejercicio general. Los propios autores identifican que esto puede no ser representativo de un programa de ejercicio típico utilizado en la práctica clínica. A menos que esto refleje nuestra práctica actual, es muy difícil saber qué significan estos resultados.

La elección del control también introduce dudas sobre si podemos estar seguros de que fue el tipo de ejercicio el factor decisivo para determinar los resultados de esta prueba. Ambos grupos realizaron ejercicios que involucraron fases concéntricas y excéntricas. Esto hace que sea menos claro si esta fue una verdadera comparación entre dos tipos de ejercicio distintos. El grupo de control también realizó ejercicios de menor dosis y menor resistencia que el grupo ETER. Estudios previos han sugerido que los protocolos de ejercicio que incluyen ejercicio resistido pueden ser más efectivos que aquellos que no lo hacen [9], y que la dosis más alta de ejercicio puede ser más efectiva que una dosis más baja de ejercicio [10]. Incluso si aceptamos las diferencias informadas en los resultados entre los dos grupos, ¿podemos estar seguros de que fue el tipo de ejercicio que los causó?

Respuesta del autor: este es otro gran punto. No estoy seguro de que el ejercicio de comparación en este ensayo sea representativo de lo que un fisioterapeuta haría en su práctica. Simplemente hacer que un paciente mueva activamente el hombro a través de un movimiento de elevación sin carga puede no ser un programa típico de ejercicio general. Es posible que las diversas diferencias entre los programas de ejercicio, es decir, la carga, el movimiento específico aislado, la posición del brazo, etc. podrían ser la razón de las diferencias entre grupos en lugar del hecho de que el grupo experimental utilizó un ejercicio excéntrico.

3. Métodos de asignación al azar y diferencias iniciales entre los grupos:

Como se describió, el beneficio de la asignación al azar es que teóricamente equilibra factores conocidos y desconocidos que podrían influir en el resultado del ensayo entre los grupos. Esto aumenta nuestra confianza en que cualquier diferencia en el resultado se debe a la intervención de interés y no a alguna otra diferencia conocida o desconocida entre grupos. En este ensayo, los investigadores aleatorizaron a los pacientes pidiéndoles que colocaran a ciegas un lápiz en una tabla de números aleatorios. Los métodos de asignación al azar manuales como este (o el uso de un lanzamiento de moneda, sorteos, barajar cartas) introducen más dudas que los métodos más sólidos como usar números aleatorios generados por computadora o generados remotamente porque el participante o el investigador podrían teóricamente influir en el proceso. Nosotros, como lectores, nunca sabremos con certeza si los resultados fueron influenciados indebidamente, y es por eso que evaluamos el riesgo de sesgo en lugar del propio sesgo real.

Si hubo un sesgo en el proceso de asignación al azar, esto significaría que hubo diferencias sistemáticas entre los dos grupos de tratamiento. Sin embargo, el hecho de que haya diferencias sistemáticas entre los dos grupos no significa necesariamente que haya un sesgo en el proceso de asignación al azar. La aleatorización solo puede maximizar la probabilidad de que los factores conocidos y desconocidos estén equilibrados entre los dos grupos; no puede garantizar que este sea el caso. Cuanto mayor sea el tamaño de la muestra, más probable es que se equilibren (las razones de esto se discutieron en un blog anterior aquí). En este estudio hubo diferencias estadísticamente significativas a favor del grupo ETER en la fuerza (relación ABD / RE) y la prueba Y de equilibrio. También hubo diferencias no significativas (pero no necesariamente no importantes) en todas las demás mediciones iniciales de fuerza, en la mayoría de las mediciones de movimiento, mejor dolor y edad más temprana. Realmente no sabemos cómo, por qué o incluso si el ejercicio realmente ayuda a los pacientes con SAPS, por lo que no podemos saber cómo, por qué o si estas diferencias iniciales afectaron los resultados del tratamiento. Si es factible que los pacientes más jóvenes y fuertes con un mejor rango de movimiento y equilibrio tengan más probabilidades de beneficiarse más del tratamiento basado en el ejercicio, entonces tenemos que considerar que podrían haber sido las diferencias entre los grupos en lugar de las diferencias en la efectividad del tratamiento las que causaron las diferencias en los resultados.

Respuesta del autor: También estoy de acuerdo con esto, la retrospectiva es de 20/20. Si hiciéramos una prueba similar nuevamente, sería mucho más preferible el uso de aleatorización generada por computadora. El tema de las variables iniciales que podrían estar asociadas a mejores resultados es muy importante. Me encantaría haber recopilado más variables de base en una muestra más grande y ejecutar una regresión de los respondedores para determinar las características del paciente que sean consistentes con un resultado positivo. En este caso, estamos examinando la media entre los grupos, pero algunos participantes tienen mejoras dramáticas sobre otros. Sería interesante saber qué pacientes responden mejor a los ejercicios de carga pesada y cuáles no responden tan favorablemente.

Los abandonos diferenciales entre grupos y la forma en que se analizaron los datos podrían aumentar el riesgo de sesgo y por lo tanto disminuir nuestra confianza en los resultados informados, y las diferencias iniciales entre los grupos y la elección del comparador aumentan las dudas sobre si las diferencias en el resultado pueden vincularse específicamente con el tipo de ejercicio realizado.

Respuesta del autor: un último punto sobre este tema es que la progresión del modo de ejercicio, la dosificación de la carga y el volumen es críticamente importante. El nivel de irritabilidad tisular también es un factor importante para ayudar a dictar la prescripción del ejercicio y en la práctica clínica no prescribiría arbitrariamente ejercicios excéntricos a ningún paciente con dolor sub acromial crónico. Las progresiones en la posición del brazo, el tipo de movimiento (es decir, isométrico vs. isotónico leve frente a excéntrico) y los incrementos de carga / dosis respectivos de la tolerancia del paciente y la resistencia inicial serán importantes para integrar en ensayos futuros. Un diseño pragmático que le permita al médico manipular estas variables de prescripción de ejercicios en función de la presentación del paciente será importante en futuros estudios. Gracias a todos por su interés y la revisión de este tema.

Eric Chaconas

Translated by Tomas Parraguez on behalf of Paul Regan, Chris Littlewood, Tomas Parraguez, Brian Cho, Sijmen Hacquebord

[1] Haahr JP, Østergaard S, Dalsgaard J, Norup K, Frost P, Lausen S, Holm EA, Andersen JH, (2005). Exercises versus arthroscopic decompression in patients with subacromial impingement: a randomised, controlled study in 90 cases with a one year follow up. Annals of Rheumatic Diseases, 64(5), 760-4.

[2] Haahr JP, Anderson JH, (2006). Exercises may be as efficient as subacromial decompression in patients with subacromial stage II impingement: 4–8-years’ follow-up in a prospective, randomized study. Scandinavian Journal of Rheumatology, 35(3), 224–228.

[3] Ketola S, Lehtinen JT, Arnala I, (2017). Arthroscopic decompression not recommended in the treatment of rotator cuff tendinopathy: a final review of a randomised controlled trial at a minimum follow-up of ten years. The Bone and Joint Journal, 99-B(6), 799-805.

[4] Hoffmann TC, Glasziou PP, Boutron I, Milne R, Perera R, Moher D, Altman DG, Barbour V, Macdonald H, Johnston M, Lamb SE, Dixon-Woods M, McCulloch P, Wyatt JC, Chan AW, Michie S, (2014). Better reporting of interventions: template for intervention description and replication (TIDieR) checklist and guide. British Medical Journal, 348:g1687.

[5] Page P, Hoogenboom B, Voight M, (2017). Improving the reporting of therapeutic exercise interventions in rehabilitation research. International Journal of Sports Physical Therapy, 12(2):297-304.

[6] Higgins JPT, Green S (editors). Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 [updated March 2011]. The Cochrane Collaboration, 2011. Available from http://handbook.cochrane.org.

[7] Bell ML, Kenward, MG, Horton, NJ, (2013). Differential dropout and bias in randomised controlled trials: when it matters and when it may not. British Medical Journal, 346:e8668.

[8] Moher D, Hopewell S, Schulz KF, Montori V, Gøtzsche PC, Devereaux, PJ, Elbourne D, Egger M, Altman DG, (2010). ConSoRT 2010 explanation and elaboration: updated guidelines for reporting parallel group randomised trials. British Medical Journal,340:c869

[9] Littlewood C, Malliaras P, Chance-Larsen K, (2015). Therapeutic exercise for rotator cuff tendinopathy: a systematic review of contextual factors and prescription parameters. International Journal of Rehabilitation Research, 38(2), 95-106.

[10] Østerås H, Torstensen TA, Østerås B, (2010). High-dosage medical exercise therapy in patients with long-term subacromial shoulder pain: a randomized controlled trial. Physiotherapy Research International, 15(4), 232-42.

Research4Physiotherapists

Monday, 5 March 2018

Critical Appraisal of a RCT (February 2018) - Spanish Version

Blog Archive