Monday 15 January 2018

Critical Appraisal of a RCT (January 2018) - Spanish version

Evaluación crítica de un ensayo controlado aleatorio (ECA)
Spanish Version
Otro día, otro ECA relacionado con el hombro, o eso parece. El hombro parece ser un tema candente en este momento por los cientos de ECA publicados en los últimos años. A primera vista, esto debería ser algo bueno, pero en realidad puede ser bastante confuso, especialmente cuando no se reciben mensajes claros y consistentes.

Entonces, teniendo esto en cuenta, este es el segundo blog de una serie (aquí) que evaluará críticamente los ECA publicados relacionados con el hombro con el objetivo de comprender cómo estos podrían ser relevantes para la práctica.

Antes de comenzar, para aquellos de ustedes que no están muy familiarizados con los ECA, en un blog anterior se discutió su diseño básico y su justificación, aquí. Este podría ser un punto de partida útil si algunos de los términos utilizados parecen desconocidos o confusos.

El blog de este mes se refiere a: Turgut et al. (2017). Efectos del entrenamiento con  ejercicios de estabilización escapular en la cinemática escapular, la discapacidad y el dolor en el Pinzamiento subacromial: Un ECA. Archivos de Medicina Física y Rehabilitación, 98, 1915-23. (DOI: 10.1016/j.apmr.2017.05.023)

En pocas palabras, este ECA se diseñó para evaluar si el estiramiento y ejercicios de fortalecimiento junto con ejercicios de estabilización escapular adicionales eran mejores que solo estiramiento y ejercicios de fortalecimiento en pacientes clasificados con:

       - Arco doloroso durante la flexión o abducción del hombro,
       - Dolor con rotación externa y abducción resistida,
       - Disquinesia escapular basada en la evaluación observacional combinada con una reducción del dolor en el hombro durante el movimiento durante el test de asistencia escapular.

Los investigadores plantearon la hipótesis de que el grupo que recibió ejercicios adicionales de estabilización escapular mejoraría la posición y el movimiento de su escápula y reportaría menos dolor y discapacidad que el grupo que no recibió los ejercicios adicionales de estabilización escapular. En resumen, los autores informan que no hay diferencias significativas en el dolor y discapacidad entre los dos grupos después de un programa de entrenamiento de 12 semanas. Sin embargo, informan que observaron cambios estadísticamente significativos en la cinemática escapular en el grupo que recibió ejercicios específicos de estabilización escapular en comparación con los que no lo hicieron. Por lo tanto, la cinemática escapular pareció mejorar, pero esto no se asoció con mayores reducciones en el dolor o mejoras en la función.

Dado que los estudios previos no informaron cambios en la cinemática escapular mientras que los pacientes informaron una reducción del dolor y una mejor función [1] y dado que el papel de la disquinesia escapular en el hombro es incierto [2], parece un hallazgo interesante.


Apreciación critica:
En lugar de llevar a cabo una evaluación crítica sistemática e integral, para fines de blog, nos centraremos en algunos aspectos clave que pueden ayudarnos a juzgar si podemos confiar en los hallazgos de un ECA o si debemos ser cautelosos o incluso rechazar los hallazgos. Por lo tanto, tenga esto en cuenta y siéntase libre de agregar al debate como mejor le parezca.

Con respecto a Turgut et al, hay cuatro áreas en las que nos centraremos:
1.     Diferencias entre las características de los grupos
2.     Diferencias en la dosis de ejercicio recibida por los dos grupos
3.     Medición de la disquinesia escapular
4.     Tamaño de la muestra e incertidumbre

1.     Diferencias entre las características de los grupos:
Una característica de un ECA bien realizado es que los dos o más grupos que son creados sean similares al inicio de la prueba en términos de los factores que conocemos, como por ejemplo, edad, altura, peso, etc., pero también los factores que no conocemos o son difíciles de caracterizar, por ejemplo, el perfil genético. Esto es importante porque si queremos concluir al final del ECA que una intervención, es decir, el ejercicio focalizados en la escapular es mejor que otra intervención como el ejercicio general de fortalecimiento, entonces debemos estar seguros de que las únicas diferencias verdaderas entre los grupos son la intervención que ellos recibieron. Si esto no es así, no podemos estar seguros de que las diferencias que observamos se deben a la intervención y no a algún otro factor. Si esto parece confuso, se dan ejemplos en el blog anterior (aquí) para explicar más esto.

Ahora, esto podría no parecer importante en este ECA porque Turgut y cols. No informaron diferencias estadísticamente significativas entre los dos grupos después del programa de entrenamiento de 12 semanas. Pero, en una inspección más cercana, es evidente que las características de base de los dos grupos son diferentes; el grupo que recibe los ejercicios adicionales de estabilización escapular (el grupo de intervención) es en promedio seis años más joven (33.4 comparado con 39.5 años) y en promedio tiene un Índice de Masa Corporal (IMC) dos puntos más bajo (23.7 comparado a 25.8 - equivalente a 7kg de diferencia para un hombre de 1,8 m).

¿Por qué esto podría ser importante? Se reconoce que la edad puede estar asociada con un peor pronóstico y que la evaluación de la disquinesia escapular es difícil, es decir, es inherentemente poco confiable. No está claro si la diferencia de edad en este ECA es relevante, pero es probable que el IMC promedio más alto del grupo de control (como se refleja en los criterios de selección para el ECA) dificulte la evaluación de la disquinesia escapular y por lo tanto sea más difícil determinar si ha sucedido un cambio.

No está claro por qué se produjo el desequilibrio en las características iniciales. Turgut et al utilizan un método válido para generar su secuencia aleatoria, pero no informan cómo oculto su asignación, lo que suscita preocupación. Otros factores, por ejemplo, el dolor y la discapacidad, parecen estar bien equilibrados. La razón otra vez podría estar relacionada con el tamaño de muestra pequeño. Para demostrar esto, toma dos monedas y un amigo. Los dos tiran la moneda diez veces. ¿Obtienen el mismo número de cara o cruz entre sí? ¿Tienes cinco caras y cinco cruces? Probablemente no, porque este es un proceso aleatorio. Ahora intente voltear las monedas 20 veces; es probable que aún obtenga una cantidad diferente de caras y cruces entre sí, pero es probable que obtenga un número más equilibrado de caras y cruces. Ahora intente dar vuelta la moneda 30 veces y el impacto de aumentar el tamaño de la muestra, es decir, el número de volteos, se volverá más claro a medida que el número de caras y cruces se acercan con más volteos. 

2.     Diferencias en la dosis de ejercicio recibida por los dos grupos
Se ha informado una relación de respuesta a la dosis de ejercicio para pacientes que se quejan de dolor en el hombro, pero que aún pueden mover su brazo [3,4]. Esto es importante en el contexto de este ECA que busca evaluar si un tipo específico de ejercicio, es decir, ejercicios adicionales de estabilización escápular, confiere mejores resultados clínicos. En este contexto, debemos considerar si algún resultado se debe al tipo específico de ejercicio o simplemente debido a que se hace más ejercicio.

Turgut et al. estandarizó los ejercicios de estiramiento entre los grupos pero el grupo de intervención realizó diferentes ejercicios de fortalecimiento para el grupo control (se agregó un paso a cada uno) y una cantidad diferente de ejercicio resistido debido a la adición de los ejercicios de estabilización escápular (un mínimo de 240 repeticiones y un máximo de 480 repeticiones 3 veces por semana en comparación con un mínimo de 90 repeticiones y un máximo de 180 repeticiones 3 veces por semana en el grupo de control). Por lo tanto, cualquier diferencia observada entre los dos grupos podría deberse a la dosis adicional de ejercicio en lugar de deberse al tipo específico de ejercicio.

3.     Medición de la disquinesia escapular:
Como ya se mencionó, la medición de la disquinesia escapular es difícil e inherentemente poco confiable. Turgut et al. Utilizó un sistema de seguimiento electromagnético e informó la evidencia que respalda la confiabilidad y la validez, pero con errores de medición estándar que varían entre 3.37⁰ y 7.44⁰ y un cambio mínimo detectable que varía de 7.81⁰ a 17.27⁰. Dado que 8⁰ fue considerado como una diferencia asimétrica importante por los autores, el desafío de medición es claro de ver. Pero, esta limitación es apropiadamente reconocida por Turgut et al. en su sección de limitaciones y no es inmediatamente evidente lo que podrían haber hecho de manera diferente con respecto a la herramienta de medición utilizada; aun así, esta es una limitación importante.   

Sin embargo, dados estos problemas relacionados con la medición, una característica del diseño que podría ser útil es cegar al evaluador de resultados. El cegamiento es cuando los participantes / pacientes, los médicos y aquellos que evalúan los resultados de la investigación desconocen qué tratamiento recibió el paciente y se lo conoce como cegamiento simple, doble y triple, respectivamente. El cegamiento del evaluador de resultados protege contra el sesgo de medición. Sesgo de medición es un riesgo donde la medición no es objetiva, por ejemplo, vivo o muerto, y donde el evaluador de resultados podría influir en la medición consciente o inconscientemente, tal vez porque tienen preferencia por una de las intervenciones. Por ejemplo, si los propios investigadores tuvieran la hipótesis de que la adición de ejercicios de estabilización escapular daría lugar a mejores resultados clínicos para realizar la medición, es posible sugerir que podría haber un riesgo de sesgo de medición.

El cegamiento de la evaluación de resultados no fue informado por Turgot et al, pero debería haber sido factible, aunque muchos estudios se hacen con limitaciones de recursos que podrían haber evitado el empleo de personal adicional. A pesar de esto, la falta de cegamiento del evaluador de resultados en este ECA es potencialmente otra limitación.

4.     Tamaño de la muestra e incertidumbre:
Si bien es posible generar hallazgos a partir de un ECA pequeño que se consideran con validez interna, es decir, podemos confiar en ellos, lo que luego se vuelve difícil es generalizar con algún grado de certeza esos hallazgos a la población en general. Recuerde, a menudo en la investigación intentamos inferir los hallazgos de nuestra muestra de investigación a la población en general, es decir, con respecto a Turgot et al, de los 30 participantes en el ECA a la población más amplia de pacientes con este tipo de dolor de hombro. Cuanto menor es la muestra, más inciertos estamos que los hallazgos sean generalizables para la población en general porque simplemente tenemos menos información. Esta incertidumbre a menudo ahora se presenta como un intervalo de confianza del 95%, es decir, el rango de valores dentro del cual tenemos un 95% de certeza de que radica el verdadero valor poblacional (reconociendo que no estaremos 100% seguros a menos que investiguemos la totalidad de la población, lo cual generalmente no es posible). Por ejemplo, un ECA podría concluir que la diferencia entre los dos grupos en el ensayo fue de dos puntos en una escala analógica visual del dolor a favor del grupo de intervención con un intervalo de confianza del 95% de -2 a +4. Estas estadísticas significan que en el ECA, la diferencia observada entre los grupos fue de dos puntos. Pero, si tuviéramos que repetir este estudio, la diferencia real podría ser dos puntos a favor del grupo de control (-2) o hasta cuatro puntos a favor del grupo de intervención (+4). En este ejemplo, vemos que el intervalo de confianza cruza el cero, es decir, el punto donde no hay diferencia entre los dos grupos y, en consecuencia, este resultado se consideraría como no estadísticamente significativo.

Es posible que esté familiarizado con la significación estadística con respecto al valor p con p> 0.05 considerado como no estadísticamente significativo. Esto significa, en base a los datos de muestra, que no podemos rechazar la hipótesis nula, la cual no establece ninguna diferencia entre los grupos. Es importante leer esta declaración con cuidado porque no es lo mismo que decir que los dos grupos son iguales.

Dado que el intervalo de confianza del 95% brinda un rango de valores que son más fáciles de interpretar, esto es ahora preferido según lo que solicitan guías de reporte. Desafortunadamente, Turgot et al solo nos presentan valores de p que sugieren que no hay una diferencia estadísticamente significativa entre los dos grupos en términos de dolor de hombro y discapacidad al inicio, después de seis y 12 semanas. Pero, observando más de cerca, observamos que la diferencia entre los dos grupos en términos del puntaje total SPADI (Índice de dolor y discapacidad del hombro) es de siete puntos por seis semanas y de 13 puntos por 12 semanas a favor del grupo que recibió los ejercicios adicionales de estabilización escapular (10 puntos se consideran cambios clínicamente significativos en el SPADI). Entonces, ¿por qué Turgot et al informan que no hay diferencia? Una razón podría ser que el número de participantes en el ensayo es muy pequeño (15 en cada grupo), la variable de datos y, por lo tanto, no hay pruebas suficientes para rechazar la hipótesis nula que no hay una verdadera diferencia entre los dos grupos, debido a la información limitada proporcionada por el pequeño número de participantes. Por lo tanto, la falta de una diferencia estadísticamente significativa no se debe a que los resultados del ECA sugieran que los dos grupos tienen el mismo efecto, sino que no hay evidencia suficiente a partir de los datos - esta es una diferencia vitalmente importante, posiblemente indicativa de un error de Tipo II (alguna lectura adicional posterior al blog para usted).  

Conclusión:
Entonces, debido a la preocupación por la diferencia en las características basales, la diferente dosis de ejercicio, el posible error de medición y el riesgo de sesgo, no podemos confiar en que los cambios informados en la cinemática escapular sean válidos y atribuibles a la adición de ejercicios de estabilización escapular. Además, debido al pequeño tamaño de la muestra, no podemos estar seguros de que el informe de que ninguna diferencia estadísticamente significativa entre los dos grupos infiera que la efectividad clínica de las intervenciones en este ECA son similares. Por lo tanto, en base a esta evaluación crítica, se recomienda que los hallazgos de este ECA se traten con precaución; actualmente no está claro cómo estos resultados desarrollan nuestra comprensión sobre cómo, o incluso si, la cinemática escapular cambia en respuesta a la intervención. Tampoco está claro cómo los resultados de este ECA nos ayudan a desarrollar nuestra comprensión de los componentes importantes de un programa de ejercicios.

Es de esperar que haya algunos puntos de aprendizaje en este blog, aunque una implicación clara para la futura investigación relacionada con la fisioterapia es que los ECA que buscan determinar la efectividad de diferentes intervenciones necesitan una muestra suficiente para generar recomendaciones de tratamiento con confianza y sean diseñados para aumentar la confianza de que cualquier diferencia observada se puede atribuir a una variable de interés.

Gracias por leer, espero que haya sido útil; pensamientos recibidos con gratitud

Translated by Tomas Parraguez on behalf of:

Chris Littlewood, Tomas Parraguez, Brian Cho, Sijmen Hacquebord, Paul Regan

[1]       Bury J, West M, Chamorro-Moriana G, Littlewood C. Effectiveness of scapula-focused approaches in patients with rotator cuff related shoulder pain: A systematic review and meta-analysis. Man Ther 2016;25:35–42. doi:10.1016/j.math.2016.05.337.
[2]       Littlewood C, Cools AMJ. Scapular dyskinesis and shoulder pain: the devil is in the detail. Br J Sports Med 2017;0:bjsports-2017-098233. doi:10.1136/bjsports-2017-098233.
[3]       Osteras H, Torstensen T, Haugerud L, Osteras B. Dose-response effects of graded therapeutic exercises in patients with long-standing subacromial pain. Adv Physiother 2009;11:199–209.
[4]       Littlewood C, Malliaras P, Chance-Larsen K. Therapeutic Exercise for rotator cuff tendinopathy: A systematic review of contextual factors and prescription parameters. Int J Rehabil Res 2015;38.


Friday 12 January 2018

Critical Appraisal of a RCT (January 2018)

Critical appraisal of a randomised controlled trial (RCT)

Another day, another RCT relating to the shoulder, or so it seems. The shoulder seems to be a hot topic at the moment with hundreds of RCTs published over recent years. On the face of it, this should be a good thing but in reality it can be quite confusing particularly when clear and consistent messages are not forthcoming.

So, with that in mind, this is the second blog in a series (the first one here) that will critically appraise published RCTs relating to the shoulder with the aim of understanding how these might be relevant to practice.

Before we begin, for those of you not too familiar with the RCT, a previous blog discusses basic design and rationale, 
here. This might be a useful starting point if some of the terms used seem unfamiliar or confusing.

This month’s blog refers to: Turgut et al. (2017). Effects of scapular stabilization exercise training on scapular kinematics, disability, and pain in subacromial impingement: A RCT. Archives of Physical Medicine & Rehabilitation, 98, 1915-23.

Briefly, this RCT was designed to evaluate whether stretching and strengthening with additional scapular stabilisation exercises was better than stretching and strengthening alone in patients classified with:

·       Painful arc during shoulder flexion or abduction,
·       Pain with resisted external rotation and abduction,
·       Scapular dyskinesis based on observational assessment combined with a reduction in shoulder pain with movement during the scapula assistance test.

The researchers hypothesised that the group who received additional scapular stabilisation exercises would improve the position and movement of their scapula and report less pain and disability than the group who did not receive the additional scapular stabilisation exercises. In summary, the authors report no significant difference in pain and disability between the two groups after a 12-week training programme. But, they do report that they observed statistically significant changes in scapular kinematics in the group who received specific scapular stabilisation exercises compared to those who didn’t. So, scapular kinematics appeared to improve but this was not associated with greater reductions in pain or improvements in function.

Given that previous studies have not reported changes in scapular kinematics as patients report reduced pain and improved function [1] and given that the role of scapular dyskinesis in shoulder pain remains uncertain [2], this seems an interesting finding.

Critical appraisal
Rather than undertake a systematic and comprehensive critical appraisal, for blog purposes, we will focus on some key aspects that might help us judge whether we can trust the findings of a RCT or whether we should be cautious or even reject the findings. So, please keep this in mind and feel free to add to the debate as you see fit.

With regard to Turgut et al, there are four areas we will focus on:
1. Differences between the characteristics of the groups
2. Differences in the dose of exercise received by the two groups
3. Measurement of scapular dyskinesis
4. Sample size and uncertainty

1. Differences between the characteristics of the groups.

A feature of a well conducted RCT is that the two or more groups that are created are similar at the start of the trial in terms of the factors we know, for example age, height, weight etc, but also the factors we don’t know or are difficult to characterise, for example genetic profile. This is important because if we want to conclude at the end of the RCT that one intervention, i.e. scapular focused exercise, is better than another intervention like general strengthening exercise, then we need to be confident that the only true differences between groups is the intervention they receive. If this is not so, we cannot be confident that any differences we observe are due to the intervention and not some other factor. If this seems confusing, then examples are given in the previous blog (
here) to explain this further.

Now, this might not seem important in this RCT because Turgut et al report no statistically significant differences between the two groups after the 12-week training programme. But, on closer inspection it is apparent that the baseline characteristics of the two groups are different; the group receiving the additional scapular stabilisation exercises (the intervention group) are on average six years younger (33.4 compared to 39.5 years) and on average have a Body Mass Index (BMI) two points lower (23.7 compared to 25.8 – equivalent to 7kg difference for a male who is 1.8m).

Why might this be important? It is recognised that age might be associated with poorer prognosis and that assessment of scapular dyskinesis is difficult, i.e. it is inherently unreliable. It is not clear whether the age difference in this RCT is relevant but it is likely that the higher average BMI of the control group (as reflected in the selection criteria for the RCT) would make assessment of scapular dyskinesis more challenging and therefore more difficult to determine if change has happened.

Why the imbalance in baseline characteristics might have occurred is unclear. Turgut et al use a valid method to generate their random sequence but they do not report how they conceal their allocation, which gives rise to concern. Other factors, for example pain and disability, appear to be well balanced. The reason again could relate to the small sample size. To demonstrate this, take two coins and one friend. Both of you flip your coin ten times – do you get the same number of heads and tails as each other? Do you get five heads and five tails? Probably not, because this is a random process. Now try flipping the coins 20 times; it is likely that you will still get a different number of heads and tails from each other but it is likely that you will get a more balanced number of heads and tails. Now try flipping the coin 30 times and the impact of increasing your sample size, i.e. number of flips, will become clearer as the number of heads and tails becomes closer with more flips.


2. Differences in the dose of exercise received by the two groups
An exercise dose response relationship has been reported for patients who complain of shoulder pain, but can still move their arm [3,4]. This is important in the context of this RCT that is looking to evaluate whether a specific type of exercise, i.e. additional scapula stabilisation exercises, confers better clinical outcomes. In this context, we need to consider whether any result is due to the specific type of exercise or simply due to doing more exercise.

Turgut et al. standardized the stretching exercises between the groups but the intervention group performed different strengthening exercises to the control group (a step was added to each) and a different amount of resisted exercise due to the addition of the scapula stabilisation exercises (a minimum of 240 reps and maximum of 480 reps 3 times per week compared to a minimum of 90 reps and maximum of 180 reps 3 times per week in the control group).  Hence, any observed differences between the two groups could be due to the additional dose of exercise rather than due to the specific type of exercise.

3. Measurement of scapular dyskinesis
As already mentioned, measurement of scapular dyskinesis is difficult and inherently unreliable. Turgut et al. used an electromagnetic tracking system and reported evidence supporting reliability and validity, but with standard errors of measurement ranging from 3.37⁰ to 7.44⁰ and a minimal detectable change ranging from 7.81⁰ to 17.27⁰. Given that 8⁰ was regarded as an important asymmetrical difference by the authors, the measurement challenge is clear to see. But, this limitation is appropriately recognised by Turgut et al. in their limitations section and it is not immediately apparent what they could have done differently with regards to the measurement tool used; still, this is an important limitation.

However, given these measurement related issues, one design feature that might be useful is blinding of the outcome assessor. Blinding is where participants/ patients, clinicians, and those assessing outcomes for the research are unaware of which treatment the patient has received and is referred to as single, double, and triple blinding respectively. Blinding of the outcome assessor guards against measurement bias. Measurement bias is a risk where measurement is not objective, e.g. alive or dead, and where the outcome assessor might be able to influence the measurement, consciously or unconsciously, perhaps because they have a preference for one of the interventions. For example, if the researchers themselves hypothesised that the addition of scapular stabilisation exercises would result in better clinical outcomes undertook the measurement it is feasible to suggest that there might be a risk of measurement bias.

Blinding of outcome assessment is not reported by Turgot et al but should have been feasible, although many studies are done with resource limitations which might have prevented employment of additional personnel. Despite this, lack of outcome assessor blinding in this RCT is potentially another limitation.

4. Sample size and uncertainty
Although it is possible to generate findings from a small RCT that are regarded as internally valid, i.e. we can trust them, what then becomes difficult is to generalise those findings to the wider population with any degree of certainty. Remember, often in research we are trying to infer the findings from our research sample to the wider population, i.e. with regard to Turgot et al, from the 30 participants in the RCT to the wider population of patients with this type of shoulder pain. The smaller the sample the more uncertain we are that the findings are generalizable to the wider population because quite simply we have less information. This uncertainty is often now presented as a 95% confidence interval, i.e. the range of values within which we are 95% certain that the true population value lies (recognising that we won’t be 100% certain unless we do our research on the entire population which is usually not possible). For example, a RCT might conclude that the difference between the two groups in the trial was two points on a pain visual analogue scale in favour of the intervention group with the 95% confidence interval being -2 to +4. These statistics mean that in the RCT, the observed difference between the groups was two points. But, if we were to repeat this study, the actual difference might be two points in favour of the control group (-2) or as much as four points in favour of the intervention group (+4). In this example we see that the confidence interval crosses zero, i.e. the point where there is no difference between the two groups and correspondingly this result would be regarded as not statistically significant.

You might be familiar with statistical significance with regard to the p-value with p > 0.05 regarded as not being statistically significant. This means, based on the sample data, that we are unable to reject the null hypothesis that states no difference between the groups. It is important to read this statement carefully because it is not the same as saying the two groups are the same.

Given that the 95% confidence interval gives a range of values which are easier to interpret, this is now preferred as requested in reporting guidelines. Unfortunately, Turgot et al only present us with p-values that suggest there is no statistically significant difference between the two groups in terms of shoulder pain and disability at baseline, after six and 12 weeks. But, looking more closely we observe that the difference between the two groups in terms of the SPADI (Shoulder Pain & Disability Index) Total Score is seven points by six weeks and 13 points by 12 weeks in favour of the group who received the additional scapular stabilisation exercises (10 points is regarded as a clinically significant change on the SPADI). So, why do Turgot et al report that there is no difference? One reason could be that the numbers of participants in the trial is so small (15 in each group), the data variable and hence there is insufficient evidence, due to the limited information provided by the small numbers of participants, to reject the null hypothesis that there is no true difference between the two groups. So the lack of a statistically significant difference is not because the results of the RCT suggest the two groups have the same effect but rather there is insufficient evidence from the data – this is a vitally important difference, possibly indicative of a Type II error (some post blog extra reading for you).


Conclusion
So, because of concern about difference in baseline characteristics, different dose of exercise, possible measurement error, and risk of bias we cannot be confident that the reported changes in scapular kinematics are valid and attributable to the addition of scapula stabilisation exercises. Also, because of the small sample size we cannot be confident that the report of no statistically significant difference between the two groups infers that the clinical effectiveness of the interventions in this RCT are similar. Therefore, based on this critical appraisal it is recommended that the findings of this RCT be treated with caution – currently it is not clear how these results develop our understanding about how, or even if, scapular kinematics change in response to intervention.

Hopefully there are a few learning points from this blog, one clear implication though for future physiotherapy-related research is that RCTs looking to determine the effectiveness of different interventions need to have sample sizes sufficient to generate treatment recommendations with confidence and be designed to increase confidence that any differences observed can be attributed to variable of interest.

Elif Turgut’s response is below:

I have read your critical appraisal on our recent RCT. I found very useful and beneficial to receive your perspectives. At some points, I strongly agree with your comments, on the other hands in some parts however I do not totally agree with your approach. As a researcher, you may acknowledge me to be right that there is no perfect scientific study, each design has its unique limitations. 

As you suggested, in this study we used a valid randomization and I believe we give enough details about allocation. An independent researcher applied randomization by using computer- generated numbers, which were stratified based on observed scapular dyskinesis type to avoid clustering across study groups. A block size of 4 was used within the 2 strata. Therefore, you may see it is not a simple randomization with coin. Additionally, the baseline characteristics such as age and BMI was not the factors for the randomization process, so it is natural we have not got exactly the same characteristics but statistically insignificant differences between the groups were observed. On the other hand, a lot of factors may affect the prognosis besides age but I am confused with the rationale behind you mention about assessment of scapular dyskinesis? If there is an evidence for this I would like to read it. 

Furthermore, scapular dyskinesis type only the factor to allocate participants in one or two study groups. As you mention under “3. Measurement of scapular dyskinesis” section, it is not a scapular dyskinesis measurement, in this study we assessed three-dimensional scapular kinematics as an outcome measure which is pretty different things when compared to scapular dyskinesis. Therefore, I see you may overlook and you may fail to address the article broadly. 

Also, the design of this RCT were based on our hypothesis “A shoulder girdle stretching and strengthening program with additional scapular stabilization exercises would improve scapular kinematics and reduce disability and pain compared with a shoulder girdle stretching and strengthening program without additional exercises in participants with SIS” therefore we investigate the effect of additional scapular stabilization training on the outcomes. I mean one group received “a” treatment and the other group received “a+b”. Therefore, it is expected the training volumes were not equal. However, as a result both groups were found similar with training. Another importing thing I must say in this study we reported sample size analysis, and we stopped the clinical trial when we received the predicted sample size which is computed based on primary outcome. Therefore, the small sample size judgment for this study in not valid.

I believe the findings add important insights to describe how scapular kinematics change in response to specific exercise training. It should also be noted that the study findings help us develop our understanding of important components of an exercise programme. First the both progressive exercise regimes were applicable and well tolerated. And no additional benefit observed with adding scapular stabilization exercises. Therefore, it is important to give an active treatment approach to the patients with aforementioned symptoms independent from additional scapular focused exercises in 12 week period you will probably have good outcomes.
---------------------------------------------------------------------------------------------------------------------------

Thanks for reading, hope it was useful; thoughts gratefully received.

Chris Littlewood, Tomas Parraguez, Brian Cho, Sijmen Hacquebord, Paul Regan


[1]       Bury J, West M, Chamorro-Moriana G, Littlewood C. Effectiveness of scapula-focused approaches in patients with rotator cuff related shoulder pain: A systematic review and meta-analysis. Man Ther 2016;25:35–42. doi:10.1016/j.math.2016.05.337.
[2]       Littlewood C, Cools AMJ. Scapular dyskinesis and shoulder pain: the devil is in the detail. Br J Sports Med 2017;0:bjsports-2017-098233. doi:10.1136/bjsports-2017-098233.
[3]       Osteras H, Torstensen T, Haugerud L, Osteras B. Dose-response effects of graded therapeutic exercises in patients with long-standing subacromial pain. Adv Physiother 2009;11:199–209.
[4]       Littlewood C, Malliaras P, Chance-Larsen K. Therapeutic Exercise for rotator cuff tendinopathy: A systematic review of contextual factors and prescription parameters. Int J Rehabil Res 2015;38.