Como segundo paso, cada fuente debe ser normalizada para ser compatible con el resto de las fuentes disponibles. La normalización, en Estadística, refiere al proceso mediante el cual se ajustan los valores utilizados por diferentes escalas para que, más adelante, en una nueva escala sea posible proceder a la obtención de medias aritméticas. Es este proceso de agregación el que permite generar la escala definitiva del IPC. Mediante la estandarización, se convierte a todas las fuentes de datos en escala de 0-100. En ella, el valor 0 representa el nivel más alto de corrupción percibida. Por el contrario, el valor 100 es igual al menor nivel de corrupción percibida. Si hubiera una escala de las fuentes originales en la que los niveles más bajos de corrupción son aquellos representados por valores numéricos también bajos debe primeramente ser invertida. La inversión tiene lugar multiplicando cada puntuación en el conjunto de datos de la escala por -1 (menos uno).


Según reporta la propia TI, cada puntuación se normaliza (a un valor z) restando la media de los datos y dividiendo por la desviación estándar. Esto da como resultado un conjunto de datos centrado alrededor de 0 y con una desviación estándar de 1. Para que estas puntuaciones z sean comparables entre conjuntos de datos, se realiza un paso más que consiste en definir la media y los parámetros de desviación estándar como parámetros globales. Por lo tanto, cuando una fuente concreta de datos cubre una gama limitada de países, se procede a imputar puntajes a todos los países que faltan en el conjunto de datos respectivo. Se imputan valores faltantes para los países que carecen de datos utilizando el paquete de software estadístico STATA mediante el comando de imputación del programa.


Este comando hace una regresión de cada conjunto de datos contra las fuentes de datos del IPC que estén, por lo menos, 50% completas para estimar los valores para cada país en el que faltan datos en cada fuente individual de datos . La media y la desviación estándar para el conjunto de datos se calcula como un promedio de la base de datos completa y se utiliza como parámetro para la estandarización de los datos brutos. Es importante destacar que el conjunto de datos completo con valores imputados sólo se utiliza para generar estos parámetros. Bajo ningún punto de vista, los valores imputados son utilizados como datos de origen para las puntuaciones de los países en el IPC.


Críticamente, las puntuaciones z se calculan utilizando los parámetros de la media y la desviación estándar de los resultados imputados para el año 2012. Esto se realiza de esta manera para que 2012 funja efectivamente como el año base para los datos. Gracias a este procedimiento, las puntuaciones pueden ser comparables año tras año. Cuando nuevas fuentes ingresan al índice, para reflejar adecuadamente los cambios en el tiempo, el cálculo de reconstrucción de la escala permite que aquéllas sean consistentes con los parámetros de la línea base de 2012. Esto se realiza estimando primero si hubo un cambio global en la media y la desviación estándar desde 2012. A posteriori, se usan estos nuevos valores, que pueden haberse desviado entre 50 y 20 para volver a escalar el nuevo conjunto de datos .


Las puntuaciones z se vuelven a escalar para ajustarse a la escala del IPC entre 0 y 100. Este procedimiento aplica una fórmula simple que establece el valor medio de la base de datos estandarizada para aproximadamente 45, y la desviación estándar de aproximadamente 20. Cualquier puntuación que exceda los límites de 0 a 100 es inmediatamente descartada. Para una mejor comprensión del proceso a través del cual se estandarizan los datos, por favor revisar la siguiente figura.

 

PASOS PARA PROCEDER A LA ESTANDARIZACIÓN DE LAS DIFERENTES FUENTES

estandarizar

Fuente: Elaboración propia

© 2015 Your Company. All Rights Reserved. Designed By JoomShaper