[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[escepticos] RE Información (era RE Una cuestión sobre la escalera de la vida)



----- Original Message ----- 
From: "Borja Marcos" <BORJAMAR@xxxxxxxxxx>


> La teoría de la información, tal y como la enunció Shannon, peca de
> simplista. Supone que
> toda la información se codifica bit a bit y no tiene en cuenta
> combinaciones de varios
> bits, aunque esto ya se ha arreglado con la estocástica de niveles
> (generalizando la

     ¿?¿?¿?¿?¿?¿? Habla de información, sin tener en cuenta que esté
codificada con bits o lo que sea. Lo que dice es que siempre se puede
medir en bits. De simplista nada, me temo :-)

-------------------------------------------------------------

Perdona, debería haber sido más riguroso para que me entendieras correctamente. Creía que 
no hacía falta detallar la idea, pero ante tantos interrogantes me veo empujado a hacerlo 
;P

Donde he dicho "bit a bit" debería haber dicho "símbolo a símbolo", y si suponemos que los 
símbolos tienen dos valores posibles, entonces debería haber dicho "binit a binit", para 
dejar la palabra "bit" como medida de información, es decir, como resultado de aplicar la 
función de información al conjunto de binits (u otros símbolos) medidos.

¿Cuál es el problema de la medida de información de Shannon, por qué digo que es 
simplista? Lo que Shannon pretendía plasmar era la idea de predictabilidad (o de 
incertidumbre) de aparición de un determinado valor en la cadena de binits, de forma que 
cuanto más seguros estemos de la forma que va a tener dicha cadena, menos información 
contenga. Por eso un binit que tenga una probabilidad 0 o 1 de estar en un estado no añade 
información, mientras que la máxima información la añade si su probabilidad de ser 1 o ser 
0 es 1/2, 1/n si generalizamos para símbolos de n estados. Es decir, asigna la máxima 
información (tantos bits como binits) a una distribución uniforme de probabilidades de los 
valores de los símbolos (lo que a veces se llama proceso "totalmente aleatorio") y la 
mínima (nula) a una distribución determinista.
Sin embargo, cualquiera que sepa estadística ve cuáles son las limitaciones del modelo 
propuesto por Shannon para la información promedio: supone que el proceso es estacionario, 
que el reparto de probabilidades entre los valores es siempre el mismo en el tiempo y que 
los símbolos son variables aleatorias independientes en el tiempo (en su ordenación 
espacial si se prefiere).

No tengo mucho tiempo ahora mismo, trataré de resumir y vosotros rellenáis los huecos que 
me queden:

El suponer que las variables son independientes quiere decir que se espera que la función 
densidad de probabilidad conjunta entre símbolos sea la multiplicación de las funciones de 
densidad de probabilidad de cada uno de ellos. A la entropía o información media de 
Shannon le da lo mismo si la cadena de binits resultante es una cadena aleatoria donde 1 y 
0 aparecen con probabilidad 1/2, o si es siempre la cadena 101010101... puesto que cada 
valor del símbolo aparece con p=1/2 y no tiene en cuenta probabilidades conjuntas: si las 
tuviera, se daría cuenta de que la subcadena de dos símbolos "10" tiene una probabilidad 1 
de aparecer comenzando por un lugar impar y la "01" tiene una probabilidad 1 de aparecer 
comenzando por un lugar par, y consecuentemente reduciría la cantidad de información (si 
queremos ser consecuentes con la idea de certidumbre o predictabilidad, debería tener 
información nula, y desde luego puede ser representada mediante 3 bits). La idea es muy 
similar a la de la complejidad algorítmica de la informática (inventada por Chaitin). La 
entropía de Shannon, en este sentido, sólo es válida cuando se pueda asegurar que los 
símbolos son independientes.
Al uso de las funciones densidad de probabilidad de hasta n símbolos consecutivos es a lo 
que se le denomina "estocástica de n niveles". Se usa, por ejemplo, a la hora de construir 
generadores de textos aleatorios con cohesión (me parece que con nivel 6 salen textos 
legibles en español, tendría que confirmarloag).

Por otro lado, si el reparto de probabilidades entre símbolos no se mantiene en el tiempo, 
aun cuando los símbolos fueran realmente unos independientes de otros, entonces tampoco 
tiene sentido el cálculo y habría que complicar la fórmula.

En conclusión, la entropía de Shannon puede no ser significativa (si el proceso no es 
estacionario) o puede ser una primera aproximación al valor de información de un proceso 
generador de cadenas de símbolos, según la idea de información que más o menos compartimos 
todos, pero no es un resultado completo sino simplista. Por ejemplo, a veces se afirma en 
uno de los campos en los que tiene más utilidad, el de la compresión sin pérdida, que si 
se disminuye una cadena hasta el valor de la entropía de Shannon, se ha alcanzado "el 
límite físico de compresión" para esa cadena; nada más lejos de la realidad: considérese 
cualquier cadena de binits infinita periódica con periodo mínimo N, entonces la entropía 
de Shannon es infinita y sin embargo la cadena puede representarse con N+1 binits sin 
pérdida de información.

Un saludo. Jose Brox.