6. Si tomamos un texto y
contamos…
• las palabras de 1 letra,
• las palabras de 2 letras,
• las palabras de 3 letras,
• las palabras de 4 letras,
• las palabras de 5 letras,
• las palabras de 6 letras,
7. … y representamos el resultado
en un histograma…
300
250
Número de palabras
200
150
100
50
0
0 5 10 15 20 25
Número de letras
8. … ¿se parecerá a alguna
distribución de probabilidad
conocida?
10. Selección de los textos
Carácter enciclopédico
Para una docena de
lenguas con alfabeto latino
Un fichero por cada lengua
11. Contenido de los ficheros
2.500 palabras
Fragmentos de artículos
destacados de Wikipedia
10 ó 12 artículos con temáticas
diferentes, extraídos al azar
12. Análisis de los ficheros
Programa en Matlab
Procesa los ficheros
Representa resultados
mediante histogramas
13. function datos = leer(namefile)
texto = textread(namefile, '%s');
numpal = size(texto);
vectL = zeros(1,numpal(1));
for i = 1:numpal
vectL(i) = length(char(texto(i)));
end
hist(vectL, 1:max(vectL))
25. No se puede establecer un
modelo estadístico común a
todas las lenguas
Las lenguas de las mismas
familias lingüísticas presentan
características similares