Interesante herramienta, aunque aún hay que pulirle cosas, lo primero
debería ser excluir las redirecciones en el análisis porque lo único que
hacen es entorpecer el análisis. Y también realizar el análisis sólo con
el namespace de artículos, no he mirado el código, pero mucho me temo
que se están metiendo discusiones y otras páginas que no son artículos
en el análisis. Además esto daría pie a realizar también un estudio
entre si las páginas con discusión tienen más o menos ediciones y un
tamaño mayor o menor. Probablemente se obtenga que las páginas con una
discusión grande tengan más ediciones que otras pero esto no se vea
reflejado en el tamaño. La pérdida de recursos en este aspecto es algo
bien conocido por los wikipedistas.
En los histogramas, la densidad intuyo que es un valor de la frecuencia
de cada partición pero un porcentaje creo que dejaría más claro en que
niveles anda cada wiki y en la acumulada quedaría mucho más claro usar
porcentajes y decir los bytes a los que corresponde cada partición de
datos y así poder comparar más fácilmente cuantos artículos son mayores
o menores de un tamaño dado, que 3.3 sean 2000 bytes y 3.6 sean 4000 es
poco práctico. Además hay que tener en cuenta que el verdadero grueso
anda entre los 1000-25000 bytes, como ya he dicho las redirecciones
molestan al realizar el análisis.
Por lo demás, los resultados son bastante acordes con lo que defiende
cada wikipedia, la española y la alemana suelen insistir en concentrarse
en mejorar lo que ya existe, otras como sueca, portuguesa o polaca han
usado o siguen usando robots que por lo general crean artículos cortos
que nunca se amplian y en las gráficas se notan estas "políticas", de
hecho en alguna se ven claramente saltos muy irregulares y poco
coherentes, también se observa que otras wikis que usan robots no están
tan afectadas por estos ya que aunque la creación robótica puede ser
mayor en número que en otras wikis, porcentualmente dentro del proyecto
no tienen un gran impacto. Los análisis temporales también son muy
interesantes.
Si seguís trabajando en esto, un taller con gente implicada en el
proyecto puede ayudaros a orientar mejor los análisis.
Un saludo
El vie, 27-07-2007 a las 01:14 +0200, Felipe Ortega escribió:
Hola a todos.
Mi nombre es Felipe Ortega, soy Ing. de Telecomunicación y estudiante de
doctorado en la Universidad Rey Juan Carlos de Madrid.
El tema de investigación para mi tesis doctoral gira en torno a un estudio
quantitativo detallado del proyecto Wikipedia. Actualmente, ya hemos
realizado una serie de estudios preliminares, para todos los idiomas de
Wikipedia disponibles. Este análisis ha sido posible gracias a un programa
software escrito en Python que hemos llamado WikiXRay:
http://meta.wikimedia.org/wiki/WikiXRay
Actualmente, tenemos resultados muy interesantes sobre la distribución del
tamaño de artículos y de las contribuciones de los usuarios de Wikipedia, el
histórico de contribuciones que ha realizado cada comunidad, y planeamos
sacar muchísimos resultados más basados en una gran cantidad de datos que
podemos extraer de los volcados automáticos disponibles en la página
oficial.
Hemos pensado que resultaría interesante y enriquecedor para todos organizar
un pequeño taller, bastante informal, en el que nos podamos reunir miembros
de nuestro grupo (al menos Jesús González Barahona también estaría presente)
y bibliotecarios y usuarios con asignaciones destacadas de la Wikipedia en
español.
La idea es por un lado, contaros más en profundidad las cosas que estamos
haciendo, para ver si resultan interesantes o bien si la comunidad tiene
otras inquietudes diferentes. Por otro lado, nos gustaría que algunos de los
bibliotecarios nos hablasen acerca de su experiencia de colaboración en
Wikipedia, sus rutinas de trabajo, las normas tácitas y explícitas que
suelen seguir en su dinámica habitual y cualquier otro aspecto que nos pueda
ayudar a conocer mejor el funcionamiento interno de la comunidad. De esa
forma, podríamos enfocar mejor muchos nuevos análisis que realicemos.
Ofrecemos alguna de nuestras salas en la URJC para realizar el taller,
esperamos que la idea os resulte interesante, por favor enviad vuestros
comentarios al respecto.
Gracias, un saludo.
Felipe Ortega.
_______________________________________________
Wikies-l mailing list
Wikies-l(a)lists.wikimedia.org
http://lists.wikimedia.org/mailman/listinfo/wikies-l