Hola a todos.
Mi nombre es Felipe Ortega, soy Ing. de Telecomunicación y estudiante de doctorado en la Universidad Rey Juan Carlos de Madrid.
El tema de investigación para mi tesis doctoral gira en torno a un estudio quantitativo detallado del proyecto Wikipedia. Actualmente, ya hemos realizado una serie de estudios preliminares, para todos los idiomas de Wikipedia disponibles. Este análisis ha sido posible gracias a un programa software escrito en Python que hemos llamado WikiXRay:
http://meta.wikimedia.org/wiki/WikiXRay
Actualmente, tenemos resultados muy interesantes sobre la distribución del tamaño de artículos y de las contribuciones de los usuarios de Wikipedia, el histórico de contribuciones que ha realizado cada comunidad, y planeamos sacar muchísimos resultados más basados en una gran cantidad de datos que podemos extraer de los volcados automáticos disponibles en la página oficial.
Hemos pensado que resultaría interesante y enriquecedor para todos organizar un pequeño taller, bastante informal, en el que nos podamos reunir miembros de nuestro grupo (al menos Jesús González Barahona también estaría presente) y bibliotecarios y usuarios con asignaciones destacadas de la Wikipedia en español.
La idea es por un lado, contaros más en profundidad las cosas que estamos haciendo, para ver si resultan interesantes o bien si la comunidad tiene otras inquietudes diferentes. Por otro lado, nos gustaría que algunos de los bibliotecarios nos hablasen acerca de su experiencia de colaboración en Wikipedia, sus rutinas de trabajo, las normas tácitas y explícitas que suelen seguir en su dinámica habitual y cualquier otro aspecto que nos pueda ayudar a conocer mejor el funcionamiento interno de la comunidad. De esa forma, podríamos enfocar mejor muchos nuevos análisis que realicemos.
Ofrecemos alguna de nuestras salas en la URJC para realizar el taller, esperamos que la idea os resulte interesante, por favor enviad vuestros comentarios al respecto.
Gracias, un saludo.
Felipe Ortega.
Interesante herramienta, aunque aún hay que pulirle cosas, lo primero debería ser excluir las redirecciones en el análisis porque lo único que hacen es entorpecer el análisis. Y también realizar el análisis sólo con el namespace de artículos, no he mirado el código, pero mucho me temo que se están metiendo discusiones y otras páginas que no son artículos en el análisis. Además esto daría pie a realizar también un estudio entre si las páginas con discusión tienen más o menos ediciones y un tamaño mayor o menor. Probablemente se obtenga que las páginas con una discusión grande tengan más ediciones que otras pero esto no se vea reflejado en el tamaño. La pérdida de recursos en este aspecto es algo bien conocido por los wikipedistas.
En los histogramas, la densidad intuyo que es un valor de la frecuencia de cada partición pero un porcentaje creo que dejaría más claro en que niveles anda cada wiki y en la acumulada quedaría mucho más claro usar porcentajes y decir los bytes a los que corresponde cada partición de datos y así poder comparar más fácilmente cuantos artículos son mayores o menores de un tamaño dado, que 3.3 sean 2000 bytes y 3.6 sean 4000 es poco práctico. Además hay que tener en cuenta que el verdadero grueso anda entre los 1000-25000 bytes, como ya he dicho las redirecciones molestan al realizar el análisis.
Por lo demás, los resultados son bastante acordes con lo que defiende cada wikipedia, la española y la alemana suelen insistir en concentrarse en mejorar lo que ya existe, otras como sueca, portuguesa o polaca han usado o siguen usando robots que por lo general crean artículos cortos que nunca se amplian y en las gráficas se notan estas "políticas", de hecho en alguna se ven claramente saltos muy irregulares y poco coherentes, también se observa que otras wikis que usan robots no están tan afectadas por estos ya que aunque la creación robótica puede ser mayor en número que en otras wikis, porcentualmente dentro del proyecto no tienen un gran impacto. Los análisis temporales también son muy interesantes.
Si seguís trabajando en esto, un taller con gente implicada en el proyecto puede ayudaros a orientar mejor los análisis.
Un saludo
El vie, 27-07-2007 a las 01:14 +0200, Felipe Ortega escribió:
Hola a todos.
Mi nombre es Felipe Ortega, soy Ing. de Telecomunicación y estudiante de doctorado en la Universidad Rey Juan Carlos de Madrid.
El tema de investigación para mi tesis doctoral gira en torno a un estudio quantitativo detallado del proyecto Wikipedia. Actualmente, ya hemos realizado una serie de estudios preliminares, para todos los idiomas de Wikipedia disponibles. Este análisis ha sido posible gracias a un programa software escrito en Python que hemos llamado WikiXRay:
http://meta.wikimedia.org/wiki/WikiXRay
Actualmente, tenemos resultados muy interesantes sobre la distribución del tamaño de artículos y de las contribuciones de los usuarios de Wikipedia, el histórico de contribuciones que ha realizado cada comunidad, y planeamos sacar muchísimos resultados más basados en una gran cantidad de datos que podemos extraer de los volcados automáticos disponibles en la página oficial.
Hemos pensado que resultaría interesante y enriquecedor para todos organizar un pequeño taller, bastante informal, en el que nos podamos reunir miembros de nuestro grupo (al menos Jesús González Barahona también estaría presente) y bibliotecarios y usuarios con asignaciones destacadas de la Wikipedia en español.
La idea es por un lado, contaros más en profundidad las cosas que estamos haciendo, para ver si resultan interesantes o bien si la comunidad tiene otras inquietudes diferentes. Por otro lado, nos gustaría que algunos de los bibliotecarios nos hablasen acerca de su experiencia de colaboración en Wikipedia, sus rutinas de trabajo, las normas tácitas y explícitas que suelen seguir en su dinámica habitual y cualquier otro aspecto que nos pueda ayudar a conocer mejor el funcionamiento interno de la comunidad. De esa forma, podríamos enfocar mejor muchos nuevos análisis que realicemos.
Ofrecemos alguna de nuestras salas en la URJC para realizar el taller, esperamos que la idea os resulte interesante, por favor enviad vuestros comentarios al respecto.
Gracias, un saludo.
Felipe Ortega. _______________________________________________ Wikies-l mailing list Wikies-l@lists.wikimedia.org http://lists.wikimedia.org/mailman/listinfo/wikies-l