domingo, 4 de noviembre de 2012

Usuarios influyentes en Twitter durante los cacerolazos del 13 de Septiembre en Argentina

En Twitter los usuarios pueden mencionar a otros usuarios de la red. Esas menciones se pueden interpretar como un nexo entre unos y otros usuarios. Por ejemplo, si el usuario @agregori escribe un tuit mencionando a @MITEcon visualmente esto se puede representar como una flecha que sale del primero hacia el segundo de los usuarios.

En este ejemplo sólo hay dos usuarios y un enlace, pero a medida que se van agregando más y más menciones se va creando un tejido de usuarios y enlaces más denso y complejo.
Con el objetivo de determinar quiénes han sido los usuarios más influyentes en Twitter durante los cacerolazos y manifestaciones acontecidas en el mes de septiembre de 2012, desarrollé una base de capturando todos los tuits que hablaran del Cacerolazo. Para eso lo que hice fue hacer una búsqueda de los tuits realizados en Argentina que incluyesen las palabras “Cacerolazo”, “Caceroludos”, “Cacerolas”, y otras variaciones. La base de datos que armé cuenta con más de 100.000 tuits. Como en la captura que se puede ver abajo, la base cuenta con una gran cantidad de tuits en donde el hacedor del tuit menciona a algún otro usuario. Cerca del 75% de los tuits de esta muestra incluyen al menos una mención a otro usuario. Ese es un dato que ejemplifica con claridad el aspecto social de Twitter.
En el ejemplo de la imagen la mención de @kikazaaa a @Lanataenel13 crea un enlace que tiene una dirección, en donde la dirección indica que el primero mencionó al segundo. El grafo que sigue es la red de menciones entre más de 27.000 usuarios de Twitter que específicamente hablaron del cacerolazo y que mencionaron algún otro usuario. Cada línea de color es un tuit y cuanto más ancha la línea, más menciones un usuario le hizo a otro usuario. Y cuanto más grande es el nodo, más influyente.
Red de menciones en Twitter durante los cacerolazos de Septiembre de 2012 en Argentina. 

Lo interesante de este enorme grafo, y es por eso que tiene diferentes colores, es que hay dos grupos claramente diferenciados. Uno de los grupos, el amarillo son usuarios que están a favor del cacerolazo. Mientras que los que pertenecen al grupo de color naranja son los que están en contra del cacerolazo. El grupo que está a favor representa el 67% de la red, y el grupo que está en contra es el 27% de los nodos; los demás grupos suman el 5% restante.

¿Cómo determinar los grupos? 
A la inversa de lo que hubiera hecho desde un principio, para armar los clusters utilicé el algoritmo que desarrolló Mark Newman, profesor de la Universidad de Michigan. El algoritmo permite, a partir de la estructura modular de la red, armar clusters. Una vez que el algoritmo arrojó los resultados fui a ver de qué hablaban y quiénes eran los usuarios influyentes en cada uno de los clusters. También podría haber hecho el camino inverso, analizar primero de qué se habló y luego agrupar usuarios de acuerdo a las temáticas de las que hablaron. Pero en esta oportunidad quería medir la capacidad del algoritmo para determinar quiénes estaban a favor y quiénes en contra del cacerolazo.
Un resultado valioso de este experimento fue que es muchísimo más eficiente en términos de tiempo y esfuerzo recorrer el camino desde el algoritmo hacia el análisis del texto, que hacerlo a la inversa.

¿De qué habla cada grupo?
El grupo verde habló de los cacerolazos en Plaza de Mayo y en las diferentes plazas de Córdoba , Santa Fe y Mendoza. Los bocinazos fueron el sonido más mencionado. Las imágenes y fotos compartidas en las redes sociales están llenas de adjetivos relacionados a lo multitudinario e impresionante del evento. También hubo enojos contra Guillermo Moreno y su forma despectiva de tratar a los que fueron al cacerolazo. Se habló de la inseguridad, de basta de los K, de la corrupción y de la inflación. Muchos indicaron que fue una manifestación del pueblo y señalaron a las preguntas en Harvard como un punto crítico en los acontecimientos. También se señaló al 8N como un nuevo punto futuro de encuentro para protestar.
Los del cluster naranja indicaron que quienes fueron a cacerolear son unos caceroludos (fusión de cacerolas + boludos). Arrojaron sospechas sobre la espontaneidad de la convocatoria. Señalaron a TN y Clarín como promovedores del cacerolazo. Indicaron que quienes protestas son la derecha, son gorilas y golpistas que tienen las cacerolas essen o de teflón llenas de comidas desde el 2003. También dijeron que las protestas son porque la Cadena Nacional no les permitió ver Graduados y que se quejan porque no pueden viajar a Miami o ver Tinelli. Y que podían perderse las cacerolas en el orto.
Usuarios influyentes
Existen diversas maneras de determinar quiénes son los usuarios influyentes dentro de este enjambre de comunicaciones. Por ejemplo, uno podría tomar la cantidad de followers que tiene cada uno de los usuarios y afirmar que quien tiene más followers es el más influyente. También podría pensarse que si bien un usuario puede tener pocos followers, si alguien más influyente lo menciona, entonces este usuario pequeño se vuelve más relevante. Ese último criterio se puede determinar utilizando el algoritmo PageRank o algún otro semejante. También se pueden utilizar otras medidas de centralidad que establezcan cuán en el centro o en la periferia de la red se encuentra cada nodo. Todos estos son métodos válidos para determinar la capacidad de influencia de un usuario, sin embargo, en función de mi experiencia en el trato de redes en Twitter, encuentro que el método más simple es el que mejor revela quiénes son los usuarios influyentes. Cada vez que un usuario cualquiera es mencionado se genera un enlace entrante hacia ese usuario. Dado que esta es una red donde los enlaces tienen dirección, contabilizar la cantidad de enlaces entrantes nos revela qué usuarios estuvieron presentes en más cantidad de tuits realizados por otros diferentes usuarios. Por ejemplo, aquellos que generan un contenido que el resto considera valioso o interesante como para retuitearlo, suelen recibir más cantidad de retuits. Los retuits son menciones al usuario que hizo el tuit y, lo que es lo mismo, son enlaces entrantes para su creador. Lo cual, en este análisis, lo ubica como influyente. Que sea influyente no significa nada respecto de la cualidad de su reputación. Así, en este caso utilicé la medida de enlaces entrantes a cada uno de los usuarios para determinar quién es el más influyente o popular.
Si bien se podría hacer una lista larga de todos los usuarios ordenados por capacidad de influencia, preferí dividir la lista de acuerdo a los dos grupos (verde y naranja) antes señalados. De esa manera se puede identificar con claridad quiénes son los influyentes en cada uno de los grupos. Las listas muestran los 5 usuarios más influyentes de los dos clusters más grandes de la red:
Estos han sido los usuarios que más menciones han recibido durante los cacerolazos. Debido al método que utilicé se -en general- puede afirmar que la influencia de cada usuario está dada en gran parte de acuerdo a la cantidad de retuits que tuvieron sus tuits. Aunque también hay una parte importante que tiene que ver con los mensajes dirigidos a estos usuarios. Una nota, tanto Twitter como Favstar utilizan el método de lo más retuiteado para ordenar sus resultados de búsqueda y rankings.

Evolución en el tiempo
Visualizar una red de forma dinámica es algo que tiene su complejidad. El gráfico muestra la cantidad de tuits que se hicieron cada día desde el 1/Sep al 15/Oct. Como es típico en el comportamiento de reacciones frente a noticias, las redes sociales y las búsquedas de Google suelen tener un pico y una caída muy aguda. Todo ocurre en un espacio de tiempo muy reducido y luego se apaga rápidamente.

Por eso mi intento de graficar la red de forma dinámica resultó algo infructífero porque la red tiene una explosión en dos o tres días y luego la actividad se desvanece. En un próximo tratamiento sería interesante acotar la dinámica a un día específico para poder ver con más claridad cómo se comporta la red.
Photobucket


Nota:
En este pdf se puede ver con más claridad los nodos más grandes (más influyentes). A diferencia de la red exhibida más arriba, en esta quité todos los nodos que tienen una sola mención.

No hay comentarios: