Twitter desvela parte de su código fuente, incluido su algoritmo de recomendación

Como prometió repetidamente el CEO de Twitter, Elon Musk, Twitter ha abierto parte de su código fuente para la inspección pública, incluido el algoritmo que utiliza para recomendar tweets en las noticias de los usuarios.

En GitHub, Twitter publicó dos repositorios contiene código para muchas partes que hacen que la red social funcione, incluido el mecanismo utilizado por Twitter para controlar qué tweets ven los usuarios en la línea de tiempo For You. En una publicación de blog, Twitter llamó a la medida «el primer paso para ser[ing] más transparente «todo al mismo tiempo»[preventing] riesgo” para el propio Twitter y las personas en la plataforma.

Durante una sesión de Twitter Spaces hoy, Musk aclaró:

“Nuestra versión inicial del llamado algoritmo será bastante vergonzoso, y la gente encontrará muchos errores, pero los corregiremos muy rápidamente”, dijo Musk. «Incluso si no estás de acuerdo con algo, al menos sabrás por qué está ahí, y no estás siendo manipulado en secreto… El análogo, aquí, al que aspiramos es el gran ejemplo de Linux como un sistema abierto». sistema operativo fuente… Podemos, en teoría, descubrir muchos exploits para Linux. En realidad, lo que sucede es que la comunidad identifica y corrige estos exploits.

En ese segundo punto de la publicación del blog de prevención de riesgos, las versiones de código abierto no incluyen el código que impulsa las recomendaciones de anuncios de Twitter ni los datos utilizados para entrenar el algoritmo de recomendación de Twitter. Además, incluyen pocas instrucciones sobre cómo inspeccionar o usar el código, lo que refuerza la idea de que los lanzamientos están estrictamente enfocados en los desarrolladores.

«[We excluded] cualquier código que comprometa la seguridad y privacidad del usuario o la capacidad de proteger nuestra plataforma de los malos actores, lo que incluye socavar nuestros esfuerzos para combatir la explotación y manipulación sexual infantil”, escribió Twitter. «Nosotros [also took] medidas para garantizar la protección de la seguridad y la privacidad de los usuarios.

Twitter dice que está trabajando en herramientas para administrar las sugerencias de código de la comunidad y sincronizar los cambios con su repositorio interno. Presumiblemente, estos estarán disponibles en una fecha posterior; no hay señales de ellos en este momento.

«Vamos a buscar sugerencias, no solo sobre errores, sino también sobre cómo debería funcionar el algoritmo», dijo Musk durante la sesión de Spaces. “Será un proceso evolutivo. No esperaría que fuera una tendencia ascendente ininterrumpida… pero estamos muy abiertos a cualquier cosa que mejore la experiencia del usuario.

A primera vista, el algoritmo es bastante complejo, pero no necesariamente sorprendente desde un punto de vista técnico. Se compone de varios modelos, incluido un modelo para detectar contenido «peligroso para el trabajo» o abusivo, determinar la probabilidad de que un usuario de Twitter interactúe con otro usuario y calcular la «reputación» de un usuario de Twitter. (No está claro a qué se refiere «reputación»; la documentación de alto nivel no está clara). Varias redes neuronales son responsables de clasificar los tweets y recomendar cuentas a seguir, mientras que un componente de filtrado oculta los tweets para, perdón por la jerga, «Apoyar el cumplimiento legal». , mejore la calidad del producto, aumente la confianza del usuario, proteja los ingresos mediante el uso de tratamientos de productos de filtrado estrictos y visibles y la degradación general».

en una ingenieria entrada en el blogTwitter revela más sobre el flujo de recomendaciones, que dice que se ejecuta alrededor de cinco mil millones de veces al día:

«Estamos tratando de extraer los 1500 tuits principales de un grupo de cientos de millones… Hoy, la línea de tiempo For You consta del 50 % [tweets from people you don’t follow] y 50% [tweets from people you follow] en promedio, aunque esto puede variar de un usuario a otro”, escribió Twitter. «Clasificación [tweets] está hecho con una red neuronal de aproximadamente 48 millones de parámetros que se entrenan continuamente en las interacciones de tweets para optimizar el compromiso positivo (por ejemplo, me gusta, retweets y respuestas).

El lanzamiento del código fuente se produce después de varias controversias relacionadas con cambios en el algoritmo de recomendación de Twitter en los últimos meses. De acuerdo a Plataforma, en febrero, Musk pidió a los ingenieros de Twitter que reconfiguraran el algoritmo para que sus tuits fueran más vistos. (Twitter luego dio marcha atrás en ese cambio, al menos un poco). En noviembre, Twitter comenzó a mostrar a los usuarios más tweets de personas que no siguen, un movimiento que la plataforma intentó antes de la adquisición por parte de Musk, pero que luego se canceló después de una reacción violenta de los usuarios.