Un nuevo proyecto de investigación del Laboratorio de Ciencia e Inteligencia Artificial del Instituto Tecnológico de Massachusetts y el Instituto de Investigación de Computación de Qatar tiene como objetivo utilizar el aprendizaje automático para detectar qué sitios son más propensos a generar información errónea o “fake-news”.

“Si un sitio web ha publicado noticias falsas anteriormente, es muy probable que lo hagan de nuevo”, dijo en un comunicado el asociado postdoctoral MIT CSAIL Ramy Baly, autor principal de un artículo sobre la tecnología, recoge Fast Company

La herramienta utiliza una técnica de aprendizaje automático conocida como máquinas de vectores de soporte para aprender a predecir cómo se clasificarán los medios según Media Bias / Fact Check, una organización que rastrea el nivel de contenido objetivo y el sesgo político en miles de sitios de noticias. Toma en cuenta el contenido real de los artículos en los sitios, así como factores externos como la presencia en Twitter del sitio, la estructura de su nombre de dominio en línea y cómo se describe en Wikipedia.

“En una entrevista, la fuente de información más útil para juzgar tanto la realidad como el sesgo son los artículos reales”, dice Preslav Nakov, científico principal de QCRI.

Tal vez, como era de esperar, “los sitios menos factuales tenían más probabilidades de usar lenguaje hiperbólico y emocional que los que informaban más contenido fáctico”, según el artículo de Fast Company.

Además, dice Nakov, las fuentes de noticias con descripciones más extensas en Wikipedia tienden a ser más confiables. La enciclopedia en línea también puede proporcionar indicaciones verbales de que las fuentes de noticias son sospechosas, como referencias a sesgos o una tendencia a difundir teorías de conspiración, dice.

“Si, por ejemplo, abres la página de Wikipedia de Breitbart , lees cosas como ‘misóginas’, ‘xenófobas’ ‘, racistas’ ‘, dice Nakov.

Las webs con dominios muy largos son generalmente menos confiables que las que lo tienen corto

Por otra parte, los sitios con nombres de dominio y estructuras de URL más complejos generalmente eran menos confiables que los sitios con nombres más simples. Algunas de las URL más complejas pertenecían a sitios con direcciones más largas que esencialmente se hacían pasar por conocidos con dominios más simples.

Los investigadores se enfocaron en rastrear la confiabilidad de los medios de comunicación completos en lugar de las historias individuales, en parte con la expectativa de que los algoritmos podrían ser mejores para manejar cuerpos completos de trabajo en lugar de publicaciones cortas. 

Un sistema que clasifica sitios enteros también puede ser útil para ayudar a los lectores a evaluar el contenido nuevo del sitio, incluso si no ha sido estudiado por verificadores humanos del tipo de redes sociales que Facebook emplea cada vez más. 
Nakov sugiere que los verificadores de datos también podrían usar las calificaciones del algoritmo para evaluar casos en los que diferentes sitios informan de manera diferente sobre el mismo tema.

Cuando se presentó un nuevo canal de noticias, el sistema tenía aproximadamente un 65% de precisión en la detección de si tenía un nivel de factualidad alto, medio o bajo y el 70% de precisión en la detección de si se inclinaba hacia la izquierda, la derecha o el centro. Los investigadores planean presentar el documento en unas pocas semanas en la conferencia sobre Métodos empíricos en el procesamiento del lenguaje natural en Bruselas.

En el futuro, los investigadores del MIT y QCRI planean probar el sistema capacitado en inglés en otros idiomas y ver cómo se desenvuelve en otros sesgos distintos a los de la izquierda y la derecha, como detectar noticias religiosas o seculares en el mundo islámico. El grupo también tiene planes para una aplicación que podría ofrecer a los usuarios un vistazo a las noticias desde una variedad de perspectivas políticas, según el artículo.

Deja un comentario