La Inteligencia Artificial puede Escribir Noticias de la Política Peruana

Hacer que las computadoras sean inteligentes ha sido el sueño de muchos entusiastas de la tecnología desde 1956, cuando Arthur Samuels creó un algoritmo que aprendía a jugar damas chinas basado en partidas ganadas.

Los años han pasado y hoy en pleno 2018 tenemos una idea más clara de que problemas contienen patrones que pueden ser aprendidos y por lo tanto ser predecibles en el tiempo. Algunos problemas que estamos cerca de resolver en los siguientes años incluyen el reconocimiento de rostros en fotos, la predicción de que película te gustaría ver el Viernes en la noche, y el convertir lenguage hablado a texto.

Sin embargo, procesos tan interesantes como la música, la pintura, o la escritura son aún tareas complejas para la Inteligencia Artificial y para cuales todavía no somos capaces de entender su solución a plenitud. Dicha complejidad consiste en gran medida en modelar el razonamiento necesario para generar una secuencia ordenada que sigua las reglas propias de un lenguage.

Redes Neuronales

Algoritmos como Hidden Markov Models (HMM), Long Short Term Memory (LSTM), y Redes Neuronales Recurrentes permiten calcular la probabilidad de recordar la palabra PERU, sabiendo que la letra inicial fue ‘P’, el siguiente fue ‘E’, y la letra actual a predecir debería ser ‘R’, con una alta probabilidad y baja incertidumbre. alt

Generando la palabra P-E-R-U.

La belleza de estos algoritmos es que tienen una memoria interna que apunta a estados de memoria pasados, aprendiendo de esta forma distintas combinaciones de letras de forma no arbitraria.

Generando Noticias de El Comercio — Perú

Junto con mi amiga Laura Cruz, quisimos aprender distintas noticias políticas del diario El Comercio desde el año 2006, para ver si era posible generar noticias nuevas e inéditas. Estos son nuestros hallazgos:

— Descargamos todas las noticias de la sección Política directamente de su pagina web (http://elcomercio.pe/política) y las guardamos en un archivo de texto. El documento tienen 2,939,520 palabras, 9,493 noticias, y 18 MB de información. Escogemos Política porque sus temas y personajes son más recurrentes que otras secciones como Mundo o Ciencia, permitiendo así aprender patrones más comunes y confiables.

— Entrenamos una Red Neuronal Recurrente considerando secuencias de 200 caracteres dentro de cada noticias . El algoritmo estuvo siendo entrenado durante 5 días y revisando constantemente si el valor de perplejidad se reducía con el tiempo.

— Probamos la predicción del modelo generando automáticamente distintas noticias políticas. El estado inicial del modelo es el único parámetro de entrada para generar la secuencia, ejemplos de estados iniciales pueden ser “El señor presidente”, o “La congresista”, después de esto el algoritmo decidirá automáticamente (letra por letra) la siguiente secuencia de letras que formarán una noticia.

Ejemplos

Aquí se encuentran algunos ejemplos de las noticias generadas.

Predicción #1:

Lavado de activos

Jorge (@ Política_ECpe) abril 13, 2015
El fiscal de la Nación decidió estar presente en el proceso por el presunto delito de lavado de activos.
El fiscal señaló la desconfianza por el accionar del ministro de Justicia ante la Comisión de Ética Parlamentaria. “Yo creo que la denuncia se le ha hecho una comisión imparcial”. Lee el informe completo en la edición impresa de El Comercio.

Predicción #2:

Defendiendo al poder judicial

Julio (@julionellena) pic.twitter.com/UI8ZmdUhIh — Política El Comercio (@ Politica_ECpe) junio 19, 2015
Mario Vargas Llosa, lamentó que el Gobierno político de la Corte Suprema sea investigado en el Perú.
“Es una posición personal, las personas tienen que ser jurídicamente responsables y en posterior caso inhabilitadas”, dijo en respuesta a Villa Stain.
“Con el archivamiento de estas salas privadas no solo se afecta el proceso de institucionalidad de la institución, sino que se le apela al señor Humala para que informe a la población la lista de proyectos anti corrupción”.

Predicción #3:

Procesos de investigación en el congreso

Ana (@JVillaSterara) enero 14, 2014
La presidenta del congreso y el ministro Pedro Cateriano, justificaron las denuncias del congreso por parte de Jorge del Castillo.
A través de su cuenta de Twitter, el ministro del interior, Daniel Urresti afirmó que su agrupación no podía ser enviado a la sobre exposición de la comisión investigadora de la presidencia del Congreso.
“Yo creo que la presidenta del Congreso presentó un proceso de investigación no tanto para acreditar a una organización, sino para investigar las finanzas de la cuenta de seguridad de militantes. Hay que proteger a un funcionario interno que admite que se negó a tener políticas incorrectas en contra de la gestión de ley”.

Predicción #4:

Consulta popular

Josero (@jlsaldanar) enero 19, 2014
El presidente de la República, Ollanta Humala dijo que el asesor presidencial no ha sido parte de la presidencia de la Comisión de Constitución del Congreso, en el caso de la congresista de Gana Perú, el presidente Ollanta Humala dijo a la comisión investigadora no está desacreditando el pedido de la presidencia del Congreso.
“Que el país determine el debate para que este sea un proceso a la altura de una consulta popular. Con seguridad se han descartado a la señora Heredia y el presidente del Congreso”.

Interesantemente, la ubicación de comas, el estilo de escritura, las tíldes, la presencia del autor de la noticia, su cuenta de Twitter, y el estilo de empezar y terminar una noticia fueron aprendidos correctamente y en muchos casos podrían hasta sugerir/corregir el estilo o formato de un redactor al momento de escribir una noticia.

Mas no todas las noticias fueron perfectas y el principal error consiste en no mantener el mismo tópico durante la noticia (si se habla de un congresista en la primera oración, se debería seguir haciendo referencia a esa persona en las oraciones siguientes). La investigación actual de Inteligencia Artificial está precisamente tratando de resolver este problema, por ejemplo aprendiendo distintas representaciones del texto simultaneamente a nivel de palabra, oración, parrafo, y noticia.

Dr. Omar U. Florez

http://www.linkedin.com/in/omar-u-florez-35338015

El Comercio

Blog

Artificialmente Inteligente