Creando un Algoritmo de Inteligencia Artificial para Predecir el Campeón de la Copa Mundial de la FIFA 2018
En tiempos de big data, data science, y algoritmos inteligentes, pocas veces ponemos en valor el poder de la percepción humana. Cada uno de nosotros tiene un conjunto de algoritmos inteligentes corriendo todo el tiempo en la mente. Primero nuestros sentidos perciben la realidad y después el cerebro transforma intensamente esta señal hasta encontrar patrones frecuentes dentro de ella. Dichos patrones sirven para entender nuestro contexto, anticipar futuros eventos, y en general, ayudan a tomar decisiones rápidas.
Acompáñeme a explotar este concepto, entrenar un algoritmo de Inteligencia Artificial, y predecir que sucederá en la Copa Mundial FIFA 2018. Este ejercicio mental, aunque especulativo por ahora, es cada vez una parte importante dentro del futbol y llegara más adelante hasta el punto de:
- Anticipar que jugador tendrá un buen partido
- Determinar cuan idóneo es un determinado arbitro, e incluso
- Asistir al entrenador en decidir el mejor remplazo de un jugador y en que momento del partido realizarlo este cambio con determinado intervalo de confianza
La matemática será parecida a la que explicaremos aquí y la pregunta no es si será posible hacerlo, sino cuando estará disponible en el mercado.
En este post hablaremos primero de las predicciones y sus resultados y luego en más detalle de la técnica y matemática detrás de su implementación.
A manera de resumen, es probable que Brasil gane la copa ante Alemania en un partido muy reñido en el Luzhniki Stadium en Moscow (Rusia), el 15 de Julio del 2018. Francia obtiene un meritorio tercer puesto, sentando las bases para formar una generación dorada de futbolistas que le otorgaran otro lugar de privilegio en Qatar 2022.
Las fuentes de percepción humana
Para la Inteligencia Artificial, las casas de apuestas son una fuente fascinante de información. La información asociada a cada equipo no sólo esta generada por seres humanos que tienen un incentivo monetario (su propia apuesta) para que sea lo más cercano posible a la realidad, sino que además agrupa la percepción de mucha gente que está informada del tema. En la vida real es muy difícil (o muy caro) generar información que aproxime la realidad, que este tan bien cuidada, y que venga de muchas personas. A menudo se le llama Inteligencia Comunitaria (Community Intelligence). Esta imagen ilustra la recopilación de las principales casas de apuestas a nivel mundial acerca de quien ganará la copa del mundo.
El Ranking FIFA es otra fuente de información que contiene menos percepción humana, pero más estadísticas concretas en su siguiente nivel de detalle. Este ranking está formada por puntos otorgados a los equipos a través de partidos jugados desde el 2015. Aquí el último ranking oficial antes de que empiece el torneo (13 de Junio, 2018)
¿Que sucederá?
La fase inicial del torneo
La primera etapa es relativamente fácil para la mayoría de cabezas de serie. En el grupo A, Uruguay pasa sin problemas y comandando su grupo dejando a un aguerrido Egipto. El grupo B tiene una alta probabilidad de un empate entre Portugal y España, mas eso no hace peligrar el pase de ambos a la siguiente ronda. Polonia, Bélgica, y Croacia se perfilan como equipos sorpresa en el torneo y pasan tambien a la siguiente ronda.
Nuestro modelo matemático nos otorga dos casos muy interesantes, por su nivel de incertidumbre, dentro los 48 partidos jugados en esta etapa y que además pueden definir el futuro de la copa. Serbia-Suiza y Perú-Dinamarca.
Serbia tiene una gran probabilidad de empatar con Suiza, tanto el empate y la victoria le permiten el pase a la segunda ronda, la derrota favorece tremendamente a Suiza. No ponga su dinero en este grupo o en este partido!
Un punto aparte merece el grupo C conformado por Perú, Francia, Dinamarca, y Australia. El modelo predice una alta probabilidad de empate entre Dinamarca y Perú, dando ligera ventaja a Dinamarca. Si Perú quiere clasificar a la siguiente ronda, no debe perder con Dinamarca en ningún caso. Puede hasta empatar y tratar de mantener su valla invicta ante Francia y Australia para asegurar su pase. Empatando ante Francia solo hace las cosas más emocionantes y aunque improbable, nos ayudaría tremendamente porque obliga a Francia a ir con todo ante Dinamarca. En el caso promedio, Francia debería pasar a la siguiente fase sin contratiempos y en primer lugar.
El resultado de todos los partidos otorga la siguiente lista de equipos que pasan a la siguiente ronda. En azul se señala el primero de cada grupo y en rojo el segundo de cada grupo.
Segunda fase del torneo
Las cosas se ponen más equilibradas ahora y las predicciones toman mayor incertidumbre, al rededor de 50% en varios casos, como se ilustra a continuación.
Octavos de final: Francia demuestra su etiqueta de candidato a campeón al ganarle a Croacia. Brasil hace lo mismo ante México. Rusia no es rival para detener a España, que también se perfila como un gran candidato a pesar de tener un nuevo entrenador durante la competencia, Fernando Hierro. Bélgica demuestra ser definitivamente la sorpresa de este torneo al eliminar a Colombia. Y Alemania e Inglaterra pasan a la siguiente etapa después de dos partidazos.
Cuartos de final: Francia le gana a Uruguay y despide a una camada de jugadores excepcional, un pase a cuartos de final es una despedida honorable para tan buen equipo. Brasil sufre más de la cuenta ante Bélgica, que vende cara su derrota. Y España-Argentina y Alemania-Inglaterra son partidos de pronostico reservado. Nuestro modelo prácticamente da un empate en ambos casos, mas deduce que España y Alemania pasan a la siguiente ronda.
Si hay un partido donde Messi debe aparecer en todo el torneo es ante España en cuartos de final, ante jugadores que conoce, y ante un equipo que no absorbe todavía el cambio de entrenador.
Semi-finales: La categoría de Brasil y Alemania y los problemas defensivos de Francia y España permiten tener una final soñada.
Gran-Final: Tremendo partido en Moscú. Aún se recuerda el 7–1 de Rio, pero esta vez la situación es diferente. El equipo brasileño ha aprendido a convivir con la adversidad y su principal estrella ahora si está presente — Neymar Jr. Brasil ha soñado este momento por 4 años y finalmente tiene la oportunidad de borrar una vergüenza que no le correspondía. Por estrecho margen y en gran nivel, Brasil es el nuevo campeón de la Copa Mundial FIFA 2018. Francia obtiene un honorable tercer puesto, que buen medio campo tienen!
Explicación en detalle
Ya que tenemos dos fuentes de percepción humana: las apuestas y el ranking FIFA, ¿que hacemos con ellas? Pues, las alineamos de forma no-lineal y dejamos que la matemática se encargue de encontrar la función que permita que ambas fuentes de información se reconcilien.
Una de las técnicas más estables para que esto suceda recibe el nombre de Support Vector Regression y tiene una interpretación muy intuitiva:
Cada casa de apuestas es un intento por aproximar la realidad. Necesitamos encontrar un espacio matemático en el cual la suma de esas interpretaciones basadas en apuestas se asemejen lo más posible al ranking FIFA.
La función de transformación entre el espacio original y el que necesitamos estimar se encuentra en la función h(). El peso específico de cada una de estas funciones se expresa en los valores de la variable \theta, el cual asigna una valor más alto si determinada casa de apuesta parece contener más información.
Esta alineación retornará un error al tratar de comparar el ranking predecido y el ranking real de la FIFA. Tal valor numero es importante porque le dice al algoritmo cual es la dirección en la que debe cambiar la definición de la función h() y sus coeficientes \theta. Además, le decimos que por lo menos ambos valores estén separados por un margen e.
Básicamente, iteramos este modelo tratando de minimizar incrementalmente el error por cada predicción de los 32 equipos.
El resultado es un modelo matemático que está entrado para generar un ranking basado solamente en percepción humana, la cual está generada por personas que desarrollan una estimación educada y utilizan distintas métricas para interpretar la realidad a su manera.
Esto lo asemeja a un algoritmo que combina la percepción y sentido común de varios expertos humanos que intentan entender la realidad con un incentivo monetario. En el ranking, mientras el valor sea menor (log-likelihood), mayor es la probabilidad de ganar la Copa del Mundo.