Reto 2: Análisis Exploratorio de Datos
Bienvenidos al segundo reto de la asignatura Aplicaciones Big Data IV: Introducción a Black Ops.
El objetivo de esta prueba es demostrar los conocimientos adquiridos en el análisis exploratorio de los
datos (EDA).
Para ello, exploraremos un dataset que contiene estadísticas sobre jugadores de fútbol en el top de las 5 primeras
ligas en el año 2023/24. Dicha tabla ya ha sido ingestada y preprocesada de antemano, con lo cual nuestro objetivo
es extraer información útil para poder tomar decisiones fundamentadas.
Por si resulta de utilidad, podéis consultar el Notebook de práctica de EDA con PySpark
en el siguiente gate.io login. Ahí se cubren con detalle todos los aspectos
necesarios para
la consecución de este ejercicio.
Instrucciones:
- Descarga el notebook del reto aquí. Lo más recomendable,
aunque no es obligatorio, es trabajar en una plataforma Cloud como Google Colab, puesto que
ya contiene un entorno adecuado de Linux para el desarrollo.
En tal caso, debes importar dicho notebook en la plataforma Colab (enlace).
- Descarga el fichero config.share, que es la llave necesaria
para poder acceder al Dataset, que está alojado en la nube. Sitúa este fichero en una ruta que tengas
controlada, preferiblemente en la misma ubicación en que se encuentra el Notebook actual.
- El notebook está estructurado en diferentes secciones: las primeras sirven para importar los
módulos necesarios, y no hace falta editar esas celdas.
Las secciones a rellenar comienzan a partir del Apartado 1.
- Se permite el uso de herramientas como ChatGPT, Claude, Gemini, etc. No obstante, es preferible
preguntar las dudas
al profesor, ya que las respuestas devueltas por la IA Generativa no siempre son realistas o
adecuadas
al caso concreto que nos ocupa, y utilizadas sin supervisión experta
pueden acabar ocasionando más confusión que aprendizaje.
- Al finalizar, descarga el Notebook con el que has trabajado desde Google Colab y súbelo al Canvas
(enlace).
Detalles del Dataset
Este dataset contiene datos detallados de los futbolistas en las 5 ligas principales durante la
temporada 2023/2024. Proporciona estadísticas individuales que abarcan diferentes aspectos del rendimiento
de los jugadores, lo que permite analizar y comparar su desempeño en el campo.
Descripción de los Campos
- Rk: Ranking o posición del jugador en el listado.
- Player: Nombre del jugador.
- Nation: Nacionalidad del jugador.
- Pos: Posición del jugador (por ejemplo, delantero, mediocampista, defensor).
- Squad: Equipo al que pertenece el jugador.
- Comp: Competición en la que participa el jugador (por ejemplo, Premier League,
Bundesliga).
- Age: Edad del jugador.
- Born: Año de nacimiento del jugador.
- MP: Número total de partidos jugados por el jugador.
- Starts: Número de partidos en los que el jugador fue titular.
- Min: Minutos totales jugados por el jugador.
- 90s: Equivalente en partidos completos de 90 minutos jugados (por ejemplo, 1.5 equivale
a 135 minutos).
- Gls: Número total de goles anotados por el jugador.
- Ast: Número total de asistencias realizadas por el jugador.
- G+A: Total de goles y asistencias combinados.
- G-PK: Goles anotados excluyendo penaltis.
- PK: Número de goles de penalti anotados por el jugador.
- PKatt: Número de penaltis intentados por el jugador.
- CrdY: Número de tarjetas amarillas recibidas por el jugador.
- CrdR: Número de tarjetas rojas recibidas por el jugador.
- xG: Goles esperados; número esperado de goles según los disparos del jugador.
- npxG: Goles esperados sin incluir penaltis.
- xAG: Asistencias esperadas; número esperado de asistencias según los pases del jugador.
- npxG+xAG: Suma de goles esperados sin penaltis y asistencias esperadas.
- PrgC: Conducciones progresivas; número de veces que el jugador llevó el balón hacia
adelante.
- PrgP: Pases progresivos; número de pases que movieron el balón hacia adelante.
- PrgR: Carreras progresivas; número de veces que el jugador corrió hacia adelante con el
balón.
- Gls_90: Goles por cada 90 minutos jugados.
- Ast_90: Asistencias por cada 90 minutos jugados.
- G+A_90: Goles y asistencias combinados por cada 90 minutos jugados.
- G-PK_90: Goles sin penaltis por cada 90 minutos jugados.
- G+A-PK_90: Goles y asistencias sin penaltis por cada 90 minutos jugados.
- xG_90: Goles esperados por cada 90 minutos jugados.
- xAG_90: Asistencias esperadas por cada 90 minutos jugados.
- xG+xAG_90: Goles esperados y asistencias esperadas combinados por cada 90 minutos
jugados.
- npxG_90: Goles esperados sin penaltis por cada 90 minutos jugados.
- npxG+xAG_90: Goles esperados sin penaltis y asistencias esperadas combinados por cada
90 minutos jugados.
Resultados de los gráficos pedidos en la prueba
Distribución de la edad de los jugadores
Media de edad por equipo según la posición
Acumulación de tarjetas rojas por equipo, top 5