Analizando datos de TV
Proyecto de la carrera de Ciencia de Datos - DataCamp
Presentado por: Daniel Carmona
Tabla de contenido
- TV, programas de medio tiempo y el gran juego
- Tomando nota de los problemas del conjunto de datos
- Distribución de puntos combinados
- Distribución de diferencia de puntos
- ¿Las grandes diferencias de puntos se traducen en espectadores perdidos?
- ¿La audiencia y la industria publicitaria a lo largo del tiempo?
- Los espectáculos de medio tiempo no siempre fueron tan buenos
- ¿Quién tiene más apariciones en programas de medio tiempo?
- ¿Quién interpretó más canciones en un espectáculo de medio tiempo?
1. TV, programas de medio tiempo y el gran juego
Te guste o no el fútbol, el Super Bowl es un espectáculo. Hay algo para todos en tu fiesta del Super Bowl. Drama en forma de reventones, reapariciones y controversia para el fanático de los deportes. Están los anuncios ridículamente caros, algunos divertidos, otros desgarradores, estimulantes y extraños. Los espectáculos de medio tiempo con los músicos más importantes del mundo, a veces montados en gigantes tigres mecánicos o saltando desde el techo del estadio. Es un espectáculo, cariño. Y en este cuaderno, descubriremos cómo algunos de los elementos de este programa interactúan entre sí. Después de explorar y limpiar un poco nuestros datos, responderemos preguntas como:
- ¿Cuáles son los resultados más extremos del juego?
- ¿Cómo afecta el juego a la audiencia televisiva?
- ¿Cómo han evolucionado la audiencia, las calificaciones de televisión y el costo de los anuncios a lo largo del tiempo?
- ¿Quiénes son los músicos más prolíficos en términos de actuaciones en espectáculos de medio tiempo?
import
pandas as
pd
super_bowls = pd.read_csv('datasets/super_bowls.csv')
tv = pd.read_csv('datasets/tv.csv')
halftime_musicians = pd.read_csv('datasets/halftime_musicians.csv')
display(super_bowls.head(2))
display(tv.head(2))
display(halftime_musicians.head(3))
super_bowls.head(2)
# | date | super_bowl | venue | city | state | attendance | team_winner | winning_pts | qb_winner_1 | qb_winner_2 | coach_winner | team_loser | losing_pts | qb_loser_1 | qb_loser_2 | coach_loser | combined_pts | difference_pts |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 2018-02-04 | 52 | U.S. Bank Stadium | Minneapolis | Minnesota | 67612 | Philadelphia Eagles | 41 | Nick Foles | NaN | Doug Pederson | New England Patriots | 33 | Tom Brady | NaN | Bill Belichick | 74 | 8 |
1 | 2017-02-05 | 51 | NRG Stadium | Houston | Texas | 70807 | New England Patriots | 34 | Tom Brady | NaN | Bill Belichick | Atlanta Falcons | 28 | Matt Ryan | NaN | Dan Quinn | 62 | 6 |
tv.head(2)
# | super_bowl | network | avg_us_viewers | total_us_viewers | rating_household | share_household | rating_18_49 | share_18_49 | ad_cost |
---|---|---|---|---|---|---|---|---|---|
0 | 52 | NBC | 103390000 | NaN | 43.1 | 68 | 33.4 | 78.0 | 5000000 |
1 | 51 | Fox | 111319000 | 172000000.0 | 45.3 | 73 | 37.1 | 79.0 | 5000000 |
halftime_musicians.head(3)
# | super_bowl | musician | num_songs |
---|---|---|---|
0 | 52 | Justin Timberlake | 11.0 |
1 | 52 | University of Minnesota Marching Band | 1.0 |
2 | 51 | Lady Gaga | 7.0 |
2. Tomando nota de los problemas del conjunto de datos
Para los datos del juego del Super Bowl, podemos ver que el conjunto de datos parece completo, excepto
por los valores faltantes en las columnas del mariscal de campo de respaldo (qb_winner_2 y qb_loser_2), lo cual tiene
sentido dado que la mayoría de los QB iniciales en el Super Bowl (qb_winner_1 y qb_loser_1) juegan todo el
juego.
De la inspección visual de la televisión y los datos de los músicos del medio tiempo, solo se muestra un
valor faltante, pero tengo la corazonada de que hay más. El Super Bowl se remonta a 1967, y las columnas
más granulares (por ejemplo, la cantidad de canciones para los músicos del medio tiempo) probablemente no
se rastrearon de manera confiable a lo largo del tiempo. Wikipedia es genial pero no perfecta.
Una inspección de la salida .info () para tv y halftime_musicians nos muestra que hay varias columnas con valores nulos.
<class 'pandas.core.frame.DataFrame'> RangeIndex: 53 entries, 0 to 52 Data columns (total 9 columns): super_bowl 53 non-null int64 network 53 non-null object avg_us_viewers 53 non-null int64 total_us_viewers 15 non-null float64 rating_household 53 non-null float64 share_household 53 non-null int64 rating_18_49 15 non-null float64 share_18_49 6 non-null float64 ad_cost 53 non-null int64 dtypes: float64(4), int64(4), object(1) memory usage: 3.8+ KB <class 'pandas.core.frame.DataFrame'> RangeIndex: 134 entries, 0 to 133 Data columns (total 3 columns): super_bowl 134 non-null int64 musician 134 non-null object num_songs 88 non-null float64 dtypes: float64(1), int64(1), object(1) memory usage: 3.2+ KB
3. Distribución de puntos combinados
Para los datos de TV, las siguientes columnas tienen valores perdidos y muchos de ellos:
- total_us_viewers(cantidad de espectadores de EE. UU. que vieron al menos una parte de la transmisión)
- rating_18_49(porcentaje promedio de adultos de EE. UU. de 18 a 49 años que viven en un hogar con un televisor que estaban viendo toda la transmisión)
- share_18_49(porcentaje promedio de adultos de EE. UU. de 18 a 49 años que viven en un hogar con un televisor en uso y que estaban viendo toda la transmisión)
Para los datos de músicos del medio tiempo, faltan números de canciones interpretadas (num_songs) para aproximadamente un tercio de las actuaciones.
Hay muchas razones potenciales para estos valores perdidos. ¿Se rastreó alguna vez los datos? ¿Se perdió
en la historia? ¿Vale la pena el esfuerzo de investigación para hacer que todos estos datos? Quizás. Ver
todos los espectáculos de medio tiempo del Super Bowl para obtener el recuento de canciones sería muy
divertido. ¡Pero no tenemos tiempo para hacer ese tipo de cosas ahora! Tomemos nota de dónde el conjunto
de datos no es perfecto y comencemos a descubrir algunas ideas.
Comencemos mirando los puntos combinados para cada Super Bowl visualizando la distribución. Señalemos
también los Super Bowls con las puntuaciones más altas y más bajas.
4. Distribución de diferencia de puntos
La mayoría de las puntuaciones combinadas rondan los 40-50 puntos, y los extremos se encuentran
aproximadamente a la misma distancia en direcciones opuestas. Subiendo a los puntajes combinados más altos
en 74 y 75, encontramos dos juegos con actuaciones dominantes de mariscales de campo. Uno incluso sucedió
recientemente en el Super Bowl LII de 2018, donde los Patriots de Tom Brady perdieron ante los perdedores
de Nick Foles, Eagles 41-33, para una puntuación combinada de 74.
Bajando a los puntajes combinados más bajos, tenemos el Super Bowl III y VII, que contó con defensas duras
que dominaron. También tenemos el Super Bowl IX en Nueva Orleans en 1975, cuya puntuación de 16-6 se puede
atribuir a las inclemencias del tiempo. El campo estaba resbaladizo por la lluvia durante la noche, y
hacía un frío de 46 ° F (8 ° C), lo que dificultaba que los Steelers y Vikings hicieran mucho a la
ofensiva. Este fue el segundo Super Bowl más frío de la historia y el último que se jugó en un clima
inclemente durante más de 30 años. La NFL se dio cuenta de que a la gente le gustan los puntos,
supongo.
ACTUALIZACIÓN: En el Super Bowl LIII en 2019, los Patriots y los Rams rompieron el récord del Super Bowl
con la puntuación más baja con una puntuación combinada de 16 puntos (13-3 para los Patriots).
Echemos un vistazo a la diferencia de puntos ahora.
5. ¿Las grandes diferencias de puntos se traducen en espectadores perdidos?
La gran mayoría de los Super Bowls son juegos cerrados. Tiene sentido. Es probable que ambos equipos se
lo merezcan si han llegado tan lejos. El juego más reñido fue cuando los Buffalo Bills perdieron ante los
New York Giants por 1 punto en 1991, que fue mejor recordado por el intento de gol de campo fallido de
Scott Norwood en el último segundo que se fue desviado a la derecha, dando inicio a cuatro derrotas
seguidas en el Super Bowl . Pobre Scott. La mayor discrepancia de puntos fue de 45 puntos (!) Donde el
miembro del Salón de la Fama Joe Montana llevó a los 49ers de San Francisco a la victoria en 1990, un año
antes del juego más cerrado de la historia.
Recuerdo ver a los Seahawks aplastar a los Broncos por 35 puntos (43-8) en 2014, lo que en mi opinión fue
una experiencia aburrida. El juego nunca estuvo realmente cerrado. Estoy bastante seguro de que cambiamos
de canal al final del tercer trimestre. Combinemos los datos de nuestro juego y la televisión para ver si
se trata de un fenómeno universal. ¿Las grandes diferencias de puntos se traducen en espectadores
perdidos? Podemos graficar la participación de los hogares (porcentaje promedio de hogares de EE. UU. Con
un televisor en uso que estuvieron viendo toda la transmisión) versus la diferencia de puntos para
averiguarlo.
import
seaborn as
sns
sns.regplot(x=games_tv['difference_pts'], y=games_tv['share_household'], data=games_tv)
6. ¿La audiencia y la industria publicitaria a lo largo del tiempo?
La línea de regresión con pendiente descendente y el intervalo de confianza del 95% para esa regresión
sugieren que abandonar el juego si es un reventón es común. Aunque coincide con nuestra intuición, debemos
tomarlo con un grano de sal porque la relación lineal en los datos es débil debido a nuestro pequeño
tamaño de muestra de 52 juegos.
Sin embargo, independientemente del puntaje, apuesto a que la mayoría de la gente se mantiene firme en el
espectáculo del medio tiempo, lo cual es una buena noticia para las cadenas de televisión y los
anunciantes. Un anuncio de 30 segundos cuesta ahora unos 5 millones de dólares, pero ¿siempre ha sido así?
¿Y cómo ha evolucionado el número de espectadores y las calificaciones de los hogares junto con el costo
de los anuncios? Podemos averiguarlo usando gráficos de líneas que comparten un eje x del "Super Bowl".
7. Los espectáculos de medio tiempo no siempre fueron tan buenos
Podemos ver que los espectadores aumentaron antes que los costos publicitarios. ¿Quizás las redes no eran
muy conocedoras de los datos y tardaban en reaccionar? Tiene sentido ya que DataCamp no existía en ese
entonces.
Otra hipótesis: ¿quizás los espectáculos de entretiempo no eran tan buenos en los primeros años? El
espectáculo moderno del Super Bowl tiene mucho que ver con el prestigio cultural de los grandes actos del
medio tiempo. Bajé por un agujero de conejo de YouTube y resulta que los viejos no estaban a la altura de
los estándares actuales. Algunos infractores:
- Super Bowl XXVI en 1992: un rap de Frosty The Snowman interpretado por niños.
- Super Bowl XXIII en 1989: un imitador de Elvis que hizo trucos de magia y ni siquiera cantó una canción de Elvis.
- Super Bowl XXI en 1987: ponis bailarines de claqué. (Está bien, eso es bastante impresionante en realidad).
Resulta que la actuación de Michael Jackson en el Super Bowl XXVII, uno de los eventos más vistos en la historia de la televisión estadounidense, fue cuando la NFL se dio cuenta del valor del tiempo de transmisión del Super Bowl y decidió que necesitaban firmar actos de renombre a partir de ese momento. Los espectáculos de medio tiempo antes de MJ no fueron tan impresionantes, lo que podemos ver al filtrar nuestros datos de halftime_musician.
# | super_bowl | musician | num_songs |
---|---|---|---|
1 | 27 | Michael Jackson | 5.0 |
2 | 26 | Gloria Estefan | 2.0 |
3 | 26 | University of Minnesota Marching Band | NaN |
4 | 25 | New Kids on the Block | 2.0 |
5 | 24 | Pete Fountain | 1.0 |
6 | 24 | Doug Kershaw | 1.0 |
7 | 24 | Irma Thomas | 1.0 |
8 | 24 | Pride of Nicholls Marching Band | NaN |
9 | 24 | The Human Jukebox | NaN |
10 | 24 | Pride of Acadiana | NaN |
... | ... | ... | ... |
8. ¿Quién tiene más apariciones en programas de medio tiempo?
Muchas bandas de música. El clarinetista de jazz estadounidense Pete Fountain. Miss Texas 1973 tocando un
violín. Nada en contra de esos artistas, simplemente no son Beyoncé. Para ser justos, nadie lo es.
Veamos a todos los músicos que han hecho más de un espectáculo de medio tiempo, incluido el recuento de su
actuación.
# | musician | super_bowl |
---|---|---|
28 | Grambling State University Tiger Marching Band | 6 |
104 | Up with People | 4 |
1 | Al Hirt | 4 |
83 | The Human Jukebox | 3 |
76 | Spirit of Troy | 2 |
... | ... | ... |
37 | Katy Perry | 1 |
35 | Judy Mallett | 1 |
34 | Jessica Simpson | 1 |
33 | Janet Jackson | 1 |
110 | will.i.am | 1 |
9. ¿Quién interpretó más canciones en un espectáculo de medio tiempo?
La mundialmente famosa Tiger Marching Band de la Universidad Estatal de Grambling se lleva la corona con
seis apariciones. Beyoncé, Justin Timberlake, Nelly y Bruno Mars son los únicos músicos posteriores al año
2000 con múltiples apariciones (dos cada uno).
De nuestras inspecciones anteriores, la columna num_songs tiene muchos valores faltantes:
- Muchas de las bandas de música no tienen entradas num_songs.
- Para las bandas que no marchan, los datos faltantes comienzan a ocurrir en el Super Bowl XX.
Filtremos las bandas de música filtrando a los músicos con la palabra "Marching"" en ellos y la palabra "Spirit" (una convención de nombres común para las bandas de música es "Espíritu de [algo]"). Luego filtraremos por Super Bowls después del Super Bowl XX para abordar el problema de los datos faltantes, luego veamos quién tiene la mayor cantidad de canciones.
# | super_bowl | musician | num_songs |
---|---|---|---|
0 | 52 | Justin Timberlake | 11.0 |
70 | 30 | Diana Ross | 10.0 |
10 | 49 | Katy Perry | 8.0 |
2 | 51 | Lady Gaga | 7.0 |
90 | 23 | Elvis Presto | 7.0 |
33 | 41 | Prince | 7.0 |
16 | 47 | Beyoncé | 7.0 |
14 | 48 | Bruno Mars | 6.0 |
3 | 50 | Coldplay | 6.0 |
25 | 45 | The Black Eyed Peas | 6.0 |
20 | 46 | Madonna | 5.0 |
30 | 44 | The Who | 5.0 |
80 | 27 | Michael Jackson | 5.0 |
64 | 32 | The Temptations | 4.0 |
36 | 39 | Paul McCartney | 4.0 |