Saltar al contenido

Spark vs Pandas, parte 1 – Pandas

septiembre 23, 2021
0TuxAJD ZZsO1i7lV

Spark vs Pandas, parte 1 – Pandas

Por qué Pandas es la navaja suiza para datos tabulares.

Kaya Kupferschmidt

21 de oct de 2020·11 min de lectura

Foto de billow926 en Unsplash

Recientemente, hubo un buen artículo en Medium que explica por qué los científicos de datos deberían comenzar a usar Spark y Scala en lugar de Pandas. Aunque el artículo contiene muchos puntos válidos, propongo una mirada más diferenciada, que también se refleja en mi trabajo personal donde utilizo ambos, pero para diferentes tipos de tareas.

Siempre que di un entrenamiento para PySpark a Data SCPara los científicos, siempre me preguntaron si deberían dejar de usar Pandas a partir de ahora por completo, o cuándo preferir cuál de los dos frameworks Pandas y Spark. Para responder a esta pregunta, debe comprender las fortalezas y limitaciones de cada herramienta y debe comprender que ambos marcos se han desarrollado para resolver problemas similares, pero cada uno con un enfoque diferente.

Esta es la primera parte de una pequeña serie para comparar Spark y Pandas.

  • Spark vs Pandas, parte 1 – Pandas
  • Spark vs Pandas, parte 2 – Spark

Que esperar

Presentaré ambos frameworks Pandas y Spark y discutiré sus fortalezas y debilidades para sentar las bases para una comparación justa. Originalmente quería escribir un solo artículo sobre este tema, pero siguió creciendo hasta que decidí dividirlo.

No concluiré con que A es mejor que B, pero en cambio le daré algunas ideas sobre el enfoque y las limitaciones de cada marco. Finalmente concluiré con algunos consejos sobre cómo elegir entre ambas tecnologías para implementar una tarea determinada.

Este primer artículo le dará una descripción general sobre Pandas, con sus fortalezas y debilidades y sus puntos de venta únicos.

close