Suchen

Definition Was ist Pandas?

| Autor / Redakteur: Dipl.-Ing. (FH) Stefan Luber / Nico Litzel

Pandas – Python Data Analysis Library – ist eine Bibliothek für Python. Sie erfordert NumPy und lässt sich für die Verwaltung und Analyse von Daten einsetzen. Die Bibliothek kann Daten verschiedener Formate einlesen. Es stehen Funktionen für die Datenbereinigung, für das Aggregieren oder für das Transformieren der Daten und für andere Aufgaben zur Verfügung. Ihre Stärken hat die Pandas Library in der Auswertung und der Bearbeitung tabellarischer Daten.

Firma zum Thema

(Bild: © aga7ta - stock.adobe.com)

Pandas leitet sich vom Begriff „Panel Data“, eine Bezeichnung für strukturierte, multidimensionale Daten, ab. Der Name Pandas steht für die „Python Data Analysis Library“. Es handelt sich um eine Programmbibliothek für die Programmiersprache Python. Die Bibliothek ist für die Analyse, das Modellieren und die Verwaltung von Daten vorgesehen. Ihre Stärke hat die Library in der Bearbeitung und Auswertung von tabellarischen Daten und Zeitreihen. Pandas stellt die benötigten Funktionen zum Einlesen, Bearbeiten, Manipulieren, Transformieren, Aggregieren, Bereinigen und Mergen der Daten zur Verfügung.

Für das Einlesen der Daten werden Datenformate wie CSV, Excel-Dateien, JSON, SQL und mehr unterstützt. Die Programmbibliothek ist einfach zu verwenden, bietet eine hohe Performance und ist zusammen mit weiteren Libraries wie SciPy und Matplotlib nutzbar. Die Python-Bibliothek NumPy ist eine Voraussetzung für die Installation und Verwendung von Pandas. So lassen sich beispielsweise im Zusammenspiel mit Matplotlib Daten visualisieren.

Entwickelt wurde Pandas im Jahr 2008 von Wes McKinney. 2009 wurde die Bibliothek Open Source. Sie steht heute unter 3-Klausel-BSD-Lizenz. Seit 2015 ist Pandas ein NumFOCUS gesponsertes Projekt. Die aktuelle Version der plattformunabhängigen Programmbibliothek ist 1.1.0rc0 (Stand Juli 2020). Installieren lässt sie sich über Anaconda oder pip.

Objekte und Funktionen von Pandas

Für das Verwalten, Bearbeiten, Manipulieren und Auswerten der Daten definiert die Pandas-Bibliothek drei verschiedene Arten von Objekten. Bei einer sogenannten „Series“ handelt es sich um eine eindimensionale Liste. Sie lässt sich für in Listenform vorliegende Daten oder für Zeitreihen verwenden.

„Dataframes“ sind zweidimensionale Daten. Sie bestehen aus Spalten und Reihen einer Tabelle. Die Spalten und Reihen können als Series-Objekte behandelt werden. Ein „Panel“ besteht aus dreidimensionalen Daten-Sets. Sie lassen sich in mehrere Ebenen zweidimensionaler Tabellen bestehend aus Dataframes aufteilen.

Auf Basis der verschiedenen Objekte stehen zahlreiche Funktionen und Tools zur Bearbeitung und Verwaltung der Daten zur Verfügung. Unter anderem sind dies folgende Funktionen:

  • Indexierung der Daten
  • Tools zum Einlesen der Daten aus verschiedenen Datenformaten
  • Tools zur Datenbereinigung und Datenanpassung
  • Aufteilung großer Datenmengen
  • Manipulation der Datenstrukturen wie beispielsweise Einfügen oder Löschen von Tabellenspalten
  • Aggregation der Daten
  • Transformation der Daten
  • Merging der Daten
  • Tools zur Verarbeitung und Anpassung von Zeitreihen
  • Auswahl der Daten entsprechend definierbarer Kriterien
  • Behandlung fehlender Daten
  • Filterfunktionen für Daten

Einsatzbereiche von Pandas

Pandas ist weit verbreitet und kommt für zahlreiche unterschiedliche Anwendungsbereiche zum Einsatz. Sowohl im akademischen als auch im kommerziellen Umfeld wird die Programmbibliothek rege genutzt. Typische Einsatzbereiche sind Finanzanalysen, wissenschaftliche Auswertungen, Statistiken, Web-Analysen, Marketing, Big Data, Business Intelligence und Vieles mehr. Pandas ist immer dann die richtige Wahl, wenn es um die Verwaltung, Manipulation und Auswertung von strukturierten Daten in Tabellenform oder von Zeitreihen geht.

So lassen sich beispielsweise die Komma-getrennt vorliegenden Daten eine CSV-Datei in ein Dataframe einlesen und analysieren. Pandas kann Maximal-, Minimal- oder Durchschnittswerte von Spalten bilden, die Datenverteilung ermitteln, fehlende Daten interpolieren, Daten bereinigen oder die Werte der Zeilen und Spalten nach bestimmten Kriterien filtern.

Pandas und andere Bibliotheken wie NumPy, SciPy und Matplotlib

Für wissenschaftliche oder kommerzielle Datenanalysen stehen neben Pandas weitere Python-Bibliotheken und Tools wie NumPy, SciPy, Scikit-learn, Matplotlib oder Seaborn zur Verfügung. Wichtig zu wissen ist, dass Pandas auf NumPy basiert und NumPy eine Voraussetzung zur Installation und Nutzung von Pandas ist. Bibliotheken wie Matplotlib oder SciPy benötigt Pandas prinzipiell nicht, doch stellen sie nützliche Ergänzungen dar. Beispielsweise können Daten aus Pandas für statistische Analysen mit SciPy oder für das Plotten von Funktionen mit Matplotlib verwendet werden. Mit Scikit-learn lassen sich auf Basis der Pandas-Daten Machine-Learning-Algorithmen ausführen.

Vorteile der Programmbibliothek Pandas

Kurz zusammengefasst bietet die Python-Programmbibliothek Pandas folgende Vorteile:

  • als Open-Source-Software frei verfügbar und für jeden zugänglich
  • voll in die Python-Umgebung integriert
  • nutzbar mit vielen weiteren datenwissenschaftlichen Python-Bibliotheken
  • performante Bearbeitung großer Datenmengen
  • großer Funktionsumfang
  • einfach zu erlernen und anzuwenden
  • flexibel für viele verschiedene Zwecke einsetzbar
  • plattformunabhängig
  • Unterstützung zahlreicher Datenformate

(ID:46728861)

Über den Autor