ETL-Prozesse: Transformation. Woraus besteht es?

Inhalt

Im ETL-ProzesseNach der Extraktion der Daten aus der Quelle oder den Quellquellen folgt die zweite Phase: Die Transformation.Die Transformationsphase eines ETL-Verfahrens befasst sich mit der Anwendung einer Reihe von Funktionen oder Geschäftsregeln auf die extrahierten Daten, um sie in Daten zu verwandeln, die anschließend in die neue Quelle geladen werden. ETL_Pentaho.jpg

Warum ist ein Transformationsverfahren notwendig?

Um die Notwendigkeit eines Transformationsverfahrens zu verstehen, müssen wir berücksichtigen, dass in einem ETL-Verfahren verschiedene Quellen verarbeitet werden, einige davon außerhalb der eigenen Organisation: Börseninformationen von einer externen Webseite, jegliche Art von Download aus dem Internet, ein Office-Paket, etc. Esta variedad de bases de datos, a veces de varios países, con diferentes idiomas y diferentes unidades de medida, hace imposible o difícil realizar comparaciones si no se realizan conversiones y formateados de antemano. De ahí la necesidad de procesos de transformación.

Acciones de transformación

Las acciones o procesos más habituales son:

  • Reformateo de datos.
  • Conversión de unidades. Als Beispiel, convertir millas a kilómetros por hora o viceversa. Algo muy frecuente cuando se extraen datos de países con distintas unidades métricas. Otro caso sería la conversión de distintas monedas (libras, Euro …) en un único valor estándar.
  • Selección de columnas para posterior carga. Als Beispiel, haga que las columnas con valores nulos no se carguen.
  • Agregación de columnas. Das Hinzufügen einer Spalte mit dem Herkunftsland bestimmter Autos wäre ein Beispiel.
  • Teilen Sie eine Spalte in mehrere auf. Diese Aktion ist sehr nützlich, um, als Beispiel, in drei Spalten zu trennen, eine für den Namen und zwei für den Nachnamen, die Identifikation einer Person, die zuvor in einem einzigen Feld enthalten war.
  • Codes übersetzen. Als Beispiel, wenn die Quellquelle ein 'H' für Männer und ein 'M' für Frauen speichert, geben Sie die notwendigen Anweisungen, damit das Ziel ein '1' für Männer und ein '2' für Frauen speichert.
  • Holen Sie sich neue berechnete Werte.
  • Daten aus mehreren Quellen zusammenführen.
  • Suchen. Es ist, wenn Daten genommen und mit einer anderen Art von Daten verglichen werden, Informationen kreuzweise abgleichen. Als Beispiel, einen Kunden-Code von einer erfassen Datenbank und ihn mit einer anderen Datenbank von gewährten Darlehen abgleichen, um zu wissen, ob dieser Kunde dieses Darlehen genießt oder nicht.
  • Pivotieren. Procedimiento semejante a las búsquedas pero con un mayor grado de complejidad, puesto que se cruzan datos de diferentes fuentes.

¿Quién se encarga de llevar adelante estas transformaciones?

Este rol corresponde al desarrollador o analista del procedimiento ETL en cuestión. La definición de las transformaciones a realizar se realiza en base a un análisis previo y la etapa de limpieza que, como ya hemos señalado y profundizaremos más adelante, es un procedimiento separado pero muy ligado al de transformación.

Transformation: un procedimiento vital para análisis y comparaciones posteriores

La transformación de los datos, tras la extracción de los mismos y como paso previo a su carga, no puede considerarse una etapa secundaria o prescindible. Ohne eine gute Datenaufbereitung wäre es nicht möglich, Vergleiche und Analysen durchzuführen. Mit anderen Worten, einer der großen Vorteile für Einrichtungen, ein ETL-Verfahren umzusetzen, würde verloren gehen.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.

Datenlautsprecher