
Warum ist ein Transformationsverfahren notwendig?
Um die Notwendigkeit eines Transformationsverfahrens zu verstehen, müssen wir berücksichtigen, dass in einem ETL-Verfahren verschiedene Quellen verarbeitet werden, einige davon außerhalb der eigenen Organisation: Börseninformationen von einer externen Webseite, jegliche Art von Download aus dem Internet, ein Office-Paket, etc. Esta variedad de bases de datos, a veces de varios países, con diferentes idiomas y diferentes unidades de medida, hace imposible o difícil realizar comparaciones si no se realizan conversiones y formateados de antemano. De ahí la necesidad de procesos de transformación.
Acciones de transformación
Las acciones o procesos más habituales son:
- Reformateo de datos.
- Conversión de unidades. Als Beispiel, convertir millas a kilómetros por hora o viceversa. Algo muy frecuente cuando se extraen datos de países con distintas unidades métricas. Otro caso sería la conversión de distintas monedas (libras, Euro …) en un único valor estándar.
- Selección de columnas para posterior carga. Als Beispiel, haga que las columnas con valores nulos no se carguen.
- Agregación de columnas. Das Hinzufügen einer Spalte mit dem Herkunftsland bestimmter Autos wäre ein Beispiel.
- Teilen Sie eine Spalte in mehrere auf. Diese Aktion ist sehr nützlich, um, als Beispiel, in drei Spalten zu trennen, eine für den Namen und zwei für den Nachnamen, die Identifikation einer Person, die zuvor in einem einzigen Feld enthalten war.
- Codes übersetzen. Als Beispiel, wenn die Quellquelle ein 'H' für Männer und ein 'M' für Frauen speichert, geben Sie die notwendigen Anweisungen, damit das Ziel ein '1' für Männer und ein '2' für Frauen speichert.
- Holen Sie sich neue berechnete Werte.
- Daten aus mehreren Quellen zusammenführen.
- Suchen. Es ist, wenn Daten genommen und mit einer anderen Art von Daten verglichen werden, Informationen kreuzweise abgleichen. Als Beispiel, einen Kunden-Code von einer erfassen DatenbankEine Datenbank ist ein organisierter Satz von Informationen, mit dem Sie, Effizientes Verwalten und Abrufen von Daten. Einsatz in verschiedenen Anwendungen, Von Unternehmenssystemen bis hin zu Online-Plattformen, Datenbanken können relational oder nicht-relational sein. Das richtige Design ist entscheidend für die Optimierung der Leistung und die Gewährleistung der Informationsintegrität, und erleichtert so eine fundierte Entscheidungsfindung in verschiedenen Kontexten.... und ihn mit einer anderen Datenbank von gewährten Darlehen abgleichen, um zu wissen, ob dieser Kunde dieses Darlehen genießt oder nicht.
- Pivotieren. Procedimiento semejante a las búsquedas pero con un mayor grado de complejidad, puesto que se cruzan datos de diferentes fuentes.
¿Quién se encarga de llevar adelante estas transformaciones?
Este rol corresponde al desarrollador o analista del procedimiento ETL en cuestión. La definición de las transformaciones a realizar se realiza en base a un análisis previo y la etapa de limpieza que, como ya hemos señalado y profundizaremos más adelante, es un procedimiento separado pero muy ligado al de transformación.
Transformation: un procedimiento vital para análisis y comparaciones posteriores
La transformación de los datos, tras la extracción de los mismos y como paso previo a su carga, no puede considerarse una etapa secundaria o prescindible. Ohne eine gute Datenaufbereitung wäre es nicht möglich, Vergleiche und Analysen durchzuführen. Mit anderen Worten, einer der großen Vorteile für Einrichtungen, ein ETL-Verfahren umzusetzen, würde verloren gehen.


