Trennzeichen in Pandas read_csv | Trennzeichen in Pandas verstehen

Inhalt

Dieser Blog wurde veröffentlicht im Rahmen von Data Science Blogathon 7

Pandas als pd importieren

Jedes Datenanalyseprojekt erfordert einen Datensatz. Diese Datensätze sind in verschiedenen Dateiformaten verfügbar, als .xlsx, .json, .csv, .html. Konventionell, Datensätze finden sich hauptsächlich in .csv Format. CSV (Ö Komma-getrennte Werte), wie der Name schon sagt, Datenelemente durch Kommas getrennt haben. CSV-Dateien sind reine Textdateien, die eine geringere Dateigröße haben. Was ist mehr, CSV-Dateien können in gängigen Tools wie Microsoft Excel und Google Sheets in Tabellenform angezeigt und gespeichert werden.

In CSV-Dateien verwendete Kommas sind bekannt als Trennzeichen. Stellen Sie sich Trennzeichen als Trenngrenze vor, die zwischen zwei aufeinanderfolgenden Datenelementen unterscheidet.

tiny-people-analyst-data-scientist-working-with-data-data-driven-business-model-comprehensive-data-strategien-new-economic-model-concept_335657-2420-8973063
Bildquelle – Hier

Lesen von CSV-Dateien mit Pandas

Um diese CSV-Dateien zu lesen, wir verwenden eine Funktion aus der Pandas-Bibliothek namens read_csv ().

df = pd.read_csv()

Die read_csv-Funktion () Es hat Dutzende von Parametern, von denen einer obligatorisch ist und andere für die Ad-hoc-Nutzung optional sind. Dieser obligatorische Parameter gibt die CSV-Datei an, die wir lesen möchten. Zum Beispiel,

df = pd.read_csv("C:BenutzerRahulDesktopabc.csv")

Notiz: Denken Sie daran, doppelte Backslashes zu verwenden, wenn Sie den Dateipfad angeben.

11393Komma-1940477
archivo abc.csv

(Quelle: persönlicher Computer)

Der sep-Parameter

Einer der optionalen Parameter in read_csv () es ist sep, ein Kurzname für Trennzeichen. Dieser Operator ist das Trennzeichen, über das wir zuvor gesprochen haben. Dieser sep-Parameter sagt dem Interpreter, welches Trennzeichen wird in unserem Datensatz oder in Laiensprache verwendet, wie Datenelemente in unserer CSV-Datei getrennt werden.

Der Standardwert des Parameters sep ist der Koma (,) was bedeutet, dass wenn wir den sep-Parameter in unserer read_csv-Funktion nicht angeben (), In unserer Datei wird ein Komma als Trennzeichen verwendet. Deswegen, in unserem Code-Snippet oben, wir geben den sep-Parameter nicht an, unsere Datei sollte Kommas als Trennzeichen enthalten.

Andere Trennzeichen verwenden

Das kann oft passieren, Der Datensatz im CSV-Dateiformat enthält Datenelemente, die durch ein Trennzeichen getrennt sind, das kein Komma ist. Dazu gehören Semikolons, zwei Punkte, Tab-Leerzeichen, vertikale Balken, etc. In solchen Fällen, wir müssen den sep-Parameter in der read.csv-Funktion verwenden (). Zum Beispiel, eine Datei namens Beispiel.csv es ist eine durch Semikolons getrennte CSV-Datei.

62554Semikolon-4558716
Archiv-Beispiel.csv

(Quelle: persönlicher Computer)

df = pd.read_csv("C:BenutzerRahulDesktopExample.csv", sep = ';')

Beim Ausführen dieses Codes, Wir erhalten einen Datenrahmen namens df:

92984sc-op-4043607
Df-Datenrahmen

(Quelle: persönlicher Computer)

Vertikaler Balkentrenner

Deswegen, eine durch senkrechte Striche begrenzte Datei kann gelesen werden durch:

df = pd.read_csv("C:BenutzerRahulDesktopExample.csv", sep = '|')

Doppelpunkttrenner

Und eine durch Doppelpunkte getrennte Datei kann gelesen werden von:

df = pd.read_csv("C:BenutzerRahulDesktopExample.csv", sep = ':')

Tabs-Trennzeichen

Wir finden oft Datensätze im Dateiformat .tsv. Diese .tsv-Dateien haben durch Tabulatoren getrennte Werte oder wir können sagen, dass sie ein Tabulatorzeichen als Trennzeichen haben. Diese Dateien können mit der gleichen Funktion gelesen werden .read_csv () von Pandas und wir müssen das Trennzeichen angeben. Zum Beispiel:

df = pd.read_csv("C:BenutzerRahulDesktopExample.tsv", sep = 't')

Ähnlich, andere Trennzeichen können basierend auf dem identifizierten Trennzeichen unserer Daten verwendet werden.

Fazit

Es ist immer sinnvoll zu überprüfen, wie unsere Daten in unserem Datensatz gespeichert sind. Sie müssen die Daten verstehen, bevor Sie damit beginnen, damit zu arbeiten. Ein Trennzeichen kann durch Überprüfung der Daten mühelos identifiziert werden. Laut unserer Inspektion, wir können das entsprechende Trennzeichen im Parameter sep verwenden.

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.