Cet article a été publié dans le cadre du Blogathon sur la science des données
introduction
Obtenir des données complètes et performantes n'est pas toujours le cas en Machine Learning. Tout en travaillant sur n'importe quel énoncé de problème du monde réel ou en essayant de créer tout type de projet comme Machine Learning Practioner, besoin des données.
Pour répondre au besoin de données la plupart du temps, vous devez obtenir des données de l'API et, si le site Web ne fournit pas l'API, la seule option qui reste est le grattage Web.
Dans ce tutoriel, nous allons apprendre comment vous pouvez utiliser l'API, extraire les données et les enregistrer en tant que bloc de données.
Table des matières
- Obtenir des données à partir d'une API
-
- Qu'est-ce que l'API
- Importance d'utiliser l'API
- Comment obtenir une API
- Code pratique pour extraire les données de l'API
- Obtention de données à l'aide de bases de données SQL
- Note de fin
Obtenir des données à partir d'une API
Qu'est-ce que l'API
API signifie Interface de programmation d'applications. L'API fonctionne essentiellement comme une interface entre deux logiciels de communication. Maintenant, comprenons comment?
Importance d'utiliser l'API
Prenons un exemple, si nous devons réserver un billet de train, alors nous avons plusieurs options comme le site IRCTC, Yatra, faire mon voyage, etc. À présent, ce sont toutes des organisations différentes, et supposons que nous ayons réservé un numéro de siège 15 du wagon B15, si quelqu'un visite et essaie de réserver le même siège à partir d'un logiciel différent, Sera-t-il réservé ou non? Il apparaîtra comme réservé.
Bien qu'il s'agisse de sociétés différentes, différents logiciels, sont en mesure de partager ces informations. Donc, le partage d'informations se produit entre plusieurs sites Web via l'API, c'est pourquoi les API sont importantes.
Chaque organisation fournit des services sur plusieurs systèmes d'exploitation tels que ios, Android, qui sont intégrés à une base de données unique. Donc, ils utilisent également l'API pour obtenir des données de la base de données vers plusieurs applications.
Maintenant, comprenons pratiquement comment obtenir des données à l'aide d'un bloc de données en utilisant Python.
Comment obtenir une API?
Nous utiliserons le site officiel de TMDB, qui fournit différentes API pour obtenir différents types de données. nous allons obtenir les meilleures données de film dans notre bloc de données. Pour obtenir les données, doit passer l'API.
Visiter le Site TMDB et inscrivez-vous et connectez-vous avec votre compte Google. Après cela, dans votre section profil, paramètres de visite. Dans le panneau des paramètres à gauche, dans la dernière seconde option, vous pouvez trouver une option comme API, il suffit de cliquer dessus et de générer votre API.
Utilisez la clé API pour obtenir les données de film les mieux notées
Maintenant que vous avez votre propre clé API, visitez le site du développeur de l'API TMDB que vous pouvez voir dans la section API en haut. Cliquez sur Films et la visite obtient la meilleure note maintenant, dans la meilleure fenêtre de notation, visitez l'option Essayer maintenant, où vous pouvez voir sur le côté droit du bouton soumettre une demande, a un lien vers les films les mieux notés.
https://api.themovieb.org/3/movie/top_rated?api_key=<<clé API>>&language=en-US&page=1
Copiez le lien et, au lieu de la clé API, collez la clé API que vous avez générée et ouvrez le lien, vous verrez les données similaires à JSON.
À présent, comprendre ces données, il existe plusieurs outils comme la visionneuse JSON. Si vous le souhaitez, vous pouvez l'ouvrir et coller le code dans la visionneuse. C'est un dictionnaire et les informations requises sur les films sont présentes dans la clé de résultat.
Les données totales sont présentes dans 428 pages et le nombre total de films est 8551. Donc, nous devons créer un bloc de données qui aura 8551 les lignes et les champs que nous allons extraire sont id, titre du film, date de sortie, description générale, popularité, voter. moyenne, décompte des voix. Donc, la trame de données que nous recevrons aura la forme 8551 * 7.
Code pratique pour récupérer les données de l'API
Ouvrez votre Jupyter Notebook pour écrire le code et extraire les données dans le bloc de données. Installez la bibliothèque pandas et les demandes si vous n'avez pas utilisé la commande pip
pip installer des pandas demandes d'installation de pip
Définissez maintenant votre clé API dans le lien et faites une demande sur le site Web de TMDB pour extraire les données et enregistrer la réponse dans une variable.
api_key = votre clé API
lien = "https://api.themovieb.org/3/movie/top_rated?api_key=<<clé API>>&language=en-US&page=1"
réponse = requêtes.get(relier)
N'oubliez pas de mentionner votre clé API dans le lien. Et après avoir exécuté le code ci-dessus, oui imprimer la réponse, vous pouvez voir la réponse dans 200, ce qui signifie que tout fonctionne bien et que vous avez les données sous forme de JSON.
Les données que nous voulons sont dans les résultats clés, essayez donc d'imprimer la clé de résultat.
réponse.json()["résultats"]
Pour créer le bloc de données des colonnes requises, nous pouvons utiliser le cadre de données des pandas et il obtiendra le cadre de données de 20 classe qui a les meilleurs films sur la page 1.
données = pd.DataFrame(réponse.json()["résultats"])[['identifiant','Titre','Aperçu','popularité','date de sortie','vote_average','vote_count']]
Nous voulons les données du 428 pages entières, nous mettrons donc le code dans la boucle for et demanderons le site Web encore et encore à différentes pages et à chaque fois nous obtiendrons 20 lignes et sept colonnes.
pour moi à portée(1, 429): réponse = requêtes.get("https://api.themovieb.org/3/movie/top_rated?api_key=<clé API>&language=en-US&page={}".format(je)) temp_df = pd.DataFrame(réponse.json()["résultats"])[['identifiant','Titre','Aperçu','popularité','date de sortie','vote_average','vote_count']] data.append(temp_df, ignore_index=Faux)
Donc, nous avons obtenu le bloc de données complet avec 8551 Lignes. nous avons formaté un numéro de page pour demander une page différente à chaque fois. Et mentionnez votre clé API dans le lien en supprimant la balise HTML. Il faudra au moins 2 minutes pour courir. Le bloc de données que nous avons obtenu ressemble à ceci.
Enregistrez les données dans un fichier CSV afin que vous puissiez l'utiliser pour analyser, traiter et créer un projet dessus.
Obtenir des données à partir d'une base de données SQL
Travailler avec des bases de données SQL est facile avec Python. Python fournit diverses bibliothèques pour se connecter à la base de données et lire les requêtes SQL et extraire les données de la table SQL vers Pandas Dataframe.
A des fins de démonstration, nous utilisons un ensemble de données de population de districts et de villes du monde chargé dans Kaggle au format de requête SQL. Vous pouvez accéder à l'ensemble de données à partir de ici.
Téléchargez le fichier et téléchargez-le dans votre base de données locale. Vous pouvez utiliser MySQL, XAMPP, SQLite ou toute base de données de votre choix. TOUTES les bases de données offrent une option d'importation, il suffit de cliquer dessus, sélectionnez le fichier téléchargé et téléchargez-le.
Nous sommes maintenant prêts à connecter Python à la base de données et à extraire les données SQL dans Pandas Dataframe. Pour établir une connexion, installer la bibliothèque de connecteurs MySQL.
!pip installer mysql.connector
Après l'installation, importer les bibliothèques requises et diriger la connexion à la base de données en utilisant la méthode de connexion.
importer numpy en tant que np importer des pandas au format pd importer mysql.connector conn = mysql.connector.connect(hôte="hôte local", utilisateur="racine", mot de passe="", base de données="Monde")
Après s'être connecté avec succès à la base de données, nous pouvons interroger une base de données et extraire des données dans un bloc de données.
city_data = pd.read_sql_query("SÉLECTIONNER * DE la ville", Connecticut)
Donc, nous avons extrait avec succès les données vers dataframe et il est facile de travailler avec des bases de données à l'aide de python. Vous pouvez également extraire des données en filtrant avec des requêtes SQL.
Note de fin
J'espère que c'était un article incroyable qui vous aidera à apprendre à extraire des données de différentes sources. L'obtention de données à l'aide de l'API est principalement utilisée par Data Scientist pour collecter des données à partir d'un ensemble de données volumineux et vaste pour une meilleure analyse et des performances améliorées du modèle..
En tant que débutant, la plupart du temps, vous obtenez le fichier de données précis, mais ce n'est pas le cas tout le temps, vous devez apporter les données de différentes sources qui seront bruyantes et travailler dessus pour prendre de meilleures décisions commerciales.
Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.
En rapport
Articles Similaires:
- Programme d'études supérieures en analyse d'affaires – Institut de gestion des Grands Lacs
- K signifie regroupement | K signifie algorithme de clustering en machine learning
- L'IA dans l'agriculture | Application de l'intelligence artificielle en agriculture
- Validation croisée du K-Fold | Guide pour la validation croisée de K-Fold dans R