Vue d'ensemble
- Python a rejoint le débat de longue date R vs SAS
- Chacun de R, SAS et Python ont leurs avantages et leurs inconvénients et peuvent être comparés à des critères tels que le coût, le cadre de travail et la prise en charge de différents algorithmes d'apprentissage automatique.
- Vous pouvez également choisir l'un des trois outils en fonction de l'étape à laquelle vous vous trouvez dans votre carrière en science des données.
Noter: Cet article a été initialement publié le 27 Mars 2014 et mis à jour le 12 septembre 2017
introduction
Nous aimons les comparaisons!
Samsung contre. Pomme contre. HTC sur smartphone; iOS contre. Android contre. Windows sur les systèmes d'exploitation mobiles pour comparer les candidats aux élections à venir ou sélectionner le capitaine de l'équipe de coupe du monde, les comparaisons et les discussions nous enrichissent dans nos vies. Si vous aimez les discussions, il vous suffit de poser une question pertinente au milieu d'une communauté passionnée puis de la regarder exploser. La beauté du processus est que tout le monde dans la salle part en tant que personne plus informée..
Je provoque quelque chose de similaire ici. SAS contre R a probablement été le plus grand débat Science des données l'industrie aurait pu être témoin. Python est l'un des langages à la croissance la plus rapide à l'heure actuelle et a parcouru un long chemin depuis sa création. La raison pour laquelle je lance cette discussion n'est pas pour la voir exploser. (ce serait amusant aussi). Je sais que nous profiterons tous de la discussion.
C'est aussi l'une des questions les plus fréquemment posées sur ce blog. Je pensais en discuter avec tous mes lecteurs et visiteurs !!
On n'a pas déjà beaucoup dit sur ce sujet?
Probablement oui! Mais je ressens toujours le besoin d'en discuter pour les raisons suivantes:
- Les Science des données l'industrie est très dynamique. Toute comparaison qui a été faite fait 2 les années pourraient ne plus être pertinentes.
- Traditionnellement Piton a été exclu de la comparaison. Je pense que maintenant c'est plus qu'une considération digne.
- Alors que je discuterai des tendances mondiales sur les langues, agregaré información específica con respecto a la industria analytiqueL’analytique fait référence au processus de collecte, Mesurer et analyser les données pour obtenir des informations précieuses qui facilitent la prise de décision. Dans divers domaines, Comme les affaires, Santé et sport, L’analytique peut identifier des modèles et des tendances, Optimiser les processus et améliorer les résultats. L’utilisation d’outils et de techniques statistiques de pointe est essentielle pour transformer les données en connaissances applicables et stratégiques.... de la India (qui est à un autre niveau d'évolution)
Ensuite, sans plus tarder, Que le combat commence!
Bas
Voici une brève description de la 3 écosystèmes:
- SAS: SAS est le leader incontesté du marché dans le domaine de l'analyse commerciale. Le logiciel offre une grande variété de fonctions statistiques, a une bonne interface graphique (Guide d'entreprise & Mineur) pour que les gens apprennent rapidement et fournit un support technique incroyable. Cependant, finit par être l'option la plus chère et n'est pas toujours enrichie des dernières fonctions statistiques.
- R: R est l'équivalent open source de SAS, traditionnellement utilisé dans les universités et la recherche. En raison de sa nature open source, les dernières techniques sont diffusées rapidement. Il y a beaucoup de documentation disponible sur Internet et c'est une option très rentable.
- Piton: Avec origin en tant que langage de programmation open source, L'utilisation de Python a augmenté au fil du temps. Aujourd'hui, a des bibliothèques sportives (numpy, scipy et matplotlib) et fonctionne pour presque toutes les opérations statistiques / modèles de construction que vous voulez faire. Depuis l'introduction des pandas, est devenu très fort dans les opérations de données structurées.
Attributs de comparaison
Je comparerai ces langues dans les attributs suivants:
- Disponibilité / Coût
- Facilité d'apprentissage
- Capacités de traitement des données
- Capacités graphiques
- Les avancées de l'outil
- Scénario de travail
- Soporte de l'apprentissage en profondeurL'apprentissage en profondeur, Une sous-discipline de l’intelligence artificielle, s’appuie sur des réseaux de neurones artificiels pour analyser et traiter de grands volumes de données. Cette technique permet aux machines d’apprendre des motifs et d’effectuer des tâches complexes, comme la reconnaissance vocale et la vision par ordinateur. Sa capacité à s’améliorer continuellement au fur et à mesure que de nouvelles données lui sont fournies en fait un outil clé dans diverses industries, de la santé...
- Service client et communauté
Je les compare du point de vue d'un analyste. Donc, si vous cherchez à acheter un outil pour votre entreprise, vous n'aurez peut-être pas de réponse complète ici. Les informations suivantes continueront d'être utiles. Pour chaque attribut, je donne une note à chacun de ces 3 langues (1 – bas; 5 – Alto).
La ponderación de estos paramètresLes "paramètres" sont des variables ou des critères qui sont utilisés pour définir, mesurer ou évaluer un phénomène ou un système. Dans divers domaines tels que les statistiques, Informatique et recherche scientifique, Les paramètres sont essentiels à l’établissement de normes et de standards qui guident l’analyse et l’interprétation des données. Leur sélection et leur manipulation correctes sont cruciales pour obtenir des résultats précis et pertinents dans toute étude ou projet.... variará según el punto de la carrera en el que se encuentre y sus ambiciones.
1. Disponibilité / Coût
SAS est un logiciel commercial. C'est cher et encore hors de portée pour la plupart des professionnels (individuellement). Cependant, a la part de marché la plus élevée dans les organisations privées. Donc, jusqu'à ce que et à moins que vous ne soyez dans une organisation qui a investi dans SAS, il peut être difficile d'accéder à un. Même si, SAS a apporté une édition universitaire qui est libre d'accès, mais il a des limites. Vous pouvez également y utiliser Jupyter Notebooks !!
R & Python, d'un autre côté, ils sont totalement gratuits. Voici mes scores sur ce paramètre:
SAS – 3
R – 5
Python – 5
2. Facilité d'apprentissage
SAS est facile à apprendre et offre une option simple (PROC SQL) pour ceux qui connaissent déjà SQL. Même autrement, a une belle interface graphique stable dans son référentiel. Concernant les ressources, des tutoriels sont disponibles sur les sites internet de différentes universités et SAS dispose d'une documentation complète. Il existe des certifications des instituts de formation SAS, mais encore une fois ils ont un prix.
R a la courbe d'apprentissage la plus raide parmi les 3 langues listées ici. Nécessite que vous appreniez et compreniez le codage. R est un langage de programmation de bas niveau et, donc, des procédures simples peuvent nécessiter des codes plus longs.
Python est connu pour sa simplicité dans le monde de la programmation. Cela reste également valable pour l'analyse des données. Bien qu'il n'y ait pas d'interfaces GUI généralisées pour le moment, j'espère que les ordinateurs portables python deviendront de plus en plus courants. Ils offrent des fonctionnalités étonnantes pour la documentation et le partage.
SAS – 4.5
R – 2,5
Python – 3.5
3. Capacités de traitement des données
C'était un avantage pour SAS jusqu'à il y a quelque temps. R calcule tout en mémoire (RAM) Oui, donc, les calculs étaient limités par la quantité de RAM dans les machines 32 morceaux. Ce n'est pas le cas. Les trois langages ont de bonnes capacités de traitement des données et des options pour les calculs parallèles.. Je pense que ce n'est plus une grande différenciation. Tous ont également apporté des intégrations Hadoop et Spark, y también son compatibles con Cloudera y Apache PorcEl cerdo, un mamífero domesticado de la familia Suidae, es conocido por su versatilidad en la agricultura y la producción de alimentos. Originario de Asia, su cría se ha extendido por todo el mundo. Los cerdos son omnívoros y poseen una alta capacidad de adaptación a diversos hábitats. En outre, juegan un papel importante en la economía, proporcionando carne, cuero y otros productos derivados. Su inteligencia y comportamiento social también son....
SAS – 4
R – 4
Python – 4
4. Capacités graphiques
SAS a des capacités graphiques fonctionnelles décentes. Cependant, c'est juste fonctionnel. Toute personnalisation des graphiques est difficile et nécessite que vous compreniez les complexités du package SAS Graph.
R a des capacités graphiques très avancées avec Python. Il existe de nombreux packages qui vous offrent des capacités graphiques avancées.
Avec l'introduction de Plotly dans les deux langages maintenant et avec Python que Seaborn a, créer des graphiques personnalisés n'a jamais été aussi simple.
SAS – 3
R – 4.5
Python – 4.5
5. Les avancées de l'outil
Les 3 les écosystèmes ont toutes les fonctions de base et les plus nécessaires disponibles. Cette fonctionnalité n'a d'importance que si vous travaillez sur les dernières technologies et algorithmes.
En raison de sa nature ouverte, R & Python obtient rapidement les dernières fonctions. SAS, d'un autre côté, met à jour ses capacités sur les nouvelles versions. Étant donné que R a été largement utilisé dans les universités dans le passé, le développement de nouvelles techniques est rapide.
Cela dit, SAS publie des mises à jour dans un environnement contrôlé, donc ils sont bien prouvés. R & Python, d'un autre côté, a une contribution ouverte et il y a des risques d'erreurs dans les derniers développements.
SAS – 4
R – 4.5
Python – 4.5
6. Scénario de travail
Au niveau mondial, SAS reste le leader du marché des emplois disponibles en entreprise. La plupart des grandes organisations travaillent encore chez SAS. R / Python, d'un autre côté, ce sont de meilleures options pour les startups et les entreprises à la recherche de rentabilité. En outre, il a été rapporté que le nombre d'emplois dans R / Python a augmenté ces dernières années. Voici une tendance largement diffusée sur internet, montrant la tendance des travaux R et SAS. Les tâches Python pour l'analyse des données auront une tendance similaire ou supérieure aux tâches R:
Le graphique ci-dessous montre R en bleu et SAS en orange.
En général, le marché basé sur la langue peut être représenté comme tel:
SAS – 4
R – 4.5
Python – 4.5
7. Service client et communauté
R et Python ont les plus grandes communautés en ligne, mais ils n'ont pas de service client. Ensuite, si vous avez des problèmes, il est seul. Cependant, vous recevrez beaucoup d'aide.
SAS, d'un autre côté, dispose d'un service client dédié avec la communauté. Donc, si vous avez des problèmes d'installation ou tout autre défi technique, vous pouvez communiquer avec eux.
SAS – 4
R – 3,5
Python – 3.5
8. Soutien à l'apprentissage en profondeur
L'apprentissage en profondeur dans SAS en est encore à ses balbutiements et il y a beaucoup à travailler.
D'un autre côté, Python a fait de grands progrès dans le domaine et dispose de nombreux packages comme Tensorflow et Keras.
R a récemment ajouté la prise en charge de ces packages, avec quelques bases aussi. Les packages kerasR et keras dans R agissent comme une interface avec le package Python d'origine, Dur.
SAS – 2
Python – 4.5
R – 3
Autres facteurs:
Voici quelques points plus remarquables:
- Python est largement utilisé dans le développement Web. Ensuite, si vous êtes dans une entreprise en ligne, l'utilisation de Python pour le développement Web et l'analyse peut fournir des synergies
- SAS avait un énorme avantage dans le déploiement d'infrastructure de bout en bout (analyse visuelle, entrepôt de données, qualité des données, rapports et analyses), qui a été atténué avec l'intégration / Prise en charge de R sur des plateformes telles que SAP HANA et Tableau. Encore loin d'une intégration transparente comme SAS, mais le voyage a commencé.
conclusion
Nous voyons le marché pencher légèrement vers Python dans le scénario actuel. Il sera prématuré de parier sur ce qui l'emportera, étant donné la nature dynamique de l'industrie. Selon votre situation (Stage professionnel, la finance, etc.), vous pouvez ajouter vos propres poids et réfléchir à ce qui pourrait vous convenir. Ensuite, certains scénarios spécifiques sont affichés:
- Si vous entrez dans l'industrie de l'analyse (spécifiquement en Inde), Je recommanderais d'apprendre SAS comme première langue. Il est facile à apprendre et a la plus forte participation au marché du travail.
- Si vous êtes quelqu'un qui a déjà passé du temps dans l'industrie, vous devriez essayer de diversifier votre expérience pour apprendre un nouvel outil.
- Pour les experts et les professionnels de l'industrie, les gens devraient savoir au moins 2 de ceux-ci. Cela ajouterait beaucoup de flexibilité pour l'avenir et ouvrirait de nouvelles opportunités..
- Si vous êtes dans une start-up / autonome, R / Python est plus utile.
Stratégiquement, les configurations d'entreprise nécessitant une assistance et une formation plus pratiques choisissent SAS en option.
Les chercheurs et les statisticiens choisissent R comme alternative car il aide dans les calculs lourds. Comme ils disent, R était destiné à faire le travail et non à rendre votre ordinateur plus facile.
Python a été le choix évident pour les startups d'aujourd'hui en raison de sa nature légère et de sa communauté croissante.. C'est aussi le meilleur choix pour l'apprentissage en profondeur.
Voici le tableau de bord final:
Ce sont mes opinions sur cette comparaison. À présent, c'est à votre tour de partager votre point de vue à travers les commentaires ci-dessous.