Python vs. R vs. SAS

Conteúdo

Visão geral

  • Python se juntou ao longo debate R vs SAS
  • Cada um de R, SAS e Python têm seus prós e contras e podem ser comparados a critérios como custo, o cenário de trabalho e suporte para os diferentes algoritmos de aprendizagem de máquina.
  • Você também pode escolher qualquer uma das três ferramentas com base no estágio de sua carreira em ciência de dados em que você está.

Observação: este artigo foi originalmente publicado em 27 marchar 2014 e atualizou o 12 setembro 2017

Introdução

Nós amamos comparações!

Samsung vs. Apple vs. HTC em smartphones; iOS vs. Android vs. Windows em sistemas operacionais móveis para comparar candidatos para a próxima eleição ou capitão selecionado para a equipe da Copa do Mundo, comparações e discussões enriquecem-nos em nossas vidas. Se você ama discussões, tudo o que você precisa fazer é fazer uma pergunta relevante no meio de uma comunidade apaixonada e, em seguida, vê-la explodir.. A beleza do processo é que todos na sala saem como pessoas mais informadas..

Estou provocando algo semelhante aqui.. SAS vs. SAS R provavelmente tem sido o maior debate Ciência de dados a indústria poderia ter testemunhado. Python é uma das línguas que mais cresce agora e percorreu um longo caminho desde sua criação.. A razão pela qual eu começo esta discussão é para não vê-la explodir. (que também seria divertido). Sei que todos nos beneficiaremos da discussão..

Esta também tem sido uma das perguntas mais frequentes neste blog. Pensei em discutir isso com todos os meus leitores e visitantes!!

python-vs-r-vs-sas-e28093-que-ferramenta-should-i-learn-8282313

Ainda não foi dito muito sobre esse assunto??

Provavelmente se! Mas ainda sinto a necessidade de discutir isso pelas seguintes razões::

  • a Ciência de dados a indústria é muito dinâmica. Qualquer comparação que tenha sido feita faz 2 anos poderia deixar de ser relevante.
  • Tradicionalmente Piton foi deixado de fora da comparação. Acho que agora é mais do que uma consideração digna..
  • Enquanto discutirei tendências globais em línguas, Adicionarei informações específicas sobre a indústria de análise da Índia (que está em um nível diferente de evolução)

Então, sem demora, Que comece o combate!!

Fundo

Aqui está uma breve descrição sobre o 3 Ecossistemas:

  • SAS: A SAS tem sido a líder de mercado indiscutível no espaço de análise de negócios. O software oferece uma grande variedade de funções estatísticas, tem uma boa GUI (Guia Empresarial & Mineiro) para que as pessoas aprendam rapidamente e forneçam um suporte técnico incrível. Porém, acaba sendo a opção mais cara e nem sempre é enriquecida com as últimas funções estatísticas.
  • R: R é a contrapartida de código aberto da SAS, que tem sido tradicionalmente usado na academia e pesquisa. Devido à sua natureza de código aberto, as técnicas mais recentes são lançadas rapidamente. Há muita documentação disponível na Internet e é uma opção muito econômica.
  • Piton: Com a fonte como uma linguagem de programação de código aberto, o uso de Python cresceu ao longo do tempo. Hoje em dia, tem bibliotecas esportivas (entorpecido, scipy e matplotlib) e funciona para quase qualquer operação estatística / modelos de construção que você quer fazer. Desde a introdução dos pandas, tornou-se muito forte em operações com dados estruturados.

Atributos de comparação

Vou comparar essas línguas nos seguintes atributos:

  1. Disponibilidade / Custo
  2. Facilidade de aprendizado
  3. Capacidades de manipulação de dados
  4. Capacidades gráficas
  5. Avanços na ferramenta
  6. Cenário de trabalho
  7. Suporte ao aprendizado profundo
  8. Atendimento ao cliente e comunidade

Estou comparando-os do ponto de vista de um analista.. Portanto, se você está procurando comprar uma ferramenta para sua empresa, você pode não ter uma resposta completa aqui. As seguintes informações ainda serão úteis. Para cada atributo eu dou uma pontuação para cada um desses 3 línguas (1 – Baixo; 5 – Alto).

A ponderação desses parâmetros vai variar dependendo do ponto da carreira em que você está e suas ambições..

1. Disponibilidade / Custo

SAS é um software comercial. É caro e ainda fora de alcance para a maioria dos profissionais (individualmente). Porém, tem a maior participação de mercado em Organizações Privadas. Portanto, até e a menos que você esteja em uma organização que investiu em SAS, pode ser difícil de acessar um. Embora, SAS trouxe uma edição universitária que é livre para acessar, mas tem algumas limitações. Você também pode usar Cadernos Jupyter lá!!

R & Pitão, por outro lado, são completamente livres. Aqui estão minhas pontuações neste parâmetro:

SAS – 3

R – 5

Pitão – 5

2. Facilidade de aprendizado

SAS é fácil de aprender e oferece uma opção simples (PROC SQL) para pessoas que já conhecem SQL. Mesmo de outra forma, tem uma boa interface de usuário gráfico estável em seu repositório. Em termos de recursos, tutoriais estão disponíveis em sites de várias universidades e o SAS tem uma documentação completa. Existem certificações de institutos de treinamento SAS, mas novamente eles têm um custo.

R tem a curva de aprendizado mais íngreme entre 3 idiomas listados aqui. Requer que você aprenda e compreenda a codificação. R é uma linguagem de programação de baixo nível e, portanto, procedimentos simples podem exigir códigos mais longos.

Python é conhecida por sua simplicidade no mundo da programação. Isso também ainda vale para análise de dados.. Embora não haja interfaces de GUI generalizadas a partir de agora, Espero que os laptops Python se tornem cada vez mais comuns. Fornecer recursos incríveis para documentar e compartilhar.

SAS – 4.5

R – 2,5

Pitão – 3.5

3. Capacidades de manipulação de dados

Isso costumava ser uma vantagem para a SAS até algum tempo atrás.. R calcula tudo na memória (RAM) e, portanto, os cálculos foram limitados pela quantidade de RAM nas máquinas 32 bits. Este não é o caso. Todos os três idiomas têm bons recursos de manipulação de dados e opções para cálculos paralelos. Eu acho que isso não é mais uma grande diferenciação. Todos eles também trouxeram integrações hadoop e spark., e também são compatíveis com Cloudera e Apache Pig.

SAS – 4

R – 4

Pitão – 4

4. Capacidades gráficas

SAS tem recursos gráficos funcionais decentes. Porém, é apenas funcional. Qualquer personalização para gráficos é difícil e exige que você entenda as complexidades do pacote Graph SAS.

R tem recursos gráficos muito avançados, juntamente com Python. Existem inúmeros pacotes que lhe dão recursos gráficos avançados.

Com a introdução de Plotly em ambas as línguas agora e com Python que Seaborn tem, fazer gráficos personalizados nunca foi tão fácil.

SAS – 3

R – 4.5

Pitão – 4.5

5. Avanços na ferramenta

o 3 ecossistemas têm todas as funções básicas e mais necessárias disponíveis. Esse recurso só importa se você estiver trabalhando nas mais recentes tecnologias e algoritmos.

Devido à sua natureza aberta, R & Python obtém os recursos mais recentes rapidamente. SAS, por outro lado, atualiza suas capacidades nos lançamentos de novas versões. Desde R tem sido amplamente utilizado na academia no passado, o desenvolvimento de novas técnicas é rápido.

Tendo dito isso, SAS libera atualizações em um ambiente controlado, por isso eles são bem testados. R & Pitão, por outro lado, tem uma contribuição aberta e há chances de erros nos últimos desenvolvimentos.

SAS – 4

R – 4.5

Pitão – 4.5

6. Cenário de trabalho

Mundial, SAS continua a ser líder de mercado em empregos corporativos disponíveis. A maioria das grandes organizações ainda trabalha no SAS. R / Pitão, por outro lado, são melhores opções para startups e empresas que buscam rentabilidade. O que mais, foi relatado que o número de empregos em R / Python aumentou nos últimos anos. Aqui está uma tendência amplamente publicada na Internet, mostrando a tendência dos empregos de R e SAS. Trabalhos python para análise de dados serão tendências semelhantes ou superiores a trabalhos de R:

O gráfico a seguir mostra R em azul e SAS em laranja.

fig-1c-r-v-sas-2017-02-18-300x186-6503030

screen-shot-2017-09-12-at-12-01-24-pm-3474271

Fonte: r4stats.com

Isto é, por outro lado, agora mostra R em azul e Python em laranja.

fig-1d-r-v-python-2017-2-28-300x184-3201213

screen-shot-2017-09-12-at-12-01-00-pm-8531303

Fonte: r4stats.com

Em geral, o mercado baseado em idiomas pode ser representado como tal:

fig-1b-indeedjobs-2017-279x300-1124782

Fonte: r4stats.com

SAS – 4

R – 4.5

Pitão – 4.5

7. Atendimento ao cliente e comunidade

R e Python têm as maiores comunidades online, mas eles não têm suporte ao atendimento ao cliente. Então, se você tem problemas, está sozinho. Porém, você vai ter um monte de ajuda.

SAS, por outro lado, tem atendimento dedicado ao cliente junto com a comunidade. Portanto, se você tem problemas de instalação ou quaisquer outros desafios técnicos, você pode contatá-los.

SAS – 4

R – 3,5

Pitão – 3.5

8. Suporte ao aprendizado profundo

O aprendizado profundo no SAS ainda está em seus estágios iniciais e há muito o que trabalhar nisso..

Por outro lado, Python teve grandes avanços no campo e tem inúmeros pacotes como Tensorflow e Keras.

R adicionou recentemente suporte para esses pacotes, juntamente com alguns fundamentos, bem. Os pacotes kerasR e keras em R atuam como uma interface para o pacote Python original, Duro.

SAS – 2

Pitão – 4.5

R – 3

Outros fatores:

Abaixo estão alguns pontos mais notáveis:

  • Python é amplamente utilizado no desenvolvimento da Web. Então, se você está em um negócio on-line, usar python para desenvolvimento e análise da Web pode fornecer sinergias
  • SAS costumava ter uma enorme vantagem na implantação de infraestrutura de ponta a ponta (análise visual, Armazem de dados, qualidade de dados, relatórios e análises), que foi mitigado com integração / Suporte r em plataformas como SAP HANA e Tableau. Ainda está longe de uma integração perfeita como a SAS, mas a jornada começou.

conclusão

Vemos o mercado inclinando-se ligeiramente para Python no cenário atual. Será prematuro apostar no que prevalecerá, dada a natureza dinâmica da indústria. Dependendo de suas circunstâncias (estágio profissional, finança, etc.), você pode adicionar seus próprios pesos e pensar sobre o que pode ser certo para você. A seguir, alguns cenários específicos são mostrados:

  • Se você está entrando no setor de análise (especificamente na Índia), Eu recomendaria aprender SAS como sua primeira língua. É fácil de aprender e tem a maior parte do mercado de trabalho.
  • Se você é alguém que já passou algum tempo na indústria, você deve tentar diversificar sua experiência para aprender uma nova ferramenta.
  • Para especialistas e profissionais do setor, as pessoas devem saber, pelo menos, 2 destes. Isso adicionaria muita flexibilidade para o futuro e abriria novas oportunidades..
  • Se você está em uma empresa iniciante / Autônomo, R / Python é mais útil.

Estrategicamente, configurações corporativas que requerem mais assistência prática e treinamento escolhem o SAS como opção.

Pesquisadores e estatísticos escolhem R como alternativa porque ajuda em cálculos pesados. Como eles dizem, R foi feito para fazer o trabalho e não tornar o seu computador mais fácil.

Python tem sido a escolha óbvia para as startups atuais por causa de sua natureza leve e comunidade crescente.. É também a melhor escolha para o aprendizado profundo.

Aqui está o placar final:

screen-shot-2017-09-11-at-7-10-22-pm-300x115-9312553

Estas são as minhas opiniões sobre esta comparação. Agora, é a sua vez de compartilhar suas opiniões através dos comentários abaixo.

Aprender, envolver, competir, e ser contratado!

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.