Pandas (software)
Em programação de computadores, pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados. Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais. É software livre sob a licensa licença BSD.[2] O nome é derivado do termo inglês "panel data"(dados em painel), um termo usado em estatística e econometria para conjunto de dados que incluem várias unidades amostrais (indivíduos, empresas, etc) acompanhadas ao longo do tempo.[3] Características
Altamente otimizada para performance, a biblioteca pandas tem fortes bases nas linguagens Cython e C.[5] DataframesPandas é principalmente usado para machine learning(aprendizado de máquina), pela facilidade que o objeto dataframes oferece. Pandas permite a importação de diferentes formatos de arquivo, como csv e excel, para a leitura em dataframes. Também permite diversas operações de álgebra relacional, como projeção, junção, e concatenação, e também funções de limpeza, como por exemplo o preenchimento, substituição ou inserção de valores nulos (null). Indexando DataFramesExistem várias maneiras de indexar um DataFrame do Pandas. Uma das maneiras mais fáceis de fazer isso é usando a notação de colchetes.[6] No exemplo abaixo, você pode usar colchetes para selecionar uma coluna do DataFrame de carros. Você pode usar um colchete único ou duplo. O suporte único produzirá uma série Pandas, enquanto um suporte duplo produzirá um DataFrame Pandas. # Import pandas and cars.csv import pandas as pd cars = pd.read_csv('cars.csv', index_col = 0) # Print out country column as Pandas Series print(cars['cars_per_cap']) # Print out country column as Pandas DataFrame print(cars[['cars_per_cap']]) # Print out DataFrame with country and drives_right columns print(cars[['cars_per_cap', 'country']]) FunçõesFusão de DataFramesPara realizar a mesclagem de objetos (estruturas de dados - Dataframes) utilizados ao programar em Python, utilizando a biblioteca para análise de dados Pandas, é necessário que suas estrutura de dados possuam pelo menos uma coluna em comum com dados equivalentes ou iguais. A função pd.merge() do Pandas, se baseia em verificar se um determinado registro de uma coluna do Dataframe X é igual a do Dataframe Y e, caso sejam as demais colunas do registro se unem para formar uma nova estrutura com todas as informações identificadas naquela linha. Vale ressaltar que, essa mescla de informações é feita de maneira automatizada no objeto como um todo, sem a necessidade de iteração entre as linhas do Dataframe. Exemplo de uso# Importação da biblioteca
import pandas as pd
#Exemplo de Criação de dois DataFrames
df1 = pd.DataFrame({'Coluna': ['1', '2', '3', '4'],
'Valor1': ['A', 'C', 'E', 'G']})
df2 = pd.DataFrame({'Coluna': ['1', '2', '3', '4'],
'valor2': ['B', 'D', 'F', 'H']})
# Aqui atribuímos ao DataFrame (df3) a mesclagem dos DataFrames df1 e df2
df3 = pd.merge(df1,df2,on='Coluna', how='left')
#Print do resultado da mescla da operação
df3
HistóriaO desenvolvedor Wes McKinney começou a desenvolver a Pandas em 2008, enquanto trabalhava na empresa AQR Capital Management. A ideia veio quando ele percebeu a necessidade de uma ferramenta flexível e de alta performance para realizar análise quantitativa em dados financeiros. Antes de deixar a AQR, Wes conseguiu convencer a direção da empresa a permití-lo liberar a biblioteca como open-source. Outro funcionário da AQR, o desenvolvedor Chang She, se tornou em 2012 o segundo maior contribuidor para a biblioteca Pandas. Ver também
Referências
Ligações externas
|