import pandas as pd

Creación e acceso

Dataframe: Es una tabla. Index = lista de nombres de filas

tabla=pd.DataFrame({'España': [100, 150,80], 
              'Portugal': [120, 130,75],
              'Francia': [90, 105,46],
              'color': ['rojo', 'verde','rojo'],
              'id': ['a23', 'b34','a12']},
             index=['Producto A', 'Producto B', 'Producto C'])
España Portugal Francia color id
Producto A 100 120 90 rojo a23
Producto B 150 130 105 verde b34
Producto C 80 75 46 rojo a12
Series: Es un Dataframe de una columna

pd.Series([1, 2, 3, 4, 5]) # el indice de fila empieza por 0
0    1
1    2
2    3
3    4
4    5
dtype: int64
columna= pd.Series([100, 150,80], index=['Producto A', 'Producto B', 'Producto C'], name='España')
Producto A    100
Producto B    150
Producto C     80
Name: España, dtype: int64
((3, 5), (3,))
España Portugal Francia color id
Producto A 100 120 90 rojo a23
Producto B 150 130 105 verde b34
Producto C 80 75 46 rojo a12
tabla.España # =  tabla['España']
Producto A    100
Producto B    150
Producto C     80
Name: España, dtype: int64
España       100
Portugal     120
Francia       90
color       rojo
id           a23
Name: Producto A, dtype: object
tabla.iloc[[0, 1], [1, 2]] # 0:10 = 0..9
Portugal Francia
Producto A 120 90
Producto B 130 105
tabla.loc[:,'Portugal']   # 0:10 = 0..10
Producto A    120
Producto B    130
Producto C     75
Name: Portugal, dtype: int64
tabla.set_index('id')  # cambia la columna indice de la tabla
España Portugal Francia color
a23 100 120 90 rojo
b34 150 130 105 verde
a12 80 75 46 rojo
tabla.color == 'rojo'
Producto A     True
Producto B    False
Producto C     True
Name: color, dtype: bool
tabla.loc[(tabla.color == 'rojo') & (tabla.Portugal < 120)]
España Portugal Francia color id
Producto C 80 75 46 rojo a12
España Portugal Francia color id
Producto A 100 120 90 rojo a23
Producto C 80 75 46 rojo a12
España Portugal Francia color id
Producto A 100 120 90 rojo a23
Producto B 150 130 105 verde b34
Producto C 80 75 46 rojo a12
España Portugal Francia color id
Producto A 100 120 90 rojo a23
Producto B 150 130 20 verde b34
Producto C 80 75 46 rojo a12
tabla['id']= range(len(tabla),0,-1)
España Portugal Francia color id
Producto A 100 120 90 rojo 3
Producto B 150 130 20 verde 2
Producto C 80 75 46 rojo 1


España Portugal Francia id
count 3.000000 3.000000 3.000000 3.0
mean 110.000000 108.333333 52.000000 2.0
std 36.055513 29.297326 35.383612 1.0
min 80.000000 75.000000 20.000000 1.0
25% 90.000000 97.500000 33.000000 1.5
50% 100.000000 120.000000 46.000000 2.0
75% 125.000000 125.000000 68.000000 2.5
max 150.000000 130.000000 90.000000 3.0
['rojo' 'verde']
rojo     2
verde    1
Name: color, dtype: int64
tabla.Portugal.map(lambda p:p - tabla.Portugal.mean())
Producto A    11.666667
Producto B    21.666667
Producto C   -33.333333
Name: Portugal, dtype: float64
tabla.Portugal - tabla.Portugal.mean()
Producto A    11.666667
Producto B    21.666667
Producto C   -33.333333
Name: Portugal, dtype: float64
def remean_Portugal(row):
    row.Portugal = row.Portugal - tabla.Portugal.mean()
    return row

tabla.apply(remean_Portugal, axis='columns')
España Portugal Francia color id
Producto A 100 11.666667 90 rojo 3
Producto B 150 21.666667 20 verde 2
Producto C 80 -33.333333 46 rojo 1


rojo      75
verde    130
Name: Portugal, dtype: int64
tabla.groupby('color').apply(lambda df: df.Portugal.iloc[0])
rojo     120
verde    130
dtype: int64
tabla.groupby(['color']).Portugal.agg([len, min, max])
len min max
rojo 2 75 120
verde 1 130 130
tabla_revisada = tabla.groupby(['color', 'id']).España.agg([max])
color id
rojo 1 80
3 100
verde 2 150
color id max
0 rojo 1 80
1 rojo 3 100
2 verde 2 150


tabla_revisada.sort_values(by='max', ascending=False)
color id
verde 2 150
rojo 3 100
1 80
España Portugal Francia color id
Producto A 100 120 90 rojo 3
Producto B 150 130 20 verde 2
Producto C 80 75 46 rojo 1
tabla.sort_values(by=['España', 'id'])
España Portugal Francia color id
Producto C 80 75 46 rojo 1
Producto A 100 120 90 rojo 3
Producto B 150 130 20 verde 2

Valores faltantes

tabla.España.dtype, tabla.color.dtype
(dtype('int64'), dtype('O'))
España       int64
Portugal     int64
Francia      int64
color       object
id           int64
dtype: object
tabla.Francia.astype('float64')   # cambiar el tipo de dato
Producto A    90.0
Producto B    20.0
Producto C    46.0
Name: Francia, dtype: float64
España Portugal Francia color id
tabla.color.replace("rojo", "amarillo")
Producto A    amarillo
Producto B       verde
Producto C    amarillo
Name: color, dtype: object


tabla.rename(columns={'Francia': 'Alemania'})
España Portugal Alemania color id
Producto A 100 120 90 rojo 3
Producto B 150 130 20 verde 2
Producto C 80 75 46 rojo 1
tabla.rename(index={'Producto A': 'Producto D'})
España Portugal Francia color id
Producto D 100 120 90 rojo 3
Producto B 150 130 20 verde 2
Producto C 80 75 46 rojo 1
tabla.rename_axis("Productos", axis='rows').rename_axis("Paises", axis='columns')
Paises España Portugal Francia color id
Producto A 100 120 90 rojo 3
Producto B 150 130 20 verde 2
Producto C 80 75 46 rojo 1


