Vi importerer et regneark og ser hva vi finner.
In [14]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
# https://pandas.pydata.org/pandas-docs/stable/visualization.html
In [9]:
df = pd.read_excel('data/barentshavet-sorost-fremskriving.xlsx')
Vi begynner med å kontrollere dataframen vår. Ser tallene rett ut? Har vi fått med oss alle dataene? Vi vet at det skal være 24 rader med data (2027 - 2050)
In [10]:
df.head(n=3)
Out[10]:
In [11]:
df.describe()
Out[11]:
Et annet mål på middelverdi er median som sier hva det midterste tallet i datasettet vårt er. La oss undersøke gass.
In [36]:
df.gass.median()
Out[36]:
Dette forteller oss at det er 12 tall som er under 0.9 og 12 tall som er over. Altså må det være et stort tall her.
In [37]:
df.plot(title="Olje og gass", x="årstall", y=["olje", "gass"])
Out[37]:
Vi aner i ugler i mosen av den voldsomme økningen i 2050. Hva kan ha skjedd her? Magen sier at her har det vært en tastefeil. La oss se hvordan tallene for 2050 ser ut.
In [27]:
df.tail(n=5)
Out[27]:
Skulle det vært et komma i 2050-tallene? Men det virker rart med et plutselig hopp. Kan det være sum? La oss finne ut hva summen er for tallene.
In [38]:
df.sum()
Out[38]:
Summen virker å være rund det doble av 2050-tallene. La oss ta alle tallene for år som er lavere enn 2050 og summere de.
In [39]:
df_pre2050 = df[df['årstall'] < 2050]
In [40]:
df_pre2050.sum()
Out[40]: