notebook.community

Edit and run



In [ ]:

    
import sqlite3
import pandas
import re
import os
from IPython.core.display import display, HTML, Javascript, display_javascript



In [ ]:

    
display(HTML("<style>.container { width:98% !important; }</style>"))



In [ ]:

    
!ls -l ../data/*/*



In [ ]:

    
# capacity by user
cn = sqlite3.connect('../data/%s/%s-qumulo-api-data.db' % ('gravytrain', '2017-06-25'))
df_cap = pandas.read_sql('SELECT * FROM capacity_sample', cn)
total_count = len(df_cap)
df_grouped = df_cap.groupby(['owner_id', 'owner_detail_id'])[['size_bytes']].count().reset_index()
df_grouped['size_percent'] =100 * df_grouped['size_bytes'] / total_count
df_grouped[df_grouped['size_percent']>0.1].sort_values(['size_percent'], ascending=[False]).style.format({
    'size_percent': '{:,.2f}'.format
})



In [ ]:

    
# capacity by path, top level
df_cap = pandas.read_sql('SELECT * FROM capacity_sample', cn)
df_cap['dir2'] = df_cap['path'].apply(lambda x: '/'.join(x.split('/')[:2]))
# df_cap['size_percent'] =100 * df_cap['size_bytes'] / total_count
df_cap1 = df_cap.reset_index().groupby(['dir2'])[['size_bytes']].count().sort_values(['size_bytes'], ascending=[False]).reset_index()
# df_cap1['size_perc'] =



In [ ]:



In [ ]:



In [ ]:

    
new_df = df_cap.pivot_table(values='size_bytes', columns='dir2', index='owner_id', aggfunc='count').fillna('')
new_df



In [ ]: