notebook.community

Edit and run



In [2]:

    
import pandas as pd

#df = pd.read_csv('mlsmall.csv')
#print(df.describe())
#print(df.head())



In [8]:

    
print(df.info())









    



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100004 entries, 0 to 100003
Data columns (total 4 columns):
userId       100004 non-null int64
movieId      100004 non-null int64
rating       100004 non-null float64
timestamp    100004 non-null int64
dtypes: float64(1), int64(3)
memory usage: 3.1 MB
None



In [20]:

    
columns = ['userId', 'movieId', 'rating']
d2 = pd.DataFrame()
for column in columns:
    d2[column] = df[column]
d2['rating'] = [int(rating*2.0) for rating in d2['rating'].values]
print(d2.head())
#d2.to_csv('mlsmall-new.csv', index=False, sep=',')\









    



   userId  movieId  rating
0       1       31       5
1       1     1029       6
2       1     1061       6
3       1     1129       4
4       1     1172       8



In [14]:

    
columns = ['user_id', 'movie_id', 'rating', 'timestamp']
fields = columns[:-1]
#print(fields)
for i in range(1, 6):
    train_file = 'u'+str(i)+'.base'
    test_file = 'u'+str(i)+'.test'
    df = pd.read_csv(train_file, sep='\t', names = columns)
    #print(df.head())
    df = df[fields]
    #print(df.head())
    train_file = 'train'+str(i)+'.csv'
    df.to_csv(train_file, sep=',', index = False)
    df = pd.read_csv(test_file, sep = '\t', names = columns)
    df = df[fields]
    test_file = 'test'+str(i)+'.csv'
    df.to_csv(test_file, sep=',', index = False)



In [ ]: