Homework 2 - Clustering Dataset

This is a clustering dataset for practicing K-Means and k-NN algorithms.



In [1]:

    
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split



In [2]:

    
# Basic IO
filename = 'clustering/dataset.csv'
dataset  = pd.read_csv(filename)

# Randomize Dataset
dataset = dataset.sample(frac=1,random_state=32).reset_index()
dataset.head()



In [3]:

    
dataset.drop(['index','y'], axis=1, inplace=True)
dataset.head()



In [4]:

    
# Write to Text Data
dataset.to_csv('clustering/synth_all.csv', index=False)

	index	x1	x2	y
0	1123	24.8697	14.6393	12
1	2554	23.3448	16.4908	26
2	2362	26.6545	22.6042	24
3	687	21.8222	27.1835	7
4	18	25.8840	6.3294	1

	x1	x2
0	24.8697	14.6393
1	23.3448	16.4908
2	26.6545	22.6042
3	21.8222	27.1835
4	25.8840	6.3294