Scikit-Learn 패키지의 샘플 데이터 사용법

sklearn.datasets 서브패키지는 모형 실습을 위한 예제 데이터 세트를 제공한다.

예제 데이터 세트를 불러오는 명령들은 크게 다음과 같은 세가지 계열의 명령으로 나눌 수 있다.

  • load 계열 명령: 저장된 dataset import
  • fetch 계열 명령: 인터넷에서 캐쉬로 download 후 import
  • make 계열 명령: 가상 dataset을 생성

load 계열 명령

예제 데이터 세트는 데이터 크기가 작은 것부터 큰 것까지 다양하다. scikit-learn 패키지는 작은 예제 데이터는 패키지 안에 포함하여 배포하고 크기가 큰 것들은 첫번째로 데이터를 불러들일때 인터넷에서 다운로드받아 저장해 놓았다가 불러온다.

load 계열의 명령들은 패키지에 처음부터 저장되어 다운로드 없이 바로 쓸 수 있는 것들이다.

  • load_boston(): 회귀 분석용 보스턴 집값
  • load_diabetes(): 회귀 분석용 당뇨병 자료
  • load_linnerud(): 회귀 분석용 linnerud 자료
  • load_iris(): classification용 iris 자료
  • load_digits(): classification용 숫자 필기 이미지 자료
  • load_sample_image(): 압축용 이미지

fetch 계열 명령

fetch 계열의 명령들은 데이터의 크기가 커서 패키지에 처음부터 저장되어 있지 않고 인터넷에서 다운로드 받아 홈 디렉토리 아래의 scikit_learn_data 라는 서브 디렉토리에 저장한 후 추후 불러들이는 데이터들이다. 따라서 최초 사용시에 인터넷에 연결되어 있지 않으면 사용할 수 없다.

  • fetch_covtype() : 회귀분석용 토지 조사 자료
  • fetch_20newsgroups() : 뉴스 그룹 텍스트 자료
  • fetch_olivetti_faces() : 얼굴 이미지 자료
  • fetch_lfw_people() : 얼굴 이미지 자료
  • fetch_lfw_pairs() : 얼굴 이미지 자료
  • fetch_rcv1() : 로이터 뉴스 corpus
  • fetch_mldata() : ML 웹사이트에서 다운로드

make 계열 명령

경우에 따라서는 모형을 시험하기 위해 원하는 특성을 가진 가상의 데이터가 필요할 수 있다. make 계열 명령은 이러한 가상 데이터를 생성하는 역할을 한다.

  • make_regression(): 회귀 분석용 가상 데이터 생성
  • make_classification(): 분류용 가상 데이터 생성
  • make_blobs(): 클러스터링용 가상 데이터 생성

데이터 세트의 형식

scikit-learn의 대부분의 샘플 데이터는 Bunch 라는 클래스 객체로 생성된다. 이 클래스 객체는 다음과 같은 속성을 가진다.

  • data: (필수) 독립 변수 ndarray 배열
  • target: (필수) 종속 변수 ndarray 배열
  • feature_names: (옵션) 독립 변수 이름 리스트
  • target_names: (옵션) 종속 변수 이름 리스트
  • DESCR: (옵션) 자료에 대한 설명