04. Loading data(from GCS)
- 이번 문서에서는 Google Cloud Storage에서 Data를 BigQuery로 Load하는 방법을 소개드리겠습니다
- Kaggle 경진대회 데이터를 BigQuery에 넣고 활용해보겠습니다
- 위 사진은 Kaggle이란 사이트에서 진행하고 있는 경진대회입니다!
- Web Traffic 대회 데이터를 넣어보겠습니다!
- 위키피디아의 데이터네요. 유사한 데이터가 BigQuery Public Data에 존재합니다!
- Data를 다운로드한 후, BigQuery Console로 이동해주세요-!
- My project라고 써있는 곳 우측의 삼각형 버튼을 클릭해주세요!
- Create new dataset 클릭해주세요-!
- Dataset ID(이름)와 Data location, expiration을 설정해주세요! (저는 ID만 지정했습니다)
- 생성된 후 Dataset에서 + 버튼을 눌러주세요
- 그 다음 화면에서 File upload - Choose file을 통해 직전에 받은 파일을 클릭했더니 다음과 같은 오류가 발생했습니다
- 10mb 미만만 직접 올릴 수 있고, 그보다 크다면 GCS를 이용하라고 합니다
- 그렇다면! 구글 클라우드 콘솔로 이동해주세요
- ( 참고로 Schema에서 Automatically detect를 체크하면 쉽게 Column을 찾아서 매칭해줍니다 )
- Storage가 이미 존재하는 경우엔 해당 버켓에 넣어도 되고, 존재하지 않는다면 '버킷 생성' 버튼을 눌러 새로운 버켓을 생성합니다
- 그 이후 파일 업로드를 통해 다시 파일을 GCS로 업로드해주신 후, 해당 링크를 BigQuery로 연결하면 됩니다!
요약
- Data Load는 4가지 방법으로 할 수 있습니다
- File Upload
- Google Cloud Storage
- Googld Drive
- Google Cloud Bigtable
- 1번 File Upload는 데이터의 용량이 10mb 미만일 경우 사용 가능합니다
- 2번 Google Cloud Storage는 버켓에 데이터를 업로드한 후, Data load를 누르면 됩니다
- 3번 Google Drive 연동은 정말 쉽습니다! Spread Sheet 연동시 사용
- 4번 Google Cloud Bigtable을 사용하는 것은 초반에 간단히 진행하기 어렵기 때문에 본 문서에선 제외했습니다