빅쿼리로 데이터 로드하기

가장 기본적인 방법

스키마 지정하기

실제 데이셋을 빅쿼리에 데이터를 로드하기 전에 반드시 데이터의 정리와 변형을 해야한다. 유닉스 도구를 이용해 대체된 데이터를 NULL 값으로 바꾼다.

유닉스 도구

1
2
3
zless ./college_scorecard.csv.gz | \
sed 's/PrivacySuppressed/NULL/g' | \
gzip > /tmp/college_scorecard.csv.gz
  • 문자열 편집기(sed): PrivacySuppressed 문자열을 모두 NULL 값으로 바꾼 후 그 결과를 압축해서 임시 폴더에 저장
Share