PySpark에서 MinIO와 Iceberg를 연동해 DataLake 구축하기
홀쑥:
목표spark 및 iceberg 사용 경험을 위해 pyspark로 HadoopCatalog를 사용하는 MinIO에 iceberg 테이블을 만들고, 샘플 데이터를 삽입 후 쿼리해서 결과를 얻어보려고 한다. 사전 설치1. 접근 가능한 Spark Cluster(pyspark)2. UV(파이썬 패키지 및 프로젝트 매니저)3. Spark에 설치된 pyspark와 같은 버전의 python4. MinIO(또는 S3)테스트 준비프로젝트 생성uv로 프로젝트를 생성한다uv init spark_test 샘플데이터 준비테이블에 넣기 위한 데이터를 준비한다faker 라이브러리로 데이터 생성하는 스크립트 생성하기 위해 라이브러리 설치한다. 샘플이기에 pyproject에 추가하지 않는다uv pip install Faker tqdm..