• 티스토리 홈
  • 프로필사진
    홀쑥
  • 방명록
  • 공지사항
  • 태그
  • 블로그 관리
  • 글 작성
홀쑥
  • 프로필사진
    홀쑥
    • 분류 전체보기 (57)
      • Language & Framework (14)
        • Java (1)
        • Python (13)
      • DataBase (4)
        • NoSQL (1)
        • RDBMS (3)
      • Big Data & Ecosystem (9)
        • Hadoop (5)
        • Hive (2)
        • Sqoop (1)
        • Zeppelin (1)
      • Data Engineering (1)
        • Airflow (1)
      • Cloud & DevOps (1)
        • AWS (0)
        • GCP (1)
      • Monitoring & Logging (2)
        • ElasticSearch (2)
      • Infrastructure (12)
        • OS (12)
        • Docker (0)
        • Kubernetes (0)
      • Algorithm & CS (7)
        • 백준 알고리즘 (6)
      • Troubleshooting (5)
        • 오류 모음 (5)
  • 방문자 수
    • 전체:
    • 오늘:
    • 어제:
  • 최근 댓글
      등록된 댓글이 없습니다.
    • 최근 공지
        등록된 공지가 없습니다.
      # Home
      # 공지사항
      #
      # 태그
      # 검색결과
      # 방명록
      • 포스트글 썸네일 이미지
        [Python] Polars Lazy API로 효율적인 데이터 처리
        홀쑥:
        Polars Lazy APIPolars의 Lazy API란 연산을 즉시 실행하지 않고, 연산 계획을 세운 후 실제 결과가 필요할 때 collect()를 통해 실행하는 방식이다.이런 지연실행 방식은 불필요한 연산을 줄이고, 최적화된 쿼리 실행을 가능하게 하여 데이터 처리 속도를 크게 향상시킨다. 왜 Lazy API를 사용할까?성능 최적화Polars는 쿼리 계획을 생성한 뒤 최적화를 통해 불필요한 연산을 제거하거나 순서를 조정하여 성능을 높인다.(predicate pushdown)메모리 효율성Polars는 필요한 컬럼이나 행만 메모리에 올려, 메모리 사용량을 최소화한다.(projection pushdown)대규모 데이터 처리전체 데이터를 한 번에 로드하지 않고, 스트리밍 방식으로 데이터를 처리하여 메모리를 ..
        • 2025-04-21 23:23:45
      • 포스트글 썸네일 이미지
        [Python] Polars의 데이터 타입과 구조
        홀쑥:
        Polars에서 Data Type과 Structure데이터 타입Polars는 다양한 데이터 타입을 지원하며 모든 결측값을 NaN이 아닌 null로 표현한다.숫자 데이터 타입Signed Integers(부호가 있는 정수)Int8, -128~127Int16, -32768 ~ 32767Int32, -2147483648 ~ 2147483647Int64, -9223372036854775808 ~ 9223372036854775807Unsigned Integers(부호가 없는 정수)UInt8, 0 ~ 255UInt16, 0 ~ 65535UInt32, 0 ~ 4264967295UInt64, 0 ~ 18446744073709551615Floating point numbers(부동소수점)Float32, 단정밀도Float6..
        • 2025-04-10 23:17:01
      • 포스트글 썸네일 이미지
        [Python] Polars, 빠른 속도와 낮은 메모리의 DataFrame 라이브러리
        홀쑥:
        Polars이번 글에선 Python의 라이브러리인 Polars에 대해 알아보려고 한다.Polars란?Polars란 Rust 기반으로 작성된 고성능 DataFrame 라이브러리로 Python에서는 binding을 통해 사용한다.일반적으로 사용하는 Pandas보다 적은 메모리로 더 빠른 연산을 수행할 수 있고, 지연평가(Lazy Evaluation)를 사용할 수 있어 대규모 데이터 작업에 유리하다.Python Binding은 다른 프로그래밍 언어로 작성된 코드를 파이썬에서 호출할 수 있도록 연결해 주는 Interface, Polars에선 PyO3 패키지를 사용DataFrame이란 데이터를 행과 열로 구성된 2차원 표(스프레드시트와 비슷)로 정리하는 데이터 구조로 데이터 분석 및 처리에서 보편적으로 쓰이는 데..
        • 2025-04-04 23:33:46
      • 포스트글 썸네일 이미지
        [Python] JSON 직렬화와 역직렬화(json, ujson, orjson, msgspec)
        홀쑥:
        이번 게시글은 Python에서 JSON을 직렬화, 역직렬화 하는 패키지들을 비교해보려고 한다.TL;DR일반적인 사용 -> json속도와 성능 -> orjsonMessagePack을 사용하거나 타입 검증이 필요 -> msgspecujson -> 비추천(신규개발 중단)JSON이란?JSON(JavaScript Object Notation)은 Javascript 객체 문법으로 구조화된 데이터를 표현하기 위한 문자 기반의 표준 포맷이다.비록 Javascript 객체 문법이지만, 문자 기반이기에 다양한 플랫폼 및 프로그래밍 언어에서 사용할 수 있다.# JSON 예시{ "key1" : "value1", "key2" : "value2", "key3" : { "child_key_1" : "value3..
        • 2025-03-22 01:34:32
      조회된 결과가 없습니다.
      [1][2][3][4]
      스킨 업데이트 안내
      현재 이용하고 계신 스킨의 버전보다 더 높은 최신 버전이 감지 되었습니다. 최신버전 스킨 파일을 다운로드 받을 수 있는 페이지로 이동하시겠습니까?
      ("아니오" 를 선택할 시 30일 동안 최신 버전이 감지되어도 모달 창이 표시되지 않습니다.)
      목차
      표시할 목차가 없습니다.
        • 안녕하세요
        • 감사해요
        • 잘있어요

        티스토리툴바