공부/Python4 파케이, 컬럼 기반/ 행 기반 데이터 포맷 parquet(파케이)- parquet: 하둡에서 컬럼 방식으로 저장하는 포멧컬럼 방식: 메모리 내에 데이터 저장시, 열을 순차 블록에 저장하는 방식컬럼 별로 인코딩을 사용할 수 있으며, 비슷한 값끼리 모아 저장하므로 압축률이 높아 파일 크기가 작다컬럼 단위로 I/O가 발생하므로 aggregation 쿼리 수행 시 처리 속도가 빠르다python을 사용해 열 경우 pyarrow라는 엔진을 사용해 읽고, snappy라는 엔진을 사용해 압축한다※ 주의! pandas dataframe으로 읽어온 데이터 프레임은 서로 다른 형식의 데이터가 한 컬럼안에 존재하는 경우 object라는 타입으로 저장하는데, object 타입으로 저장된 컬럼이 존재하는 pandas dataframe을 to_parquet 명령어로 par.. 2023. 8. 9. 주피터 노트북 메모리 표시 모듈 추가 노트북 내 전체 메모리 사용량 표시 설치 !pip install jupyter-resource-usage 함수 메모리 사용량 표시 설치 !pip install memory_profiler !pip install line_profilerimport import line_profiler profile = line_profiler.LineProfiler() #메모리 체크하고싶은 함수 위에 @profile 2023. 7. 31. polars - pandas 보다 8배 빠른 라이브러리가 있다? 출처: https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e Pandas vs. Polars: A Syntax and Speed Comparison Understanding the major differences between the Python libraries Pandas and Polars for Data Science towardsdatascience.com 170만 행을 가진 텍스트 데이터를 읽어올 일이 생겼는데 평소처럼 pd.read_XXX 를 진행했더니 하나 읽는 데만 한 세월. 옆자리 대리님께서(그저 빛) polars 라는 라이브러리가 있는데, 데이터 읽어오는 속도가 pandas의 .. 2023. 3. 10. Iterable / Iterator Iterable / Iterator * iterate[동사] : (계산·컴퓨터 처리 절차를) 반복하다 - 출처 : 네이버 영어사전 Iterable : 반복가능한 객체 ex. list, dict, set, str, bytes, tuple, range Iterator : 값을 차례대로 꺼내는 기능을 제공하는 객체. iter()를 사용하여 객체를 생성하고, next()를 사용하여 하나씩 꺼냄 arr=[1,2,3] arr=iter(arr) # iterator 객체 생성 next(arr) # iterator >>> 1 next(arr) >>> 2 next(arr) >>> 3 next(arr) >>> StopIteration Traceback (most recent call last) 2021. 11. 18. 이전 1 다음