Recent Posts
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Today
Total
관리 메뉴

코드민수

[Python] 빅데이터분석기사 실기 자주 사용하는 코드 모음 본문

[Python]/빅데이터분석기사

[Python] 빅데이터분석기사 실기 자주 사용하는 코드 모음

코드민수 2023. 4. 1. 19:16
BIG

우선 저는 4회차였나 22년도에 빅데이터분석기사를 취득하였습니다.

 

시간이 많이 지나긴 했지만 당시 제가 공부하면서 정리했던 내용이 있어서 블로그에도 글로 남겨두려고 합니다.

 

이번 포스팅은 실기 작업형에서 간단하지만 자주 사용되는 코드입니다.


  • 결측치 확인
print(df.isnull().sum())

 

  • 결측치 채우기
df = df.fillna(df['칼럼명'].mean()) # mean, median, min, max 등

# 뒤에 나오는 값으로 채우기
df = df.fillna(method='bfill') # 앞에 값으로 채우기 method=ffill

 

  • 결측치 제거
df = df.dropna(subset=['칼럼명']) # axis=0 or 1 -> 결측치가 있는 row, col을 drop

 

  • Pandas DataFrame 정렬
df = df.sort_values('칼럼명', ascending=True) # 내림차순: ascending=False

 

  • 칼럼 삭제
df = df.drop(['칼럼명'], axis=1)

 

  • Min-Max Scale
from sklearn.preprocessing import minmax_scale
df['칼럼명'] = minmax_scale(data['칼럼명'])

 

  • log1p Scale
import numpy as np
df['칼럼명'] = np.log1p(df['칼럼명'])
# x가 0이면 y가 -inf로 수렴하기 때문에 모든 값에 +1을 한 후 log 변환을 하는 log1p 사용

 

  • IQR 구하기 (Q1, Q3)
# 방법1
import pandas as pd
Q1 = df['칼럼명'].quantile(25)
Q3 = df['칼럼명'].quantile(75)

# 방법2
import numpy as np
Q1 = np.percentile(df['칼럼명'], 25)
Q3 = np.percentile(df['칼럼명'], 75)

IQR = Q3 - Q1
# 이상치
x < Q1 - 1.5 * IQR
x > Q3 + 1.5 * IQR

 

  • 왜도, 첨도 (skewness, kurtosis)
skew = df['칼럼명'].skew() # 왜도
kurt = df['칼럼명'].kurt() # 첨도

 

  • datetime으로 type 변경 및 연, 월, 일, 요일 추출
import pandas as pd
df['Date'] = pd.to_datetime(df['Date'])

df['year'] = df['Date'].dt.year
df['month'] = df['Date'].dt.month
df['day'] = df['Date'].dt.day
df['dayofweek'] = df['Date'].dt.dayofweek # Monday=0 ~ Sunday=6

 

LIST