코드민수
[Python] 빅데이터분석기사 실기 자주 사용하는 코드 모음 본문
BIG
우선 저는 4회차였나 22년도에 빅데이터분석기사를 취득하였습니다.
시간이 많이 지나긴 했지만 당시 제가 공부하면서 정리했던 내용이 있어서 블로그에도 글로 남겨두려고 합니다.
이번 포스팅은 실기 작업형에서 간단하지만 자주 사용되는 코드입니다.
- 결측치 확인
print(df.isnull().sum())
- 결측치 채우기
df = df.fillna(df['칼럼명'].mean()) # mean, median, min, max 등
# 뒤에 나오는 값으로 채우기
df = df.fillna(method='bfill') # 앞에 값으로 채우기 method=ffill
- 결측치 제거
df = df.dropna(subset=['칼럼명']) # axis=0 or 1 -> 결측치가 있는 row, col을 drop
- Pandas DataFrame 정렬
df = df.sort_values('칼럼명', ascending=True) # 내림차순: ascending=False
- 칼럼 삭제
df = df.drop(['칼럼명'], axis=1)
- Min-Max Scale
from sklearn.preprocessing import minmax_scale
df['칼럼명'] = minmax_scale(data['칼럼명'])
- log1p Scale
import numpy as np
df['칼럼명'] = np.log1p(df['칼럼명'])
# x가 0이면 y가 -inf로 수렴하기 때문에 모든 값에 +1을 한 후 log 변환을 하는 log1p 사용
- IQR 구하기 (Q1, Q3)
# 방법1
import pandas as pd
Q1 = df['칼럼명'].quantile(25)
Q3 = df['칼럼명'].quantile(75)
# 방법2
import numpy as np
Q1 = np.percentile(df['칼럼명'], 25)
Q3 = np.percentile(df['칼럼명'], 75)
IQR = Q3 - Q1
# 이상치
x < Q1 - 1.5 * IQR
x > Q3 + 1.5 * IQR
- 왜도, 첨도 (skewness, kurtosis)
skew = df['칼럼명'].skew() # 왜도
kurt = df['칼럼명'].kurt() # 첨도
- datetime으로 type 변경 및 연, 월, 일, 요일 추출
import pandas as pd
df['Date'] = pd.to_datetime(df['Date'])
df['year'] = df['Date'].dt.year
df['month'] = df['Date'].dt.month
df['day'] = df['Date'].dt.day
df['dayofweek'] = df['Date'].dt.dayofweek # Monday=0 ~ Sunday=6
LIST
'[Python] > 빅데이터분석기사' 카테고리의 다른 글
[Python] 빅데이터분석기사 실기 작업형1 모의고사 (0) | 2023.04.02 |
---|