-
์จ๋ ์์ธก ๋ชจ๋ธ ๋ง๋ค๊ธฐAI ๋ชจ๋ธ ์ฐ์ต 2025. 5. 6. 00:05
์ด๋ฒ ๋ชจ๋ธ์ ๊ณต๊ณต๋ฐ์ดํฐํฌํธ์ ์๋ 2020,2021,2022์ฐ๋์ ๋ ์จ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ตํ๊ณ 2023๋ ๋์ ์จ๋๋ฅผ ์ธก์ ํ๋๊ฒ ๋ชฉํ์ด๋ค
ํด์ผํ ์์ ์์๋ ์๋์ ๊ฐ๋ค
1. ๋ฐ์ดํฐ ํตํฉ ๋ฐ ์ ์ฒ๋ฆฌ
๐ ํด์ผ ํ ์ผ
- 2020, 2021, 2022๋ ๋ฐ์ดํฐ๋ฅผ ํ๋์ DataFrame์ผ๋ก ๋ณํฉ
- ๋ ์ง ๊ธฐ์ค์ผ๋ก ์ ๋ ฌํ๊ณ ์ค๋ณต ์ ๊ฑฐ
- min_temp, max_temp๊ฐ ํฌํจ๋ ์ด์ ํ์ ํ๊ณ , ๊ฒฐ์ธก๊ฐ ์ฒ๋ฆฌ
- ๋ ์ง๋ก๋ถํฐ ์(month), ์์ผ(dayofweek) ๋ฑ ํ์ ๋ณ์ ์์ฑ
- ๋ฐ์ดํฐ ์ ๋ฆฌ ๊ธฐ์ค:
- ๋ ์ง(Date)
- ๊ธฐ์จ ๊ด๋ จ ๋ณ์: min_temp, max_temp, (avg_temp, dew_point ๋ฑ)
- ๋ ์จ ๊ด๋ จ ๋ณ์: ๊ฐ์๋, ์ต๋, ํ์, ๊ธฐ์ ๋ฑ
2. ํ์์ ๋ฐ์ดํฐ ๋ถ์ (EDA)
๐ ํด์ผ ํ ์ผ
- ๊ธฐ์จ์ ์๊ณ์ด ์ถ์ด ์๊ฐํ (์ฐ๋๋ณ/์๋ณ ํ๊ท ๊ธฐ์จ)
- ๋ค๋ฅธ ๋ณ์๋ค๊ณผ์ ์๊ด๊ด๊ณ ๋ถ์ (e.g. ์ต๋ vs ๊ธฐ์จ)
- ๊ณ์ ์ฑ, ์ฃผ๊ธฐ์ฑ ํ์ธ (์, ์์ผ์ ๋ฐ๋ผ ๊ธฐ์จ ํจํด ์กด์ฌํ๋์ง)
3. ํผ์ฒ ์์ง๋์ด๋ง
๐ ๋ฃ์ ์ ์๋ Feature ์์
Feature ์ค๋ช month, dayofweek ๊ณ์ /์์ผ ํจ๊ณผ ๋ฐ์ lag_min_temp, lag_max_temp ํ๋ฃจ ์ ๊ธฐ์จ rolling_mean_temp_7 ์ต๊ทผ 7์ผ ํ๊ท ๊ธฐ์จ humidity, wind_speed, pressure ์ธ๋ถ ๊ธฐ์ ๋ณ์ 4. ๋ชจ๋ธ ์ ํ ๋ฐ ํ์ต
๐ ๋ชจ๋ธ ํ๋ณด
- ๊ฐ๋จํ ํ๊ท: LinearRegression
- ํธ๋ฆฌ ๊ธฐ๋ฐ ๋ชจ๋ธ: RandomForest, XGBoost, LightGBM (์ถ์ฒ)
- MLP (๋ค์ธต ํผ์ ํธ๋ก ): ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๋ชจ๋ธ
๐ ํ์ต ๋ฐฉ์
- train.csv: 2020~2022๋
- test.csv: 2023๋ ๋ฐ์ดํฐ
- ๋ชฉํ: min_temp, max_temp ์์ธก (ํ๊ท)
5. ํ๊ฐ ๋ฐ ๊ฐ์
๐ ํ๊ฐ ์งํ
- ๋ฌธ์ ์ค๋ช ์ ROC AUC๋ผ๊ณ ๋์ด์์ง๋ง ์ด๋ ๋ถ๋ฅ์ฉ ์งํ โ ํ๊ท ๋ฌธ์ ์์๋ RMSE๋ MAE๋ก ๋ก์ปฌ ํ ์คํธํ๋ ๊ฒ์ด ์์ฐ์ค๋ฝ๋ค.
- ์์ธก๊ฐ์ด ์ค์ ๊ฐ๊ณผ ์ผ๋ง๋ ๊ฐ๊น์ด์ง๋ฅผ ํ์ธ
[ํ๊ฒฝ์ค์ ]
[Colab ์ฌ์ฉ์]
1. https://colab.research.google.com/ ์ ์
2. ์ ๋ ธํธ๋ถ ์์ฑ
3. ์๋ ์ฝ๋ ์คํํ์ฌ ํ์ํ ํจํค์ง ํ์ธ
!pip install pandas scikit-learn xgboost lightgbm
4. CSV ํ์ผ ์ ๋ก๋:
from google.colab import files uploaded = files.upload() # ๋ก์ปฌ์์ ํ์ผ ์ ํํด์ ์ฌ๋ฆผ
5. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
import pandas as pd df = pd.read_csv("SURFACE_ASOS_159_DAY_2020_2020_2021.csv", encoding='cp949')
[๋ก์ปฌ (๋งฅ๋ถ)์์ VSCode or Jupyter Notebook ์ฌ์ฉ์]
๐ ์ค๋น ์ฌํญ
- Python 3.x ์ค์น
- ์๋ ํจํค์ง ์ค์น (ํฐ๋ฏธ๋์์)
pip install pandas scikit-learn matplotlib seaborn xgboost lightgbm jupyter
๐ ์คํ ๋ฐฉ๋ฒ
jupyter notebook
โ ๋ธ๋ผ์ฐ์ ์์ Jupyter ํ๊ฒฝ ์ด๋ฆฌ๊ณ , CSV ๋ถ๋ฌ์์ ์์ ๊ฐ๋ฅ