مقایسه‌ی مدل‌های درخت تصمیم M5 و الگوریتم نزدیک‌ترین همسایگی K در پیش‌بینی بارش ماهانه (مطالعه موردی:ایستگاه سینوپتیک بیرجند)

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه مهندسی آب، دانشکده کشاورزی، دانشگاه بیرجند، بیرجند ایران

2 استادیار گروه مهندسی آب، دانشگاه بیرجند، بیرجند، ایران

3 استادیار گروه مهندسی آب دانشگاه بیرجند، بیرجند، ایران

چکیده

باتوجه به واقع شدن ایران در اقلیم خشک و نیمه خشک، توزیع ناهمگن بارندگی و همچنین وقوع پدیده‌ی تغییراقلیم سبب ایجاد پدیده‌هایی مانند سیل، خشکسالی، بیان‌زایی و تولید ریزگردها و نیز ایجاد خسارت‌های مختلف اقتصادی، اجتماعی و زیست‌محیطی گردیده است. یکی از راهکارهای اولیه جهت کاهش این خسارات، پیش‌بینی رخداد بارندگی است. هدف از مطالعه‌ی حاضر پیش‌بینی بارش ماهانه با بکارگیری روش‌های داده‌کاوی الگوریتم‌های درخت تصمیم (M5) و نزدیک‌ترین همسایگی K (KNN) و مقایسه‌ی این دو روش در راستای تعیین روش کاراتر در زمینه‌ی پیش‌بینی بارندگی با استفاده از داده‌‌های هواشناسی ماهانه‌ی ایستگاه سینوپتیک بیرجند طی دوره‌ی آماری 2010-1961 میلادی در سه حالت داده خام، میانگین‌متحرک سه‌ساله و میانگین‌متحرک پنج‌ساله در نرم افزار Weka می‌باشد. نتایج نشان داد که در تمامی سناریوهای تعریف شده، مدل درختی M5 نسبت به مدل KNN توانایی بیشتری در پیش‌بینی بارش ماهانه‌ی این ایستگاه دارد. همچنین پس از بررسی معیارهای ارزیابی R،RMSE ، MAE و NS، سناریو پانزدهم با پارامترهای ورودی اختلاف میانگین حداکثر و حداقل دما، متوسط رطوبت نسبی، میانگین سرعت باد و درجه روز سرمایش (بر پایه 21 درجه سانتی‌گراد) در هر ماه به عنوان بهترین سناریو برای پیش‌بینی بارش همان ماه تعیین گردید. همچنین نتایج به دست آمده از مقایسه‌ی سناریوهای تعریف شده در هر مدل در سه حالت داده‌های خام، میانگین متحرک سه ساله و میانگین متحرک پنج ساله نشان می‌دهد که در اکثر سناریوها میانگین متحرک پنج ساله به طور میانگین با مقادیر 90445/0R=، 0543/6RMSE= و 78035/4MAE= در مدل M5 و به طور میانگین با مقادیر 83689/0R=، 69825/7RMSE= و 595/5MAE= در مدل KNN پیش‌بینی دقیق‌تری از بارش ماهانه را ارائه می‌دهد.

کلیدواژه‌ها


عنوان مقاله [English]

Comparison of Decision Tree M5 and K-Nearest Neighborhood Algorithm Models In The Prediction of Monthly Precipitation (Case Study: Birjand Synoptic Station)

نویسندگان [English]

  • fatemeh poursalehi 1
  • Ali Shahidi 2
  • Abbas khashei siuki 3
1 Water Engineering department, Faculty of Agriculture, Birjand University, Birjand, Iran
2 Assistant professor Department Water Engineering University of Birjand ., Birjan., Iran
3 Assistant Prof of Water Engineering, Department. University of Birjand., Birjand., Iran
چکیده [English]

Due to the location of Iran in dry and semi-arid climate, heterogeneous distribution of precipitation and also the occurrence of a climate change phenomenon has caused phenomena such as floods, drought, desertification and dust production and also creating the different economic, social and environmental damages. One of the primary strategies to reduce these losses, is prediction of the precipitation events. The goal of the present study is monthly precipitation prediction with using data mining methods of decision tree (M5) and K-Nearest Neighbor (KNN) algorithms and Comparing these methods in order to determining more efficient method in the field of predicting the precipitation using monthly meteorological data of Birjand synoptic station during the statistical period 1961-2010 in three cases the raw data, the three-year moving average and the five-year moving average in the Weka software. The results showed that in all defined scenarios, the tree model M5 has more ability than the KNN model to predict the monthly precipitation of the station. Also after investigation of the evaluation criteria R, RMSE, MAE and NS, the fifteenth scenario with input variables such as mean difference of maximum and minimum temperature, average relative humidity, average wind speed and cooling degree days (base 21 ° C) in every month was determined as the best scenario for predicting the same month precipitation. Also the obtained results from comparing the defined scenarios in each model in three states raw data, three-year moving average and five-year moving average show that in most scenarios The five-year moving average on average, with the values of R=0.90445, RMSE=6.0543 and MAE=4.78035 in the M5 model and on average, with the values of R=0.83689, RMSE=7.69825 and MAE=5.595 in the KNN model offers more accurate prediction of monthly Precipitation.

کلیدواژه‌ها [English]

  • Data mining methods
  • Decision tree
  • Drouth
  • K-Nearest Neighborhood
  • Weka software
امیدوار، ک.، شفیعی، ش.، تقی­زاده، ز. و علی­پور، م. 1393. ارزیابی کارایی مدل درخت تصمیم در پیش بینی بارش ایستگاه
سینوپتیک کرمانشاه. نشریه تحقیقات کاربردی علوم جغرافیایی. سال چهاردهم، شماره 34، صفحات 89-110.
خلیلی، ن.، خداشناس، س.ر.، داوری، ک. و موسوی­بایگی، م. 1389. پیش­بینی بارش روزانه با استفاده از شبکه­های عصبی مصنوعی مطالعه موردی: ایستگاه سینوپتیک مشهد. مجله پژوهش‌های آبخیزداری (پژوهش و سازندگی). شماره 89، صفحات 15-7.
دستورانی، م.ت.، حبیبی­پور، ا.، اختصاصی، م.ر.، طالبی، ع. و محجوبی، ج. 1391. بررسی کارایی مدل درخت تصمیم در پیش بینی بارش (مطالعه موردی ایستگاه سینوپتیک یزد). مجله تحقیقات منابع آب ایران. سال هشتم، شماره 3، 14-27.
ستاری، م.ت. و نهرین، ف. 1392. پیش­بینی مقادیر حداکثر بارش روزانه با استفاده از سیستم­های هوشمند و مقایسه آن
با مدل درختی M5؛ مطالعه موردی ایستگاه­های اهر و جلفا. فصلنامه‌ی علمی-پژوهشی مهندسی آبیاری و آب. سال چهارم، شماره چهاردهم، صفحات 83-98.
سیدکابلی، ح.، آخوندعلی، ع.م.، مساح­بوانی، ح. و رادمنش، ف. 1391. ارائه مدل ریزمقیاس نمایی داده‌های اقلیمی براساس روش ناپارامتریک نزدیکترین همسایگی (K-NN). نشریه آب و خاک (علوم و صنایع کشاورزی). جلد 26، شماره 4، صفحات 808-779.
طالبی، ع. و اکبری، ز. 1392. بررسی کارایی مدل درختان تصمیم­گیری در برآورد رسوبات معلق رودخانه­ای (مطالعه موردی: حوضه سد ایلام). مجله علوم و فنون کشاورزی و منابع طبیعی، علوم آب و خاک. سال هفدهم، شماره 63، صفحات 121-109.
فدایی­کرمانی، ا.، خانجانی، م.ج. و بارانی، غ.ع. 1393. کاربرد الگوریتم K-نزدیک­ترین همسایگی در پایش خشکسالی بر مبنای شاخص بارش استاندارد (SPI)  (مطالعه موردی: شهرستان بم). فصلنامه بین المللی پژوهشی تحلیلی منابع آب و توسعه. شماره 1، صفحات 138-131.
قربانی، خ. 1393. ارزیابی مدل­های داده­کاوی در ریزمقیاس نمایی بارش براساس داده­های مدل گردش عمومی
NCEP  (مطالعه موردی: ایستگاه سینوپتیک کرمانشاه). مجله پژوهش آب ایران. سال هشتم، شماره 15، صفحات 177-186.
مهدوی،م . 1374. هیدرولوژی کاربردی، چاپ دوم، انتشارات دانشگاه تهران، تهران.
نعیمی، م. و احقاقی، ا. 1381. بررسی و مدیریت خشکسالی در ایران. مرکز اطلاعات و مدارک علمی ایران. شماره 484824.
Alberg, D., M. Last and A. Kindle. 2012. Knowledge discovery in data streams with regression tree methods.  WIREs Data Mining Knowl Discov (2): 69-78.
Chattopadhyay, S. 2007. Feed forward artificial neural network model to predict the average summer-monsoon rainfall in India, Acta Geophysical, No. 55(3), pp. 369-382.
Chuan, C.S. 1997. Weather prediction using artificial neural network, Journal of Hydrology, 230: 101-119.
Hung, NQ., Babel, MS., Weesakul, S., Tripathi, NK. 2008. An artificial neural network model for rainfall forecasting in Bankok, Thailand, Hydrology and Earth System Sciences Discussions, No. 5, pp. 183–218.
Jagtap SS. Lall U. Jones, JW. Gijsman AJ. Ritchie JT. 2004. Dynamic nearest-neighbor method for  estimating soil water parameters.Trans. ASAE. 47:1437–1444.
Lall, U., and Sharma, A. 1996. A nearest neighbor bootstrap for resampling hydrologic time series, Water Resources Research, 32(3), 679-694.
Maria, C., Haroldo , F., Ferreira, N. 2005. Artificial neural network technique for rainfall forecasting
applied to the Sao Paulo region, Journal of Hydrology, No. 301, pp.146-162.
Nash, J. E. and Sutcliffe, J. V. 1970. River flow forecasting through conceptual models, Part I - A discussion of principles, J. Hydrol., 10, 282–290.
Trafalis, TB., White, A., Santosa, B., Richman, MB. 2002. Data mining techniques for improved WSR-88D rainfall estimation, Computers in Industrial Engineering, No. 43, pp. 775–786.
Witten,  L. and Frank, E. 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann Publishers.
Xindung,  W.  &  Kumar,  V. 2009.  Top  Ten  Algorithm  in Data Mining, First Edition, Taylor & Francis Group , USA.
Yakowitz, S. J. 1985. Nonparametric density estimation, prediction, and regression for markov sequences. J. Am. Stat. Assoc., 80, 215-221