randomForest: r_statistics

vladhr_1989 in r_statistics

randomForest

Jun 30, 2015 10:55

Доброго времени суток! Проблемка с пакетом randomForest. Для начала, я разделил датасет на обучающую и тестовую выборку, но ошибка прогноза на тестовой выборке оказалась намного выше, чем на обучающей - то есть модель переобучена :( Как я понимаю, причина в том, что во-первых - маленькие группы, во-вторых - пердикторов больше, чем наблюдений... Может сможете подсказать что можно сделать с переобучением в этом случае... Заранее благодарю. Данные в csv-файла, ссылка:
https://yadi.sk/i/TohtN9JShWLnr

ak<-read.csv("ishod_2.csv", sep=";", dec=",", header=TRUE)

Разделение данных на тестовую и обучающую выборки:
ind <- sample(2,nrow(ak),replace=TRUE,prob=c(0.7,0.3))
train <- ak[ind==1,]
test <- ak[ind==2,]

Модели "случайного леса" на тестовой и обучающей выборках:

model.train<-randomForest(Species ~., data=train)
print(model.train)

model.test<-randomForest(Species ~., data=test)
print(model.test)