если алгоритм даёт хороший result на cross-validation, обязательно ли он будет также хорошо справляться с реальными данными ?
Ответ
Вовсе не обязательно, особенно если обучать на всех данных и потом проверять модель на данных, которые модель уже "видела" при обучении. MSE (Mean Squared Error) при этом может быть очень маленьким, но это ничего не скажет о том как ваша модель будет предсказывать данные, которых она не видела. Модель в этом случае часто оказывается переобученной (overfitting). Эта проблема называется - Data Leakage
Вот еще одна хорошая статья описывающая проблему "утечки данных" и то как с этим бороться
Комментариев нет:
Отправить комментарий