Страницы

Поиск по вопросам

вторник, 24 декабря 2019 г.

Нейронные сети - почему веса синапсов случайны при инициализации системы?

#нейронные_сети


Пытаюсь хотя-бы приблизительно понять нейронные сети, раз они стали настолько модными,
что даже на фрилансе их запрашивают.
Читаю эту серию: https://habrahabr.ru/post/312450/

"Важно помнить, что во время инициализации нейронной сети, веса расставляются в случайном
порядке."

Почему? Для автора статьи это, может, очевидно. Для меня нет.
Разве не может все обучение и работа пойти крахом, если программа изначально расставит
неправильный вес?
    


Ответы

Ответ 1



Цитата из Нейронные сети для обработки информации 3.9 методы инициализации весов ... На результаты обучения огромное влияние оказывает подбор начальных весов сети. Идеальными считаются начальные значения, достаточно близкие к оптимальным. При этом удается не только устранить задержки в точках локальных минимумов, но и значительно ускорить процесс обучения. К сожалению, не существует универсального метода подбора весов, который бы гарантировал нахождение наилучшей начальной точки для любой решаемой задачи. По этой причине в большинстве практических реализаций чаще всего применяется случайный подбор весов с равномерным распределением значений в заданном интервале. ...

Ответ 2



Если бы был способ найти идеальные начальные веса - то дальнейшее обучение сети просто не требовалось бы. Сам подход к обучению нейросети подразумевает старт с неправильной позиции в поисках правильной. При этом довольно важен тот факт, что начальные веса не могут быть полностью одинаковыми. Иначе они так одинаковыми в процессе обучения и останутся. Ну а раз мы все равно не знаем какие должны быть веса, и нельзя делать их одинаковыми - то идея взять случайные веса в общем случае выглядит не хуже прочих. Тем не менее, в частных случаях можно брать и другие начальные значения. К примеру, иногда начальные значения весов первого скрытого слоя подбирают как автоэнкодер.

Ответ 3



Потому что они все равно будут доучиваться,а при некоторой рандомной ситуации это может быть быстрее.Они не должны быть нулевыми,потому что матричный продукт будет нулевым,а входные сигналы всегда разные,под них собственно подстраивается нейросеть,соответсвенно не имеет их значение,лишь бы!=0.

Комментариев нет:

Отправить комментарий