Обновить
19

Пользователь

2
Подписчики
Отправить сообщение

А сколько свободных параметров?

Если у вас 8000 нейронов в скрытом слое - это порядка 6.5млн свободных параметров в сети. Для такой сетки 98.6% - очень плохой показатель, такие нейронки все дают результаты выше 99%, посмотрите обзор https://doi.org/10.1016/j.neunet.2021.01.026 , там в последней таблице есть бенчмарки по различным сеткам. И вообще, 8000 нейронов - это сильно много, по теории 1600 должно быть достаточно.

А что выбрано в качестве исходной архитектуры и сколько свободных параметров?

Просто у меня на тестовом датасете MNIST при 50тыс свободных параметров сети безо всяких оптимизаций, стандартным ADAMом, дефолтным батчем и LR точность 99.18% . Правда, архитектура проприетарная, да.

Хороший научный журналист - это вообще редкость. Как и вообще хороший специалист в любой области. Просто косяки остальных менее на виду.

Британские ученые - это шутливый журнал для студентов (https://journals.le.ac.uk/ojs1/index.php/pst), который и задумывался таким (у меня даже знакомый там в редколлегии). А здесь вроде приличные люди пишут в приличные журналы.

При чем тут дообучение ChatGPT, если вы дообучаете LLMA?

Приятно встретить специалистов. По теореме Колмогорова-Арнольда для получения хорошего решения достаточно полносвязной двухслойной нейронной сети с 2N+1 нейронами на каждом слое. По теореме Цыбенко их нужно еще меньше. Зачем весь этот зоопарк и сколько нейронов и слоев должно быть в полносвязной нейронке, чтобы решить заданную задачу?

Решения типа "подбирайте опытным путем" не предлагать.

Вопрос, почему так сложно визуализовать торч-модель?

В Tensorflow аналогичный этому примеру FunctionalAPI визуализируется без проблем

через keras.utils.plot_model()

Крутые статьи!

Но для начинающих я-бы добавил

По DL:

Гудфеллоц и др, Глубокое обучение.

По RL:

Лонца, обучение с подкреплением на Питон

По NLP:

Jurafsky, Martin, Speech and Language processing

12 ...
11

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность