Если у вас 8000 нейронов в скрытом слое - это порядка 6.5млн свободных параметров в сети. Для такой сетки 98.6% - очень плохой показатель, такие нейронки все дают результаты выше 99%, посмотрите обзор https://doi.org/10.1016/j.neunet.2021.01.026 , там в последней таблице есть бенчмарки по различным сеткам. И вообще, 8000 нейронов - это сильно много, по теории 1600 должно быть достаточно.
А что выбрано в качестве исходной архитектуры и сколько свободных параметров?
Просто у меня на тестовом датасете MNIST при 50тыс свободных параметров сети безо всяких оптимизаций, стандартным ADAMом, дефолтным батчем и LR точность 99.18% . Правда, архитектура проприетарная, да.
Британские ученые - это шутливый журнал для студентов (https://journals.le.ac.uk/ojs1/index.php/pst), который и задумывался таким (у меня даже знакомый там в редколлегии). А здесь вроде приличные люди пишут в приличные журналы.
Приятно встретить специалистов. По теореме Колмогорова-Арнольда для получения хорошего решения достаточно полносвязной двухслойной нейронной сети с 2N+1 нейронами на каждом слое. По теореме Цыбенко их нужно еще меньше. Зачем весь этот зоопарк и сколько нейронов и слоев должно быть в полносвязной нейронке, чтобы решить заданную задачу?
Решения типа "подбирайте опытным путем" не предлагать.
А сколько свободных параметров?
Если у вас 8000 нейронов в скрытом слое - это порядка 6.5млн свободных параметров в сети. Для такой сетки 98.6% - очень плохой показатель, такие нейронки все дают результаты выше 99%, посмотрите обзор https://doi.org/10.1016/j.neunet.2021.01.026 , там в последней таблице есть бенчмарки по различным сеткам. И вообще, 8000 нейронов - это сильно много, по теории 1600 должно быть достаточно.
А что выбрано в качестве исходной архитектуры и сколько свободных параметров?
Просто у меня на тестовом датасете MNIST при 50тыс свободных параметров сети безо всяких оптимизаций, стандартным ADAMом, дефолтным батчем и LR точность 99.18% . Правда, архитектура проприетарная, да.
Хороший научный журналист - это вообще редкость. Как и вообще хороший специалист в любой области. Просто косяки остальных менее на виду.
Британские ученые - это шутливый журнал для студентов (https://journals.le.ac.uk/ojs1/index.php/pst), который и задумывался таким (у меня даже знакомый там в редколлегии). А здесь вроде приличные люди пишут в приличные журналы.
При чем тут дообучение ChatGPT, если вы дообучаете LLMA?
Приятно встретить специалистов. По теореме Колмогорова-Арнольда для получения хорошего решения достаточно полносвязной двухслойной нейронной сети с 2N+1 нейронами на каждом слое. По теореме Цыбенко их нужно еще меньше. Зачем весь этот зоопарк и сколько нейронов и слоев должно быть в полносвязной нейронке, чтобы решить заданную задачу?
Решения типа "подбирайте опытным путем" не предлагать.
Вопрос, почему так сложно визуализовать торч-модель?
В Tensorflow аналогичный этому примеру FunctionalAPI визуализируется без проблем
через keras.utils.plot_model()
https://github.com/CompVis/stable-diffusion
Крутые статьи!
Но для начинающих я-бы добавил
По DL:
Гудфеллоц и др, Глубокое обучение.
По RL:
Лонца, обучение с подкреплением на Питон
По NLP:
Jurafsky, Martin, Speech and Language processing
https://ru.wikipedia.org/wiki/Поправка_на_множественную_проверку_гипотез