Как стать автором
Обновить
5
0
Дмитрий Черняк @dmiche

IT-архитектор, владелец компании, философ

Отправить сообщение

Чего-то у вас к концу ленту зажевало.

Куда MultiHeadAttention()-то вставлять? В примере Вы снова биграммы трените.

Ну, т.е. там в итоге каждый слой нейронки "снимает" какой-то слой смысла от простого к более абстрактным. Примерно на 5 итерации ошкуривания (выход из нижних слоёв) внутреннее представление добирается до абстрактных понятий... видимо потому, что семантика языка де-факто имеет вот столько слоёв от буквы (токена) до поняния. На последующих слоях становятся возможными операции с понятиями.

При этом каждый следующий слой технически может либо копать ещё глубже "в философию", т.е., делать необратимое отображение в другое пространство представления, либо делать "повтор", т.е. обратимое отображение в том же пространстве представления. Повтор будет выглядеть как рассуждение.

Было бы логично, если эта конструкция, кроме упомянутых двух действий сможет ещё "собирать обратно" и обобщать. В общем, анализ, дедукция, синтез и индукция. Технически слои это позволяют, а что в реальности они будут делать - им всё равно и зависит только от обратной связи на обучении и внимании на инференсе.

Просто получается, что нам достаточно обучать всего один слой, замыкая его самого на себя N раз, а не передавая на другой слой. Тогда мы получим один слой, который способен делать любые атомарные операции и на предметах, и на абстракциях. А после обучения инференс мы сможем делать либо тоже итеративно, экономя память, либо налить в GPU бутерброд из N таких слоёв для ускорения.

Собственно, где-то была работа о том, как в Мистрале (кажется) дублировали обученные слои и он от этого сильно хуже не становился.

Доходчиво и интересно. Редкость, спасибо!

По теме: выходит, что такая модель только в 2-ходовку умеет? Но если мы изменим архитектуру, оставим только один комплект слоёв (условно "нижние"), замкнём их не на верхние слои, а на самих себя и будем это прокручивать при обучении N раз, то (при условии, что мощность слоя позволяет в себя вместить и факты и обобщения), мы получим внятный механизм рассуждений.

А что посоветуете почитать по части подхода к созданию своего датасета?

На HF-сетах всё красиво, но когда свой делаешь, обычно довольно странный результат.

При МОР мы не в производную что-то подаём, а саму эту производную рассчитываем, как число.
В формулу подаём то, что на выходе этого нейрона было.
А формулы для сигмоиды и тангенса написаны на второй врезке после анимации.
Типа (1-out)*out

Любая индустрия проходит фазы становления. Аджайл, на деле, решает всего один вопрос: как структурированному, целе-ориентированному корпоративному менеджменту управлять толпой высокотехнологичных косячников, работу которых не хватает компетенции формализовать, а её оценку привести к общему метрическому знаменателю.

Для того, чтобы этот вопрос был поставлен, разработка ПО должна была пройти путь от тех самых "лабораторий", через "заводики" (специализированные компьютерные фирмы), через появление конкурентного рынка продукции таких "заводиков", к тому, что в любой корпорации теперь есть уже не своя лаборатория, а свой заводик.

Таким образом, если раньше разработкой ПО руководили профессиональные кадры, задачи были медленно меняющимися (бизнес над душой не висел, делался, как правило, универсальный продукт), бюджеты были ограничены, то, после проникновения разработки в корпоративный сектор, всё стало в точности до наоборот:

Денег куры не клюют, универсальность не нужна, потребности "давай-давай-переделай". Именно в этой ситуации аджайл почти идеален. Как только что-то из этого пропадает (а сегодня оно у американов опять пропадает, потребности стандартизуются, копипастеры совершенствуются), аджайл становится пятым колесом в телеге.

При этом, необходимо отметить, что в России по этим параметрам мы до нормального аджайла ещё и не доросли даже - у нас в инженерке ещё впереди это состояние, лет через 15. Сейчас аджайл бы, скорее, в науке и образовании прижился - там паттерн условий соответствует.

Частотная область в реальности существует.

Во-первых, таковым является пространство внутреннего слоя нейросети. С точки зрения смысла его содержимого, у нас обычные алгоритмы оперируют понятиями пространства и энергии (время в них рассматривается только как обычная пространственная координата), а нейросеть хранит вероятности и связи, что, по сути, является "выворачиванием" континуума и представлением его через время и информацию. Частотное представление - это тоже представление времени в более естественной его форме, как суммы переодичностей.

Другим примером частотной области может быть пространство качеств. Качество (в отличие от свойства) либо есть, либо его нет, что адресует нас к дискретности. Качества кодируют существенные параметры процесса гораздо более компактно, чем дифуры и, по сути, также являются овеществлением волновых процессов. Но, к сожалению, естественное исчисление этой области, как мне кажется, находится вне математики - это в чистом виде нумерология, когда единицы разных качеств не складываются. Собственно, очень похоже на то, как и разные гармоники не складываются.

О некоторых особенностях этого пространства в реальных системах у меня есть заметка в блоге.

Не знаю, зачем Вы спорите, если при этом другими словами пересказываете мой предыдущий комментарий...

Я, как бы, о том же и говорю, что если 40+ приносит с собой добротный жизненный опыт, то это может быть годным приобретением. Если Вам удаётся малозатратно таких выщёлкивать с рынка, то могу только дальнейшей удачи пожелать.

Когда в 40 лет меняют отрасль, это должно выглядеть так:
- Ну что, тебя взяли?
- Ещё бы они меня не взяли!

От кодера в 40 я бы ожидал, что увижу в нём через год недоученного мидла, а через три шибко недоученного сеньора. Имея на входе цену джуна.

Ожидал бы, что человек принесёт связи, которые к 40 как раз начинают срабатывать и жизненный опыт, позволяющий понимать цену времени, цену ошибке, цену приоритета (не в смысле "высокую цену", а в смысле быть способным их оценивать и сравнивать).

Тогда мы имеем капитализацию возраста и есть о чём говорить.

Но иногда возраст приходит один и это выглядит как год унылых бессмысленных курсов и портфолио, состоящее только из курсовых работ. В этом случае я вместо джуна, у которого ещё мозги не прокисли и которого можно лицом тыкать, когда он проявляет безответственность, получаю дяденьку с философским взглядом на жизнь, ворохом привычек и ограниченной способностью к самообучению. И это в области, которая меняется каждую неделю.

Сеньор - это же не про статус, это про 3х личную производительность (как минимум) плюс отсутствие затрат на микроменеджмент сотрудника плюс менторство от него.

Те, кто не может этого достичь в продакшине, но всё равно развивается и набирает опыт, выпрыгнет в руководящую должность.

А если в 35 этого нет, то возникает вопрос: чем человек занимался 15 лет своей жизни? И, одновременно, ответ на то, чем он, на самом деле, будет у вас заниматься.

Дело не (с)только в возрасте, но и в том, что этому возрасту должно соответствовать.

Профильный специалист в 35+ должен быть звездой (сеньор, тимлид, либо руководитель). И у него будет красивый послужной список. Если он претендует на позицию ниже, то это с высокой долей вероятности - скрытая профнепригодность.

Если 35+ и у него за спиной опыт сварщика-водителя-предпринимателя, затем 1.5 года компьютерных курсов и ни одного собственного проекта "в гараже" - это, скорее всего, честный труженик, который в большой конторе будет 10 лет джуном, либо будет прикидываться мидлом на однотипных проектах и его это устроит.

Для корпоратов всё это норм, для них стабильность важнее звёздности. Опять же, у них HR отсматривает людей и его не жалко. Для небольших коллективов это, как правило, трата времени на пустое общение.

Самое интересное в истории с рекурентными сетями и трансформерами - это то, что математики так и не поняли, что делали не так и что сделали так.

20 лет развлекухи с рекурентостью было протрачено в предположении, что язык представляет собой последовательную конструкцию.

Однако для всех технарей, кроме тех, что пришли из математики и лингвистики, очевидно, что качеством последовательности обладает не сам язык, а лишь канал связи. Мы не можем передать целостный образ "наложением рук", мы вынуждены понижать его размерность, сериализировать его. Затем получатель, уже в своей голове, развернёт сериализированный пакет обратно в топологическую картинку.

Более того, эта картинка лишена смысловых связей - они были стрипнуты при вербализации, поэтому получатель начнёт её думать, пытаясь правильно расставить в ней связи и превратить в схему. Это восстановление для нас - целиком творческий акт, который мы при общении совершаем постоянно, поскольку восстановить можно по-разному.

Вот эта схема и представляет смысловую ценность. А пакет в канале смысла не несёт - это только упаковка данных. Собственно, механизм внимания представляет собой дополнительную нейронку, которая позволяет видеть пакет уже после десериализации, целиком, отбрасывая из него рекуррентность, которая, по отношению к передаваемым данным, является просто шумом.

Т.е., то, что фраза имеет пространственную топологию: начало, конец, близость и т.п. - это не шум. А вот то, что мы её принимаем постепенно - это шум, который только лишь мешает. Собственно, работы по RNN - это ни что иное, как попытка приоритетно обрабатывать этот самый шумовой компонент.

Это, в своё время, дало хороший бонус жаваскрипту. И awk-у. А вот бейсик оказался в пролёте: не настолько похож, чтобы не раздражать и не настолько хорош, чтобы себе это позволить. Итог был печален.

Я только за себя скажу: нулевые затраты на изучение языка на старте для меня, как для питонщика, были очень приятным бонусом. Только на 3й день понял, что вообще это немного более не питон, чем казалось в начале.

При том, что я, так-то, много языков знаю, но между ними всеми базовых различий больше, чем между питоном и гдскриптом.

Да, потом полез, конечно, в их справочники и туториалы, чтобы выяснять, как на гдскрипте всякие сложные вещи делать. Но это потом.

Ну почему же? Питонщику действительно очень удобно на старте, а быстрый старт иногда весьма полезен.

Ну вот и ответ. Ни самообеспечения, ни производящего хозяйства. Чего тогда ждать?

Мне кажется, это Вам надо из медвежьего угла кудань-ть выехать и поглядеть. А то из-за зарослей борщевика не видать ничего :)

И вам не хворать. Но чтобы это не выглядело, как подленький съезд с темы, жду ответно Вашу версию. Мне же тоже интересно.

Идокипас. Однозначно сложно сказать. Я бы дал 40% за то, что АП делала себе южную резиденцию и 60% за то, что это была какая-то другая история, тоже связанная с окружением Путина. Был, знаете ли, в одном мультфильме сюжет, там ещё коня золотили...
А что?

Дайте пруф на самоубийства. Беглый поиск чего-то не дал подтверждения: в 2019 11.6/100т, в 2022 9.2/100т обоего пола https://39.rosstat.gov.ru/statistical_news/document/217197

Для сравнения, в Японии в 2022 17.5/100т.

Рост пенсионного возраста даже в Китае провели. В системе мирового разделения труда сложно рыпнуться.

Бегство из страны населения - это личное дело убежавшего населения. Здесь его заменят целиком и не заметят.

В чём проблема с картиной будущего?

Если хотите картину глобального масштаба, то послушайте речь Темнейшего на Валдае за 2022г, а затем за 2023г. Там последовательно раскрывается суть нового глобального проекта во главе с Россией и Китаем (2022г - раскрытие темы "традиционных ценностей" и их правильного понимания, 2023г - пояснение относительно базовых правил нового мира, в 2024 ждём разъяснения методов его внедрения). Обкатка идёт на "Шёлковом пути" и т.п. проектах.

Если внимательно на это посмотреть и вдуматься, то там Коминтерн отдыхает по масштабу и значимости задумки.

Если хотите картину местного значения, то Россия снова последовательно строит социальное государство, но без отказа от капитализма и конкуренции. Поэтому есть надежда, что на этот раз не будет "Застоя" и период роста отработаем нормально. Но и гетто, расслоения по образованию и т.п. не допустят. Все монополии и крупные предприятия либо отжимаются обратно, либо их хозяева подводятся под присягу. В общем, бизнес в меру пестуется, но не рулит, что здесь совершенно правильно. Зарвавшаяся тилигенция дунула из страны, чему, судя по результату выборов и явке, большинство населения несказанно радо. Это, последнее, кстати, говорит о том, что картину будущего, хотя и не артикулировали пока на доступном языке, но люди почувствовали, что направление взято в рамках ожиданий.

В Иран мы не превратимся - мы больше, у нас уже есть и сам Иран и Северная Корея и ещё много кто. И Китай, как стратегический партнёр, потому что без России он глобального проекта не потянет, а это не те ребята, которые продадут своё будущее.

Ну и если из-за боязни превратиться в "Иран" согласиться лизать сапоги мирового сообщества, в которое нас, как оказалось, никто не звал, то о какой "картине будущего" мы говорим? Ну, уже сегодня, ведь, понятно, что никто туда не звал... обидно, сам помню эти розовые фантазии, но что теперь-то вспоминать.

Я про города уровня Новгорода. Хотя и мелкие, типа Советска подтягиваются.

С другой стороны, пока не увидел башкирские деревни, думал, что села больше нет в России. Ан нет, есть. Может и до новгородских деревень дело доберётся...

Но опять же: в башкирии деревенский дом - с коровой. А в Новгородской - с чем? Чем люди занимаются? Чего сеют, чего косят?

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Зарегистрирован
Активность