Comments / Profile of kraidiky / Habr

User

Subscribers

Андрей Карпати воспроизвел GPT-2 за $73 — в 2019-м это стоило в 600 раз дороже

Не за год. Запустился челендж 05/28/24, заканчивался официально 10/04/25 на отметке 2.358 minutes, я как раз примерно в это время форкнулся, А сейчас да, уже 1.613 minutes, тоесть скорее без чуть-чуть два года. К двухлетней отметке, глядишь, за минуту перевалят. :)

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

kraidiky May 7 2025 at 20:07

Статья классная, но почему так много народа, занимающегося гроккингом не знают, что в той самой эталонной задачке с картинки про деление нацело просто поиграв гиперпараметрами можно получить гроккинг не за миллион эпох, а на самом деле можно заставить его проявиться ещё до того, как тестовая выборка будет выучена.

Больше смотрите доклады на российском ODS DataFest, у будете знать о гроккинге не просто больше, а на много больше. :) :P

Кроме шуток — шмели тоже обучаются и не знают всё по «инстинктам»

kraidiky Jan 26 2025 at 16:29

Я бы на их месте разучился видеть красный, чтобы нужный выход бып помечен, а другой не помеченый. Эволюционно сильно проще.

Кроме шуток — шмели тоже обучаются и не знают всё по «инстинктам»

kraidiky Dec 22 2024 at 22:22

Вы это говорите с таким видом, словно у вас цель какая-то другая. :)

А если кроме шуток, не факт, что главная цель именно такая, но чтобы её понять надо сначала их культуру внимательно изучить и расшифровать. Например, про человека тоже можно так подумать при первом взгляде, но если копнуть глубже, можно заметить, что цель не в том, чтобы максимально быстро получить еду, а в том, чтобы максимально предсказуемо получить еду. А уж если еду удаётся надёжно предсказывать, то и с ей количеством можно дальше разобраться. Будем изучать, а там дальше поймём нюансы.

Кроме шуток — шмели тоже обучаются и не знают всё по «инстинктам»

kraidiky Dec 22 2024 at 21:06

Статью ещё не читал. Был знаменитый опыт на синицах в котором показали, что синицы могут обладать, и по всей видимости обладают кульутрой, основанной, как и у нас, на взаимном обучении, и что менее интуитивно, хотя ожидаемо, на конформизме: https://elementy.ru/novosti_nauki/432371/Kulturnye_traditsii_u_ptits_osnovany_na_sotsialnom_obuchenii_i_konformizme и отдельные опыты на шмелях, показавшие, что у них возможно точно то же самое причём при почти буквально такой же постановке эксперимента: https://elementy.ru/novosti_nauki/434083/Povedencheskie_traditsii_u_shmeley_osnovany_na_sotsialnom_obuchenii_i_konformizme, на сколько я заметил, в статье этих ссылок нет, а без них непонятно зачем учёные всю эту фигню замутили.

Очевидно, что если такой сложный комплекс поведженческих навыков, который может обеспечить наличие культуры присутствует, значит он используется. Иначе обычный генетический дрейф его бы давно развалил. Но в чем это использование состоит, в чём заключается культура шмелей, было непонятно. Вот его то прицельно и искали.

Тоесть явление точно есть и в синтетической ситуации воспроизводится, и вопрос в том, как найти его проявления в настоящей природной середе. Исследование страшно интересное для тех, кто эволюцией культуры занимается.

На конференции AI Journey компания Navio представила автономный тягач L5

kraidiky Dec 12 2024 at 10:03

Очевидно для совместимости с огромным и безбрежным парком прицепов, 100% из которых не предназначены быть вне обтекателя. Так что высота и ширина кабины, как в том анекдоте, определяется шириной конской жопы. Кроме того камеры нужно размещать на определённой высоте. а вот длина кабины никаких специальных лимитов не имеет, поэтому она и коротюсенькая.

«МТС» сокращает айтишников

kraidiky Dec 11 2024 at 08:57

На так давно был на рынке труда. Тимлид с 24 годами стажа, из них C# - 10, и что-то я не заметил ажиотажного спроса. Реальностей явно больше одной.

Тримодальный характер зарплат разработчиков, или почему нельзя верить статистике зарплат

kraidiky Dec 2 2024 at 08:12

Есть две новости, и обе плохие:

Деда мороза не существует.
Большая часть топовых стартапов не ведёт вообще никакого бизнеса и продолжает существовать только на инвесторские, которые сами инвесторы получают в результате рассасывания по системе напечатанного.

Конкретно Uber бизнес ведёт, но это "про е-бизнес" тоесть профессиональный. Компания на момент написания статьи не принесла ни доллара за всё время своего существования. К нынешнему моменту некоторую микроскопическую прибыль по сравнению с вложенным баблом она принести уже смогла, но такие же близкие к месту печатания конкуренты - ни цента. Тут же Lift, прямой конкурент Убера. И это всё в условиях огромных налоговых послаблений, которые этот Uber получает.

Так что им не жалко не потому что код чаще запускается, или не потому что он эффективнее, а потому что это просто вертолётные деньги которые падают на фаундеров с небес за чаще всего заведомо несбыточные обещания. Эффективный код ценится в компаниях второго тира, где он приносит прибыль. Вот для них ваше рассуждение абсолютно верное.

Тримодальный характер зарплат разработчиков, или почему нельзя верить статистике зарплат

kraidiky Dec 1 2024 at 17:57

Довольно смешно видеть, как размер зарплат, зависящий только от места в системе распределения напечатанных ФРС денег, пытаются приписывать тому с кем они конкурируют.

-5

Компания Q.ANT представила первый коммерческий фотонный процессор

kraidiky Nov 23 2024 at 09:45

В 1993-ему году я выступал на школьно-студенческой конференции с докладом про зеркала микролазеров, создаваемых на кристалле, и тогда это было перспективным направлением развития оптоэлектроники. От матери, оптика по образованию. узнал, что когда она училась в вузе им преподавали оптику углублённо, говоря, что вот скоро электроника будет на оптике и вам всё это понадобится. Учитывая такие невероятные темпы прогресса - я подожду радоваться пока это не станет действительно массовым.

Двум из трёх беспилотных «КамАЗов» после начала эксперимента с доставкой грузов оказалась нужна перенастройка ПО

kraidiky Sep 24 2024 at 12:25

Это при условии, что сила трения пропорциональна только силе реакции опоры, не зависит от площади контакта, температуры контактирующих поверхностей, при условии что эти поверхности слабо деформируются и происходящие в них изменения не влияют но коэффициент трения, при условии, что грузовик оборудован достаточной мощности системой, чтобы довести колёса до полной блокировки при такой нагрузке, и так далее и так далее...

То есть в предельно упрощённой модели, удобной для решения физических задачек. Как только камаз гружёный песком попытается тормозить с полной блокировкой колёс все эти предположения с разгону врежутся в чугунную жёпьу реальности.

Как SpaceX нарушила Договор о космосе первым выходом частного астронавта в космос — и почему это хорошо для компании

kraidiky Sep 13 2024 at 07:50

Ну так и наши комплексы слежения за обстановкой в комплексе его тоже видели, дело же не в этом, а в том, могли ли они получать все его полётные данные из первоисточника и запретить или наоборот разрешить делать то или иное.

Статья договора, кстати, в условиях современных прокси-войн очень важная стратегически, потому что без неё всегда можно будет сказать, что это не корабль США украл с орбиты ваш разведывательной спутник, это всего лишь частная выходка какого-то частника, миллионера и плэйбоя, а к нам никаких претензий.

+18

НАСА отложило возвращение Boeing Starliner с МКС на неопределённый срок

kraidiky Jun 24 2024 at 08:07

Тут помешает, скорее не несовместимость ложементов, а то что американсканская ракетная промышленность постесняется обращаться за помощью к россии в день траура по убитым американской ракетой на пляже российским детям. Хотя с другой стороны Рогозина убрали, подождут недельку, чтобы народ подуспокоился и тихонечко договорятся. Нам слишком нужно это сотрудничество чтобы не разделять такие вещи.

-2

НАСА отложило возвращение Boeing Starliner с МКС на неопределённый срок

kraidiky Jun 24 2024 at 06:27

Будут как-то пытаться выкрутиться своими силами. Просить помощи у Роскосмоса в день, когда американская ракета убила детей на крымском пляже будет как-то, не очень красиво в смысле паблик релейшенза. Представьте себе как будут выглядеть все заголовки в этот день? Да и Роскосмосу тогда тоже будет сложновато делать вид, что ничего не происходит.

-3

Collapse OS: операционная система судного дня

kraidiky Jun 12 2024 at 18:47

Учитывая 9000 транзисторов Z80 - его дискретную схему можно можно вырубить на обратной стороне той скрижали, на лицевой стороне которой распечатка кода ос. :))

Что видно под Черным Солнцем Гьеди Прайм?

kraidiky Apr 28 2024 at 09:31

Спасибо! Действительно интересно и сам бы ни в жизни не полез искать.
Учитывая особенности вселенной я бы скорее предположил биоинженерию с подсадкой в глаза или переспециализацией одной из колбочек на ИК диапазон.

Amazon Prime Video выпустила первый сезон сериала по Fallout

kraidiky Apr 11 2024 at 08:33

Ну рутрекере пока не выложили. Ждём-с...

Как устроено пространство, в котором думают языковые модели?

kraidiky Apr 3 2024 at 12:35

Потому что если посмотреть на ситуацию с этой стороны, то рост анизотропии может свидетельствовать только о том, что Большая часть активаций не задействованы в каждом конкретном случае. А из этого могут следовать большие последствия - значительную часть сети можно не учитывать, а сети в процессе обучения сами стараются привести себя к "сигнальному" состоянию даже если об этом их никто специально не просил.

Как устроено пространство, в котором думают языковые модели?

kraidiky Apr 3 2024 at 12:27

А можно подробнее про то, как в данном случае считается анизотропия в сигнале, и что более важно, как нормируется сигнал прежде чем её считать. Потому что центрирование на среднее очень контрпродуктивно если для сигнала характерно ненормальное распределение.

Например в AlexNet распределение logit-ов такое, что 3/4 значений меньше нуля, то есть активации ReLU будут в 3/4 случаев просто 0, а в остальных сигнал. Если такой треугольник относительно 0 отцентровать на среднее вы получите 3/4 одинаковых но не нулевых значений. Для других сетей у меня под рукой насчитанных активаций сейчас нет, вот тут можно графики посмотреть: https://t.me/GradientWitnesses/38, https://t.me/GradientWitnesses/39, но этот случай наводит на мысль.

Это может порождать проблемы, характерные для проблемы шкурки многомерного арбуза - в сильно многомерном пространстве обычная наша трехмерная интуиция ведёт к неправильным выводам.

Например: если у вас миллион логитов, матрица 1000x1000 и все они равны 0 и только по одному в каждой размерности равны 1, то эти вектора ортогональны интуитивно, но на сколько испортится картина если их отцентровать как-то? Интуитивно кажется, что не сильно.

Но если мы сделаем от такой матрицы активаций softmax как это делает multihead attention - то получим матрицу активаций в которой все элементы 0.001 кроме одного строки со значениями 0.027. Угол между этими двумя векторами - всего 4 градуса. А если миллион не один, а сто, то угол вообще может потеряться на фоне ошибки округления. Как вы справляетесь с этой проблемой?

Как устроено пространство, в котором думают языковые модели?

kraidiky Apr 3 2024 at 12:15

Ловите Ветрова, у которого есть грокнутые модели, на простых датасетах, берёте их погонять и прогоняете через свои метрики. Профит.

2 3 ...

76 77