Комментарии / Профиль wStranger / Хабр

Пользователь

Нейро сети для самых маленьких. Часть нулевая. Обзорная

В статье уже упомянут параметр температуры, который, по факту, являясь параметром в softmax, вносит некий разброс в вероятности следующего токена. Грубо говоря, при нулевой температуре, вероятность самого, хм, вероятного токена будет 1, а остальных - 0.
При более высокой - вероятность остальных токенов повышается. Следующий токен выбирается с помощью ГСЧ, для которого есть seed разумеется. Это наглядно объясняет 3Blue1Brown в https://www.youtube.com/watch?v=wjZofJX0v4M

Так что в теории, при нулевой температуре, ответы в разных чатах будут одинаковыми. Но это в теории, в математической абстракции. На практике, как всегда, бывают нюансы, в основном от того, что всё заоптимизировано вусмерть.

Из того, с чем сталкивался сам:

В зависимости от того, в одиночку обрабатывается запрос, или в батче с другими, да даже в зависимости от размера батча, могут быть использованы разные алгоритмы для перемножения матриц и прочего (для разных размерностей матриц некоторые алгоритмы существенно быстрее). С небольшими отличиями в числовой точности.

Также из-за распределения вычислений по разным GPU, порядок их объединения в том же all-reduce может зависить от таймингов, а из-за представления чисел с плавающей точкой, от перемены мест слагаемых может поменяться результат: если сложить два очень маленьких числа, а потом прибавить большое, или наоборот, взять сначала большое и по очереди прибавлять к нему маленькие, результат может немного отличаться.

Подборка игр с низкоуровневым программированием

wStranger 5 авг 2024 в 14:11

Немножко из моей коллекции

Про логические компоненты:

The Signal State

Silicon Zeroes

Про низкоуровневое программирование:

Comet 64

Alan's Automation Workshop - тут буквально создавать машины Тьюринга

Про высокоуровневое программирование:

Robo Instructus

The Farmer was Replaced

Ну и вообще всё от Зактроникс, включая его последний сборник Last Call BBS, в котором просто всего навалено

Как я взял в кредит 66 млн и хотел заработать 40 млн на выращивании тюльпанов

wStranger 3 апр 2024 в 23:42

...играешь в танки

+24

SpaceX взяла на работу в отдел ПО Starlink 14-летнего разработчика Кайрена Квази c дипломом бакалавра

wStranger 11 июн 2023 в 18:53

Это из другого ~~анекдота~~ сериала

Вы НЕ сошли с ума (о режиме сна в Windows)

wStranger 11 янв 2023 в 14:30

Вот тут описано как сделать, чтобы появилось. Путано немного, но смысл в том, чтобы сделать

REG ADD HKLM\SYSTEM\CurrentControlSet\Control\Power\PowerSettings\238C9FA8-0AAD-41ED-83F4-97BE242C8F20\BD3B718A-0680-4D9D-8AB2-E1D2B4AC806D /v Attributes /t REG_DWORD /d 2 /f

20 игр, чтобы видеть детали, чувствовать нюансы и уловить смысл дизайна

wStranger 23 апр 2022 в 19:27

Думаю, подразумевается, что он должен быть одинаковый для одинаковых элементов. Или оба скруглённые, или оба квадратные. А там вперемешку на неправильном варианте.

Как писать bash-скрипты надежно и безопасно: минимальный шаблон

wStranger 22 ноя 2021 в 21:14

-f там не принимает значения. Поэтому «1 -v» у вас, по видимому, уехали в args. Это, разумеется, если мы об оригинальном скрипте говорим

Какой предел у предсказателя ветвлений? Проверили на x86 и M1

wStranger 19 мая 2021 в 18:32

Видимо, в этом месте читал по-диагонали, спасибо.

Какой предел у предсказателя ветвлений? Проверили на x86 и M1

wStranger 19 мая 2021 в 18:00

Всё равно не очень понятно. Ведь чтобы узнать адрес перехода, нужно декодировать инструкцию целиком.
Классический бранч предиктор, насколько я знаю, держал для каждой ячейки таблицы (адрес бранча поксореный на что-то там) два бита для машины состояний — strong/weak taken/not taken и предсказывал именно, произойдёт условный переход, или нет, чтобы начать out of order execution именно правильной ветки.
Тут, видимо, про другой механизм, который для каждого бранча кеширует именно адрес назначения.
Выигрыш от такого, конечно будет даже для безусловных, а для условных ещё больше, но вот места будет занимать больше, и при коллизиях и миспредикшенах будет возможно больнее.
Непонятно, это дополнительный механизм, или старый заменили на такой вот новый когда-то.

Как Amazon тратил по $500 млн на разработку провальных игр и почему ничего не вышло

wStranger 2 фев 2021 в 15:12

Xbox Game Pass вполне себе живой пример того, как это может работать. Название, конечно, пытается ввести в заблуждение, но это и для ПК тоже.

Пилот F-35 пожаловался, что тачскрины вызывают ошибки, физические тумблеры были надёжнее

wStranger 1 фев 2021 в 22:51

Да, вот бы в самолёте был джойстик для управления. Подождите-ка…

В интернете опять кто-то неправ

wStranger 13 янв 2021 в 20:35

Простите, но ведь эта фраза демонстрирует только, что не на каждый вопрос можно ответить строго «да», либо «нет». Если у вас появляется возможность отвечать развёрнуто (как раз наш случай тут), то есть, к примеру, сказать «А я и не начинал», то абсурдность вопроса исчезает. Ну, кроме, разве что, непонимания, а зачем кого-то вообще это должно волновать :)

Видеозвонки с виртуальным фоном и опенсорсные инструменты

wStranger 23 апр 2020 в 17:44

ManyCam умеет так делать. Не без недостатков, правда. Бесплатная версия лепит вотермарку свою, а сама эта фишка очень чувствительна к освещению. Стало чуть меньше света из окна — всё, поплыл фон.

Чем программирование сегодня отличается от программирования 20 лет назад?

wStranger 14 янв 2020 в 21:33

В повседневной жизни, со всеми кабельными подключениями, или 4G этими вашими, как правило, не так заметно, поэтому и сходит с рук.
У меня в роуминге скорость мобильного интернета ограничена 256 кб/с или около того. Казалось бы, когда-то о такой могли только мечтать, хватало на всё на свете. А вот заходишь на сайт любого кафе посмотреть меню, а он грузится. И грузится. И через пару минут загружается… крутилка. И крутится еще минут 5. Всё это чтобы показать статическую, по сути своей, страничку на несколько десятков строчек, зачастую даже без картинок. Зато фреймворки, это да.

Состоялся релиз Civilization VI

wStranger 21 окт 2016 в 21:06

После научной победы показали пафосный мультик. Полагаю, что и для других такие же припасены. Ну и таблица рекордов и графики развития на месте. Вот только не было (ну или я совсем слепой) таймлапса карты, который я так любил в прошлой части.

Что такое современная лингвистика. Лекция в Яндексе

wStranger 29 янв 2016 в 12:43

Примерно на 53-ей минуте он как раз эту тему затрагивает в ответ на вопрос из зала.

Windows через годы: тридцать лет операционной системе Microsoft

wStranger 15 сен 2015 в 06:40

Насчет пиксель-арта 9х — меня всегда удивляло, почему на иконке панели управления кошка? Нет, если приглядеться, все становится ясно. Но стоит на секунду отвернуться, и вот опять — ну кошка же!

Байес и задача про Морфеуса

wStranger 19 авг 2015 в 10:43

Я этого и не утверждаю. Как раз наоборот, я думаю, что изначально взять за предпосылку то, что задача проще, чем кажется и отбросить часть условия было бы не очень хорошей идеей. Оно да, кажется интуитивно правильным, и в данном конкретном случае таким и оказалось. Но, как я уже писал, популярный статьи о теории вероятностей полны примеров того, как интуиция подводит.

Байес и задача про Морфеуса

wStranger 19 авг 2015 в 10:35

Я имел в виду, что сначала вы решили с помощью формул и проверили решение симуляцией, а уже потом

Получив ответ, я заметил, что он один в один совпадает...

и стали искать объяснение.

Байес и задача про Морфеуса

wStranger 18 авг 2015 в 19:04

В общем виде это можно доказать с помощью того же Байеса.
Пусть в левой руке x синих и w красных, а в правой — y синих и z красных.
Тогда:
p(right) = (y+z)/(x+y+w+z)
p(red)=(w+z)/(x+y+w+z)
p(red|right)=z/(y+z)
И в итоге P(right|red)=P(red|right)*P(right)/P(red) = z/(y+z) * (y+z)/(x+y+w+z) * (x+y+w+z)/(w+z) = z/(w+z)
То есть как раз доля красных в правой руке из общего количества красных.
Преимущество такого подхода в том, что при пространных размышнениях о вероятности, наподобие «факт того, что у нас в руке уже лежит красная таблетка, просто отбрасывает все случаи, когда мы выбирали синюю», легко упустить что-то из виду, о чем нам и говорит множество статей о неинтуитивности теории вероятностей (да, тут у автора все сошлось, но он и рассуждал уже имея результат, а не наоборот).
А так все строго, по учебнику :)

2 3 4