Машинное обучение это незаменимый инструмент для решения задач, которые легко решаются людьми, но не классическими программами. Ребенок легко поймет, что перед ним буква А, а не Д, однако программы без помощи машинного обучения справляются с этим весьма средне. И едва ли вообще справляются при минимальных помехах. Нейросети же уже сейчас решают многие задачи (включая эту) намного лучше людей. Их способность обучаться на примерах и выдавать верный результат поистине очаровывает, однако за ней лежит простая математика. Рассмотрим это на примере простого перцептрона.
Данная статья представляет собой пересказ-конспект первой части книги Тарика Рашида "Создай свою нейросеть" для тех, кто начал изучать тему, не понял отдельные детали или с трудом охватывает общую картину.
Sparse Hash AI
Attention is Not All You Need: как менялась архитектура трансформера
С момента выхода оригинальной статьи про трансформер прошло уже больше 7 лет, и эта архитектура перевернула весь DL: начав с NLP архитектура теперь применяется везде, включая генерацию картинок. Но та ли это архитектура или уже нет? В этой статье я хотел сделать краткий обзор основных изменений, которые используются в текущих версиях моделей Mistral, Llama и им подобным.
Создание своего UEFI приложения
Привет, Хабр! Мне 16 лет, я студент, учусь на первом курсе колледжа на программиста. Начал увлекаться низкоуровневым программированием на Ассемблере и C/C++
Я заметил что на Хабре есть множество статей о написании своих простых "загрузчиков" для BIOS-MBR, которые выводят на экран "Hello World!". И при этом практически нет ни одной статьи о создании того же самого, но только для UEFI, хотя будущее именно за ним, ведь BIOS уже давно устарел! Это я и хочу исправить в этой статье.
Новая блокировка OpenVPN и Wireguard замедляет интернет в России
Позавчера, 15 января ночью, по всему Рунету пошли сигналы, что протоколы WireGuard/OpenVPN массово «отвалились». Судя по всему, с понедельника Роскомнадзор снова взялся за VPN, экспериментируя с блокировками OpenVPN и Wireguard в новом масштабе.
Мы в Xeovo заметили это по большому наплыву пользователей, которые вообще не знали что протоколы блокируются (где они были все это время). Уже учения были много раз, и мы предупреждали клиентов, но, видимо, OpenVPN и WireGuard до сих пор очень хорошо работали у всех. На настоящий момент блокировка продолжается. Возможно, тестируют, как все работает перед выборами.
Полиномиальные корневые методы синтеза САУ ч.2
Леонид Маркович Скворцов. Широко известный в узких кругах математик, профессионально занимающийся математическими проблемами автоматического управления. Например, его авторские методы использованы в SimInTech. Данный текст, еще готовится к публикации. Но с разрешения автора, читатели Хабр будут первыми кто сможет оценить. Первая часть здесь...
Как языковая модель предсказывает следующий токен (часть 1)
Я обучил небольшой (порядка 10 миллионов параметров) трансформер по превосходному туториалу Let’s build GPT: from scratch, in code, spelled out Андрея Карпати. После того, как он заработал, я захотел максимально глубоко понять, как он устроен внутри и как создаёт свои результаты.
В исходной научной статье, как и во всех туториалах по трансформерам упор в основном делается на многоголовом самовнимании, — механизме, при помощи которого трансформеры обучаются множественным взаимосвязям между токенами, не используя рекурретности или свёртку. Ни в одной из этих статей или туториалов я не нашёл удовлетворительного объяснения того, что происходит после внимания: как конкретно результаты вычисления внимания превращаются в точные прогнозы следующего токена?
Я подумал, что могу пропустить несколько примеров промтов через обученный мной небольшой, но работающий трансформер, изучить внутренние состояния и разобраться в них. То, что казалось мне быстрым исследованием, оказалось полугодовым погружением, но дало результаты, которыми стоит поделиться. В частности, у меня появилась рабочая теория, объясняющая, как трансформер создаёт свои прогнозы, и эмпирические свидетельства того, что это объяснение, по крайней мере, правдоподобно.
Если вы знакомы с трансформерами и хотите сразу узнать вывод, то он таков: каждый блок трансформера (содержащий слой многоголового внимания и сеть с прямой связью) изучает веса, связывающие конкретный промт с классом строк, найденных в обучающем корпусе. Распределение токенов, соответствующее этим строкам в обучающем корпусе, и есть приблизительно то, что блок выводит как прогноз для следующего токена. Каждый блок может ассоциировать один и тот же промт со своим классом строк обучающего корпуса, что приводит к другому распределению следующих токенов, а значит, и к другим прогнозам. Окончательный результат работы трансформера — это линейное сочетание прогнозов каждого блока.
Самый простой способ обхода блокировок доступа к сайтам любых стран
Я понимаю, что пока, за использования VPN, аннонимайзеров и/или tor не применяют уголовные статьи, поэтому гораздо проще скачать какое нибудь приложение из магазина приложений и бесплатно воспользоваться им. Но где гарантия, что завтра они будут работать?
Я понимаю (программисты, сисадмины, DevOps'ы и т.д.) данный способ нельзя назвать уникальным, оптимальным и вообще, так лучше не делать, но согласитесь - это достаточно простой способ туннелирования трафика, который позволяет обойти (если не все), то огромное количество разнообразных сетевых блокировок.
О туннелирование через SSH на хабре написана не одна статья, но в виде инструкции, которую можно дать любому домохозяйкеину (ведь в рф запретили феминитивы) лично я не нашел. Поэтому добро пожаловать подкат.
Так же, этот способ - достаточно дешевый (меньше чашки кофе в день) и очень быстрый с точки зрения реализации (буквально 5 минут).
Интересно?
Как работают трансформеры: разбираем математику
В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.
Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. Перед прочтением этой статьи я рекомендую прочитать пост Illustrated Transformer (или читать их параллельно) [перевод на Хабре]. Это отличный пост, объясняющий модель трансформера интуитивным (и наглядным!) образом, поэтому я не буду объяснять то, что уже объяснено в нём. Моя цель заключается в том, чтобы объяснить, как работает модель трансформера, а не что это такое. Если вы хотите углубиться в подробности, то изучите известную статью Attention is all you need [перевод на Хабре: первая и вторая части].
Предчувствие Ричарда Фейнмана
Эта статья была вдохновлена циклом лекций «КЭД — странная теория света и вещества», который был прочитан Ричардом Фейнманом за несколько лет до его смерти (фактически он уже был в то время смертельно болен). Более конкретно следующими цитатами:
PFGM++: буст генеративных моделей с применением электростатики
Новая ступень в развитии диффузионных генеративных моделей ИИ, и новая возможность создавать собственные изображения в 10 раз быстрее, чем раньше. Это стало реальным благодаря удачной попытке совместить знания об электростатике и принципу функционирования привычных нам диффузионных моделей. Так, исследователям из MIT CSAIL удалось воплотить в жизнь инновационную модель PFGM ++, которая по последним данным значительно превосходит своих предшественниц.
Какова физическая природа PFGM ++, и как ее использовать на практике – давайте разбираться далее вместе.
Приятного прочтения!
Как работают Векторные базы данных и Поиск похожих текстов в них
Если вы когда-нибудь использовали в работе retrieval augmentation generation (RAG) на базе векторного поиска и не лезли туда под капот, но были бы не прочь, я постараюсь погрузить вас в то, как устроена векторная база данных внутри.
'Attention is all you need' простым языком
Некоторое время назад я повесил здесь статью с кратким обзором техник векторизации, и мне показалось логичным продолжить эту тему попыткой разобраться с тем, в какую сторону NLP шагнула дальше, как научилась оцифровывать смысл: выбор пал на механизм attention. Мы с коллегой-переводчицей перевели и переработали Youtube-ролик 'Attention is all you need explained' в статью, которую и представляем вашему вниманию.
Заранее прошу прощения за светофор в картинках: по-другому черный фон из скриншотов убрать не получалось :).
В 2017 году, в статье Attention is all you need, исследователи из Google представили архитектуру Transformer. Новизна Transformer заключалась в использовании self-attention (досл. с англ. — самовнимание, внутреннее внимание) — механизма, благодаря которому модель может сосредоточиться не на всех сразу, а на наиболее важных элементах входной последовательности...
Обзор современных подходов персонализации диффузионных нейронных сетей
Задача персонализации text-to-image модели состоит в донастройке предобученной нейронной сети так, чтобы она могла генерировать изображения заданного объекта в выбранных сценах. Несмотря на то, что подходы к решению этой задачи существуют, для их применения в высоконагруженных системах необходимо решить ряд проблем: большое время дообучения, высокие требования к видеопамяти, неспособность точно захватывать детали целевого объекта и др.
Меня зовут Сергей Михайлин. Я разработчик группы машинного обучения в ОК. В данной статье дан обзор современных подходов к персонализации text-to-image моделей на базе открытой архитектуры Stable Diffision. Мы приводим технические подробности каждого подхода и анализируем его применимость в реальных высоконагруженных системах. На основании собственных экспериментов по персонализации text-to-image моделей мы выделяем список возникающих при решении этой задачи проблем и перспективных способов их решения.
Чат GPT-4V, который видит — что он умеет
Отчёт вот. Теперь давайте смотреть, а не читать.
Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации
Если вы пьяны, он пересчитает пиво и сверит с чеком:
Собственно, важное:
- Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
- Читает текст, ориентируется на местности, опознаёт конкретных людей
- Умеет в абстракции и обратно
- Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
- Плохо считает.
Давайте к деталям.
Простая нейронная сеть без библиотек и матриц. Эволюционный алгоритм
Руководство? Гайд? В общем вторая часть описания моего опыта в создании простой, а главное понятной любому новичку нейросети :)
В этот раз поговорим про эволюционный/генетический алгоритм и заставим нейросеть балансировать мячи.
Куда пропали фитнес-браслеты?
В наши дни смарт-часы являются «базовым», самым привычным носимым устройством. Они занимают солидную часть рынка, их выпускают десятки компаний. Но почему так сложно найти простые, но доступные альтернативы для них, какими когда-то были фитнес-браслеты?
Если забить «фитнес-браслет» в «Яндекс.Маркете», то нам найдут 2176 предложений. Причем примерно треть из них будут умными часами самой бюджетной категории. А если вбить «умные часы», нам предложат 8874 модели. На Amazon разница ещё более существенная. Почему?
Model soups: альтернатива ансамблированию при файнтюнинге моделей
Если зайти на Papers With Code и посмотреть на лидерборд для image classification на ImageNet (а также различных его вариациях), то можно обнаружить в топ-5 модель с незамысловатым названием model soups.
В этой статье мы разберемся с тем, что это такое, и кратко пробежимся по основным моментам оригинального папера.
У вас неправильные перцептроны
Всем привет.
Я ML энтузиаст, и пытаюсь разобраться в нейронных сетях. Пока разбирался у меня появились вопросы, а возможно и ответы.
Собственно, сразу один из моих вопросов: почему перцептрон с несколькими выходами не используется по умолчанию?
Заряженный фундамент: суперконденсатор из цемента, воды и сажи
В последние годы вопрос зеленой энергетики стал все более громко обсуждаться во всем мире. Пока политики и активисты обмениваются обоюдными обвинениями, оправданиями и призывами, научное сообщество пытается ответить на ряд важных вопросов: где взять зеленую энергию, как ее добывать, и как ее хранить. Обычно львиная доля внимания общественности прикована именно к первому, но вопрос хранения добытой энергии не менее важен. Ученые из Массачусетского технологического института (Кембридж, США) разработали новый тип суперконденсатора, сделанного из вполне доступных материалов, а именно цемента, воды и сажи. Как именно создавался этот ионистор, каков принцип его работы, и насколько он эффективен? Ответы на эти вопросы мы найдем в докладе ученых.
LK-99 — сверхпроводимость при комнатной температуре?
Возможно, корейскими учеными был создан сверхпроводник при комнатной температуре и атмосферном давлении. Если это открытие подтвердится - это очень, очень изменит мир! Публикации на сайте arXiv были выложены 28 июля 2023 года, вместе с видео, якобы, демонстрирующим эффект Мейснера в образце. Под катом - часть того, что сейчас об этом известно.
Information
- Rating
- Does not participate
- Location
- Россия
- Registered
- Activity