Pull to refresh
0
0
Send message

Как учить большие языковые модели (теоретический туториал)

Level of difficultyMedium
Reading time1 min
Views4.7K

Обзорное видео с доклада об особенностях обучения LLM для тех, кто в теме ML/DL, но хочет расширить кругозор в области работы с большими языковыми моделями. На основе личного опыта и обзора множества научных статей и инструментов. Ссылка на презентацию прилагается.

Смотреть
Total votes 5: ↑5 and ↓0+5
Comments1

На пути к 1-разрядным моделям машинного обучения

Reading time8 min
Views3.8K

В последнее время активно разрабатываются технологии экстремально малоразрядного квантования, например, BitNet и 1.58 bit. Они пользуются большим интересом в сообществе машинного обучения. Основная идея данного подхода заключается в том, что перемножение матриц с квантованными весами можно реализовать и умножения, что потенциально полностью меняет правила игры применительно к скорости вычислений и эффективности больших моделей машинного обучения.

Эта статья написана в схожем ключе, но нас наиболее интересует, возможно ли напрямую квантовать предобученные модели при экстремальных настройках, в том числе, при двоичных весах (0 и 1). Уже имеющиеся работы нацелены на обучение моделей с нуля. Но в открытом доступе сейчас достаточно много отличных предобученных моделей, таких как Llama2. Более того, обучение с нуля — это ресурсозатратная задача в пересчёте как на вычисления, так и на данные, поэтому такие подходы не слишком доступны в свободном сообществе.

В этой статье мы подробно разберём крайне малоразрядное (2 и 1-разрядное) квантование предобученных моделей с применением HQQ+. HQQ+ — это адаптация HQQ (полуквадратичного квантования), в которой для повышения производительности используется адаптер с низкой размерностью. Наши результаты показывают, что при обучении лишь небольшой части весов в верхней части HQQ-квантованной модели (даже одноразрядной) качество вывода значительно возрастает, такая модель может даже превосходить небольшие модели полной точности.

Модели находятся на Hugging Face: 1-разрядная2-разрядная.

Читать далее
Total votes 20: ↑19.5 and ↓0.5+19
Comments1

Книга «SQL. Pocket guide, 4-е изд.»

Reading time7 min
Views4.3K
image Привет, Хаброжители!

Если вы аналитик или инженер по обработке данных и используете SQL, популярный карманный справочник станет для вас идеальным помощником. Найдите множество примеров, раскрывающих все сложности языка, а также ключевые аспекты SQL при его использовании в Microsoft SQL Server, MySQL, Oracle Database, PostgreSQL и SQLite.

В обновленном издании Элис Жао описывает, как в этих СУБД используется SQL для формирования запросов и внесения изменений в базу. Получите подробную информацию о типах данных и их преобразованиях, синтаксисе регулярных выражений, оконных функциях, операторах PIVOT и UNPIVOT и многом другом.
Читать дальше →
Total votes 7: ↑10.5 and ↓-3.5+14
Comments1

Ликбез по методологиям проектирования хранилищ данных

Level of difficultyEasy
Reading time2 min
Views8.7K

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.

Читать далее
Total votes 8: ↑5 and ↓3+2
Comments8

Кратко про алгоритм обучения Q-learning и как он реализуется в Python для новичков

Level of difficultyEasy
Reading time5 min
Views4K

Привет, Хабр!

Q-learning — это алгоритм обучения с подкреплением, который позволяет агенту оптимизировать свою стратегию действий в динамичной среде, стремясь максимизировать сумму будущих наград. Агент исследует среду, принимая решения, основанные на предыдущем опыте, а не на предварительной модели мира.

В этой статье мы и рассмотрим этот алгоритм.

Читать далее
Total votes 10: ↑8 and ↓2+6
Comments0

Надежный обход блокировок в 2024: протоколы, клиенты и настройка сервера от простого к сложному

Level of difficultyMedium
Reading time45 min
Views136K

Поскольку блокировки интернета в РФ в последние недели и месяцы многократно активизировались, а маразм все крепчает и крепчает, стоит еще раз поднять тему обхода этих самых блокировок (и делаем ставки, через сколько дней на эту статью доброжелатели напишут донос в РКН чтобы ограничить к ней доступ на территории страны).

Вы, наверняка, помните отличный цикл статей на Хабре в прошлом году от пользователя MiraclePtr, который рассказывал о разных методах блокировок, о разных методах обхода блокировок, о разных клиентах и серверах для обходов блокировок, и о разных способах их настройки (раз, два, три, четыре, пять, шесть, семь, восемь, десять, десять, и вроде были еще другие), и можете спросить, а зачем еще одна? Есть две основные причины для этого.

Читать далее
Total votes 506: ↑498 and ↓8+490
Comments351

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

Reading time8 min
Views47K

hero_image


В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.


Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:


  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →
Total votes 158: ↑157 and ↓1+156
Comments100

Ускоряем hugo на 20% простым изменением в пакете reflect

Reading time5 min
Views5.4K

Найти значительное узкое место в производительности стандартной библиотеки или зрелого приложения — это редкость.


Я был удивлён, когда в top10 списке CPU-профиля hugo при сборке digitalgov.gov на первой позиции находился метод reflect.Type.MethodByName().


      flat  flat%   sum%        cum   cum%
     8.84s  6.28%  6.28%     57.85s 41.10%  reflect.(*rtype).MethodByName
     7.93s  5.63% 11.92%      8.50s  6.04%  reflect.name.readVarint
     7.56s  5.37% 17.29%    111.79s 79.43%  reflect.Value.call
     7.53s  5.35% 22.64%     23.33s 16.58%  runtime.mallocgc
     7.29s  5.18% 27.82%     16.10s 11.44%  reflect.name.name

В этой статье я расскажу вам о том, как так вышло и что с этим можно было бы сделать.

Читать дальше →
Total votes 28: ↑27 and ↓1+26
Comments11

Клубничная чудо-коробка 2.0. Первая часть

Reading time12 min
Views24K

Не так давно я писал пост про умную коробку для выращивания клубники на балконе. Я убедился, что у меня получается и добился хороших результатов. Это подвигло меня продолжить дело и создать нечто большее. Я решил построить небольшую теплицу в закрытом помещении — контейнере, чтобы контролировать факторы, влияющие на развитие клубники и получить более качественный результат. На этот раз я отказываюсь от субстрата и перехожу на аэропонику.

Читать далее
Total votes 107: ↑104 and ↓3+101
Comments63

Разработка REST-серверов на Go. Часть 1: стандартная библиотека

Reading time9 min
Views76K
Это — первый материал из серии статей, посвящённой разработке REST-серверов на Go. В этих статьях я планирую описать реализацию простого REST-сервера с использованием нескольких различных подходов. В результате эти подходы можно будет сравнить друг с другом, можно будет понять их относительные преимущества друг перед другом.

Первый вопрос разработчиков, которые только начинают применять Go, часто выглядит так: «Какой фреймворк стоит использовать для решения задачи X». И хотя это — совершенно нормальный вопрос, если задавать его, имея в виду веб-приложения и серверы, написанные на многих других языках, в случае с Go при ответе на этот вопрос нужно принять во внимание множество тонкостей. Существуют серьёзные аргументы как «за», так и «против» использования фреймворков в Go-проектах. Я, работая над статьями из этой серии, вижу своей целью объективное разностороннее исследование этого вопроса.


Читать дальше →
Total votes 47: ↑44 and ↓3+41
Comments8

Реверсим и улучшаем SATA контроллер

Reading time14 min
Views40K

Вы когда-нибудь задумывались, как много вокруг умной электроники? Куда ни глянь, натыкаешься на устройство, в котором есть микроконтроллер с собственной прошивкой. Фотоаппарат, микроволновка, фонарик... Да даже некоторые USB Type C кабели имеют прошивку! И всё это в теории можно перепрограммировать, переделать, доработать. Вот только как это сделать без документации и исходников? Конечно же реверс-инжинирингом! А давайте-ка подробно разберём этот самый процесс реверса, от самой идеи до конечного результата, на каком-нибудь небольшом, но интересном примере!

Читать далее
Total votes 215: ↑215 and ↓0+215
Comments92

Мошенники и ЭЦП — всё очень плохо

Reading time5 min
Views237K

Недавно общественность облетела новость о первом случае продажи квартиры мошенниками с помощью ЭЦП и подделки документов. Когда я раньше читал подобные новости, всегда воспринимал отстранённо, как будто со мной этого не может произойти, но я ошибался. И теперь могу заявить, в зоне риска мошенников — каждый, увы, даже хабровчане.

Читать дальше →
Total votes 356: ↑356 and ↓0+356
Comments780

Хочу купить чужой домен, как это сделать? Шаги от проверки к покупке

Reading time4 min
Views19K

Вы можете перекупить домен у владельца или зарегистрировать освобождающийся адрес через аукцион доменных имен. На сначала надо проверить домен, чтобы не приобрести «кота в мешке».

Рассказываю, как проверить и как купить.
Total votes 29: ↑27 and ↓2+25
Comments9

Экзамены TOEFL/IELTS как ориентир для развития. Фундаментальные апгрейды языка и их польза для разработчика

Reading time13 min
Views18K


Экзамены английского языка вызывают у большинства разработчиков негативную реакцию. В сети или в курилке часто можно услышать утверждения о том, что TOEFL/IELTS проверяют не уровень владения языком, а умение соответствовать шаблонам. Разработчики цепляются за свой B1 или даже B2/C1, который им дали на внутреннем ассессменте в компании или при прохождении 10-минутного онлайн-теста. Далее, у нас есть 2 пути. Вы можете принять ваш уровень и не развиваться, думая что вам «не нужно», «не моё» и так далее. Можете найти 100 причин отрицать международные общепринятые тесты и даже обойти их при миграции. А можете согласиться с тем, что ваш уровень не достаточно хорош при объективной оценке по критериям, и подумать над развитием и пользе для карьеры разработчика. Статья будет именно про второй путь, а конкретно:

  1. Развитие скорости чтения и использование правого полушария мозга вместо левого
  2. Накрутка навыка письма через независимые эссе внутри Grammarly
  3. Турбонакрутка разговорной речи через комментирование своих действий в играх (RPG/RTS)
  4. Ускорение с помощью слепой печати
  5. Контроль промежуточных результатов через TOEFL GO
Читать дальше →
Total votes 17: ↑16 and ↓1+15
Comments50

Работаем в IntelliJ IDEA на слабом железе

Reading time7 min
Views49K

Обнаружил секретный репозиторий на гитхабе JetBrains под названием Projector. Благодаря нему написал кусок кода в IntelliJ IDEA, запущенной на Android-планшете. Рассказываю, как это повторить.


Читать дальше →
Total votes 94: ↑93 and ↓1+92
Comments147

Как жить и работать с психиатрическим диагнозом: расшифровка эфира, часть 1

Reading time24 min
Views24K

И снова привет, Хабр.

Две недели назад я написала пост с каминг-аутом, что я работаю в IT с тяжелым психическим расстройством и предложила задавать вопросы. И форма ответов просто взорвалась! Впервые за время, которое я на площадке, я увидела человеческую часть нашего коммьюнити так близко.

Поэтому перед публикацией расшифровки я хочу сказать спасибо за поддержку и доверие. Я постаралась ответить на все вопросы во время эфира — вышло длинно, поэтому расшифровка выйдет двумя частями: в целом о жизни с БАР и практические вопросы, вроде как найти врача.

Под катом часть первая — о жизни с БАР.
Total votes 65: ↑58 and ↓7+51
Comments43

Как жить и работать дальше, если вам поставили психиатрический диагноз

Reading time6 min
Views107K


UPD Cсылка на стрим на youtube

Привет, Хабр!

Меня зовут Сания Галимова, я 6 лет в рекламе, два из них — руковожу отделом маркетинга в IT-компаниях и уже 4 года пью психотропные препараты по назначению психиатра.

Раньше мне было очень трудно заканчивать проекты и даже просто удержаться на одном месте работы: я была сверхэмоциональной, со мной было трудно договориться, а иногда я просто не могла работать — после 3-4 месяцев интенсивной работы и демонстрации хороших результатов меня «выключало» — я сидела перед монитором и не могла прочесть даже строчки текста.

Меня увольняли, от меня уходили партнеры, я еле сводила концы с концами, но это ни в какое сравнение не шло с галлюцинациями, навязчивыми суицидальными мыслями и клиническими депрессиями.

Звучит, будто бы жизнь была ужасной, но я никогда так не думала: жизнь была замечательной, но очень сложной, и я постоянно искала причину, почему так трудно — и в 21 наконец дошла до психиатра, который поставил мне диагноз и я начала лечиться.

Сейчас я уже 3-й год в ремиссии, моя карьера пошла вверх, я могу жить, работать и путешествовать, не переживая о здоровье и бытовых вещах. Во многом это правильная диагностика, подбор препаратов и работа с психиатром и как раз об этом я и хочу рассказать.
Читать дальше →
Total votes 199: ↑179 and ↓20+159
Comments169

Как жить и работать с психиатрическим диагнозом. Часть 2: практические вопросы

Reading time14 min
Views27K

Кэрри Фишер, известная ролью принцессы Леи всю жизнь сражалась с биполярным расстройством — ей не помогали лекарства, только электрошок. Она — мой любимый биполярник, поэтому и иллюстрирует эту статью

Это вторая часть расшифровки эфира про жизнь и работу в IT с биполярным расстройством, первую и нулевую часть про мою историю, как я этому училась на своих ошибках, можно прочитать в анонсе и первой части расшифровки.

В этой части расшифровки все практические вопросы про ментальные расстройства, которые задавали читатели Хабра во время эфира: как найти врача, как помочь близкому человеку с заболеванием и могут ли вас насильно госпитализировать и поставить на учет в современной России.
Total votes 53: ↑46 and ↓7+39
Comments122

Исследуем электромагнитные поля с помощью SDR приемника и OpenCV

Reading time10 min
Views28K


SDR-приемник, даже самый дешёвый, является весьма высокочувствительным приборчиком. Если добавить к нему специальную антенну и OpenCV, то можно будет не только привычно слушать эфир, но и посмотреть на распределение электромагнитных полей в пространстве. О таком интересном применении и пойдет речь в данной статье. Внимание! Под катом много картинок и анимации!
Читать дальше →
Total votes 102: ↑101 and ↓1+100
Comments28

Добываем Wi-Fi соседа стандартными средствами MacOS

Reading time5 min
Views359K
Я всегда был фанатом багов и уязвимостей «на поверхности», всегда завидовал чувакам, которые пишут эксплойты для самых защищённых ОС, а сам умел только скрипткиддить (термин из нулевых). Однако мой пост про уязвимости в системах контроля версий набрал более 1000 лайков на Хабре и остаётся топ1 постом за всю историю Хабра, несмотря на то, что был написан 9(!) лет назад.

И сегодня я хотел бы на пальцах показать и рассказать про такую штуку, как вардрайвинг. А точнее, как стандартными средствами MacOS можно добыть пароли от Wi-Fi соседей. Нелёгкая забросила меня на очередную квартиру. Как-то исторически сложилось, что я ленивый. Пару лет назад я уже писал, что моя лень, новая квартира и провод Beeline (бывшая Corbina) помогли мне найти багу у Билайна и иметь бесплатно интернет в их сети. «Сегодня» происходит «подобное», я на новой квартире, нет даже провода, но есть много сетей у соседей.


Заколебавшись расходовать мобильный трафик, я решил, что «соседям надо помогать», и под «соседями» я имел введу себя…
Читать дальше →
Total votes 163: ↑151 and ↓12+139
Comments249
1
23 ...

Information

Rating
Does not participate
Registered
Activity