Статьи / Закладки / Профиль KurSh / Хабр

kursg @KurSh

Пользователь

Профиль Публикации Комментарии 1Закладки 825

kashokhin 14 янв в 14:31

Mamba. От начала до конца

Средний

5 мин

23K

Машинное обучение*Искусственный интеллект

FAQ

Из песочницы

Во времена повсеместного заполонения трансформерами, которые пожирали в себя все больше и больше кремниевых чипов; когда казалось, что лучше уже не будет и за каждый новый токен нужно платить в квадрате от предыдущих, в эту холодную зимнюю пору появилась она - Мамба.

+27

python_onelove 2 фев в 17:05

Бесплатные курсы по большим языковым моделям для дата-сайентистов

Простой

6 мин

8.7K

Машинное обучение*Data Engineering*

FAQ

Большие языковые модели предоставляют широкий спектр возможностей для различных задач и приложений. Они могут быть использованы для создания чат-ботов, голосовых помощников, автоматического редактирования текста, генерации субтитров и многое другое. Обучение этих моделей в 2024 году позволит расширить их функциональность и применимость.

В этой статье мы рассмотрим лучшие бесплатные курсы по большим языковым моделям в 2024 году, которые помогут вам освоить эту увлекательную область и раскрыть свой потенциал в мире искусственного интеллекта.

Читать

+11

PatientZero 18 янв в 10:16

Как работают трансформеры: разбираем математику

Средний

28 мин

16K

Математика*Машинное обучение*Искусственный интеллект

Туториал

Перевод

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.

Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. Перед прочтением этой статьи я рекомендую прочитать пост Illustrated Transformer (или читать их параллельно) [перевод на Хабре]. Это отличный пост, объясняющий модель трансформера интуитивным (и наглядным!) образом, поэтому я не буду объяснять то, что уже объяснено в нём. Моя цель заключается в том, чтобы объяснить, как работает модель трансформера, а не что это такое. Если вы хотите углубиться в подробности, то изучите известную статью Attention is all you need [перевод на Хабре: первая и вторая части].

+40

Squirrelfm 2 фев в 19:29

Архитектура RAG: полный гайд

Сложный

13 мин

8.3K

Машинное обучение*Искусственный интеллектБлог компании Raft

Туториал

Если, открывая холодильник вы еще не слышали из него про RAG, то наверняка скоро услышите. Однако, в сети на удивление мало полных гайдов, учитывающих все тонкости (оценка релевантности, борьба с галлюцинациями и т.д.) а не обрывочных кусков. Базируясь на опыте нашей работы, я составил гайд который покрывает эту тему наиболее полно.

Итак зачем нужен RAG?

+28

AlexeySushkov 9 янв в 11:40

Кто знает, что значит GPT в названии ChatGPT, могут дальше не читать

Простой

11 мин

58K

Алгоритмы*Машинное обучение*Искусственный интеллектNatural Language Processing*

Обзор

✏️ Технотекст 2023

В настоящее время искусственный интеллект (ИИ) стремительно развивается. Мы являемся свидетелями интеллектуальной мощи таких нейросетей, как GPT-4 Turbo от OpenAI и Gemini Ultra от Google. В Интернете появляется огромное количество научных и популярных публикаций. Зачем же нужна еще одна статья про ИИ? Играя с ребенком в ChatGPT, я неожиданно осознал, что не понимаю значения аббревиатуры GPT. И, казалось бы, простая задача для айтишника, неожиданно превратилась в нетривиальное исследование архитектур современных нейросетей, которым я и хочу поделиться. Сгенерированная ИИ картинка, будет еще долго напоминать мою задумчивость при взгляде на многообразие и сложность современных нейросетей.

+61

Shannon 28 ноя 2023 в 12:14

Локальные нейросети. Аналог ChatGPT-3.5 на домашнем ПК: OpenChat 7B превосходящая 70B, DeepSeek для кода уровня ChatGPT

8 мин

78K

Машинное обучение*Искусственный интеллект

Есть много локальных аналогов ChatGPT, но им не хватает качества, даже 65B модели не могут конкурировать хотя бы с ChatGPT-3.5. И здесь я хочу рассказать про 2 открытые модели, которые всё-таки могут составить такую конкуренцию.

Речь пойдет о OpenChat 7B и DeepSeek Coder. Обе модели за счет размера быстры, можно запускать на CPU, можно запускать локально, можно частично ускорять на GPU (перенося часть слоев на GPU, на сколько хватит видеопамяти) и для такого типа моделей есть графический удобный интерфейс.

И бонусом затронем новую модель для качественного подробного описания фото.

UPD: Добавлена информация для запуска на Windows с ускорением на AMD.

+103

Sivchenko_translate 14 янв в 14:31

С новым годом: GPT в 500 строках на SQL

42 мин

37K

Занимательные задачкиПрограммирование*SQL*Машинное обучение*Искусственный интеллект

Перевод

В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.

Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:

«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»

Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.

Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.

+207

SmirnovValeriy 1 апр в 10:03

ANNA – сервис для автоматической разработки нейронных сетей

Простой

10 мин

7.3K

Big Data*Блог компании Альфа-БанкМашинное обучение*

Кейс

Нейросетевые модели уже несколько лет успешно применяются в Альфа-Банке для решения ключевых задач, таких как кредитный скоринг, прогнозирование склонности клиентов к продуктам и определение оттока. Модели глубокого обучения демонстрируют высокое качество и стабильно улучшают метрики при добавлении к традиционным бустинговым моделям, что приносит Банку сотни миллионов рублей ежегодно.

Однако со временем процесс переобучения моделей под новые целевые переменные становится рутиной: используемые архитектуры почти не меняются, данные собираются по стандартным алгоритмам, по стандартным же алгоритмам обучаются модели и внедряются в продакшен.

Как продолжать успешно внедрять нейросетевые модели в основные бизнес-задачи, не тратя время на неэффективные рутинные процессы – в нашей новой статье.

+25

slivka_83 25 мар в 09:00

Самый лучший в мире курс по Машинному обучению — Алгоритмы Машинного обучения с нуля

1 мин

23K

Python*Машинное обучение*Искусственный интеллект

Обзор

Краткий обзор курса, который я недавно закончил пилить на степике. Курс хардкорный :) В нем необходимо с нуля писать алгоритмы машинного. Наверное это один из лучший способов досконально разобраться в алгоритме.

Курс бесплатный: https://stepik.org/course/68260/promo

+31

Morayg 24 мар в 12:26

Вы когда-нибудь дочитывали книгу «Игра в бисер»?

Простой

3 мин

21K

Читальный залИстория ITНаучная фантастика

Мнение

Есть книга Германа Гессе, которая получила нобелевскую премию. Я начинал читать книгу 7 раз. Дочитывал до конца 1 раз.

А вы предполагали, что это книга о действиях Торвадса Линуса?

Что эта книга начала 20 века, автор которой, поставил перед читателем проблему, у которой давно появилось решение. Давно — это спустя полвека после написания. Гессе задал вопрос, ответом на который является культура открытого исходного кода!

Хочу поделиться мыслью, которая не является ключевой для этой книги, но мне показалась интересной параллель, между мыслями и действиями великих умов, в разницей в 49 лет.

rekonchik 24 мар в 13:40

Где открыть магазин? Путешествие в геопространственный анализ и обратно

Простой

21 мин

2.9K

Геоинформационные сервисы*R*

В статье расскажу поподробнее про оценку локаций для бизнеса.

Проблема классическая: ищем место для открытия нового магазина/ресторана/пиццерии.

Сразу скажу, что при помощи гео я решал очень узкий набор задач:

• Оценить существующие локации с т.з. плотности населения, конкуренции, объема рынка. Найти новые точки для открытия или переезда бизнеса;

• Использовать признаки близости покупателя к бизнесу/конкурентам в клиентской аналитике для предсказаний оттока и откликов на рассылки/оффлайн рекламу;

Сегодня расскажу поподробнее про оценку локаций. Все работы я производил на языке R.

+12

egaoharu_kensei 24 мар в 14:43

Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python

Сложный

7 мин

4.9K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Линейный дискриминантный анализ (Linear Discriminant Analysis или LDA) — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую. Другими словами, объекты разных классов должны иметь нормальное распределение и располагаться как можно дальше друг от друга, а одного класса — как можно ближе.

GeeksCat 24 мар в 17:02

Первые способы защиты компьютерных игр от пиратства

Простой

12 мин

14K

Информационная безопасность*Блог компании Timeweb CloudЧитальный залСтарое железоИгры и игровые консоли

Ретроспектива

За несколько десятилетий ЭВМ эволюционировали от «100 квадратных метров площади, 25 человек обслуживающего персонала и 30 литров спирта ежемесячно» до вполне миниатюрных образцов: Commodore-64, Atari 800XL, Apple II, Электроника БК-0010… Проблема была в цене: все эти модели весьма били по карману рядовому обывателю (примерно как покупка автомобиля).

Всё изменил Клайв Синклер, выпустивший на рынок ZX Spectrum – первый дешёвый персональный компьютер. Спектрумы продавались ударными темпами: только в одной Англии за неделю приобретали порядка пятнадцати тысяч машин. Причём, помимо и так недорогой версии «в сборе», покупателям предлагался удешевлённый вариант в виде отдельных комплектующих – эдакий конструктор «Собери сам».

Читать дальше →

+74

IAlexOps 21 мар в 18:57

Что такое MLOps и как мы внедряли каскады моделей

Средний

7 мин

3.3K

Big Data*Блог компании Альфа-БанкData Engineering*

Обзор

Привет, меня зовут Александр Егоров, я MLOps инженер. В статье расскажу о том, как мы в банке выкатываем огромное количество моделей. Разберём не только пайплайн по выкладке отдельных моделей, но и целые каскады.

+21

anton_shbk 21 мар в 18:45

Контроллер управления по типу Аккерманна на базе 4-колёсной мобильной платформы (ROS Noetic)

Сложный

26 мин

1.1K

Python*Разработка робототехники*РобототехникаБудущее здесьИнженерные системы*

Туториал

В данной работе рассматривает пример создания симуляционной модели четырёхколёсной мобильной платформы с рулевым управления по типу Аккреманна, с использованием фреймворка ROS, контроллер написан на языке Python. В качестве среды симуляции выбрана Gazebo. Приведены примеры описания архитектуры робота, посредством формата urdf, разработан собственный контроллер для управления колёсами модели, а также показан общий подход к проектированию симуляционных моделей робототехнических систем.

Squirrelfm 29 янв в 07:59

Просто о Stable Diffusion: никакой магии

Простой

15 мин

10K

Машинное обучение*Искусственный интеллектБлог компании Raft

Туториал

Если вы не провели последние два года на ферме в Сибири, вы, вероятно, слышали о Stable Diffusion или пробовали генерировать изображения с помощью моделей, вроде Dall-e или Midjourney. Они становятся все лучше каждый день, и по качеству уже сравнимы с людьми, а во многих аспектах даже лучше (например, им не нужно платить).

Исследования в области создания видео уже идут полным ходом во многих лабораториях и компаниях, так что это лишь вопрос времени, когда генеративные модели сместят людей с очередного столпа на котором держится наше общества — порно. Я не вижу чтобы кто то поднимал тревогу об огромном количестве людей, которые потеряют работу из-за этого. Я не такой бессердечный, поэтому, прежде чем наступил этот печальный момент, я решил принять меры и создать базовое руководство, которое даже работник индустрии для взрослых сможет понять и использовать, чтобы оставаться в игре. Давайте посмотрим, что к чему.

+33

ilyanik 17 мар в 06:44

Вы не созданы для управления. Почему ваша команда воспринимает нововведения в штыки

5 мин

8.2K

Управление проектами*Развитие стартапаУправление персоналом*

Мнение

Слово «изменения» в бизнесе часто сопровождается нервными тиками в районе глаз у многих руководителей и предпринимателей. Это не просто слово – это заклинание. Потому что способно мгновенно разделить команду на три лагеря: тех, кто готов и давно этих изменений ждал, тех, кто еще 100 лет работал бы «по старинке» и тех, кто не определился к какому лагерю прибиться.

Grigory_T 2 мар в 20:18

Cross-Encoder для улучшения RAG на русском

Средний

15 мин

Python*Машинное обучение*Искусственный интеллектDIY или Сделай сам

Туториал

Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников.

Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос.

Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста.

В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить.

Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

+14

3draven 2 мар в 21:02

Личное облако на Proxmox

Средний

8 мин

19K

Настройка Linux*IT-инфраструктура*Виртуализация*Серверное администрирование*Облачные сервисы*

Туториал

В прошлой статье (https://habr.com/ru/articles/794508/) я писал как поставить Proxmox 8 на Orange Pi 5(b). Это даже получилось, но я уперся в то, что производитель железки не выпускает свежие ядра под нее. Для железки есть 5.10.160 и оно устарело для Proxmox 8. Виртуалки работают, но есть проблемы с фаерволом. Производитель обещает вот-вот выпустить новое, но ждать я не стал и решил сделать инфраструктуру по другому. О чем и напишу. Получается уже цикл статей. Эта будет описывать цель и первые шаги к ней.

+20

AnalogBytes 24 мая 2020 в 13:20

ДИТ Москвы при проверке пропуска получает разрешение на отправку рекламы на следующие 10 лет

8 мин

180K

Информационная безопасность*Блог компании AnalogBytes Conference

Recovery Mode

Одна из вещей, которые никогда не делают пользователи — это чтение до конца лицензионных соглашений. Тем временем, читать их стоит, даже если, казалось бы, в контексте конкретного сервиса их содержание представляется очевидным.

К таким «очевидным» сервисам относится, например, сервис проверки цифрового пропуска https://i.moscow/covid. Если раньше он позволял проверить только организацию по ИНН, то с недавних пор ДИТ Москвы стал массово аннулировать пропуска горожанам за якобы предоставление неверных сведений о месте работы — и отсылать их для подтверждения места работы на указанный сервис.

При нажатии на «Если у Вас заблокировали цифровой пропуск, перейдите по ссылке» сервис выдаёт просьбу ввести сначала номер паспорта, а потом ИНН компании, сопровождаемую непримечательной галочкой:

Абсолютное большинство людей проставят её, не читая сопутствующий документ — и очень зря.

Если говорить коротко, все граждане, попавшие на этот сервис, подписываются на передачу абсолютно всех данных, которые сервис в принципе способен о них собрать — от IP-адреса до номера паспорта и названия работодателя — любым третьим лицам с практически любыми целями, включая рассылку рекламы, на срок в 10 лет.

Читать дальше →

+279

354

2 3 ...

41 42