Обновить
795.98

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Властелин алгоритмов: сезон «ИИ в разработке» на Хабре

Время на прочтение3 мин
Охват и читатели9.1K

Он пришёл на пятый день с востока! Сезон «ИИ в разработке» на Хабре.

Искусственный интеллект становится соисполнителем в современной разработке, он берет на себя анализ кода, стратегическое планирование и другие задачи. И в этом сезоне мы предлагаем вам поделиться историями о том, как искусственный интеллект помогает решать реальные задачи, разгружать рутину и ускорять процессы в работе и жизни.

Под катом — условия, призы и детали участия.

Читать далее

Борьба с дисбалансом классов. Oversampling

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.1K

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса.

В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn. Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

Читать далее

За рекордными отчётами Nvidia скрывается афера на 2 триллиона долларов, и вот что от нас прячут…

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели13K

«Много говорят о пузыре ИИ, - отметил CEO Nvidia Дженсен Хуанг во время недавнего отчёта о прибылях за третий квартал. - Мы видим иную картину».

Легко понять, почему Хуанг так считает. В конце концов, этот отчёт был лакмусовой бумажкой для всей индустрии, и они с блеском прошли проверку. Их выручка взлетела на 62%, превзойдя прогнозы Уолл-стрит. Я уверен, что с вершины своей золотой горы Хуангу всё кажется прекрасным. И впрямь, похоже, мир согласился, что страхи о катастрофическом взрыве пузыря ИИ - не более чем паникёрство. Но я заявляю - это полная чушь, потому что это не гора золота, а карточный домик.

То, что все, кажется, упускают из виду, так это то, что спрос на кирки и лопаты вовсе не означает, что тюльпаномания или золотая лихорадка не готовы вот-вот лопнуть. Точно так же спрос на чипы ИИ, которые продаёт Nvidia, не означает, что нет пузыря, который вот-вот разрушительно схлопнется.

Вопрос закрыт. Но все также упускают из виду ужасающий контекст этого отчёта. Подобно тому, как, потянув за одну ниточку, можно распустить весь свитер, если проследить здесь за деньгами, то ужасающий масштаб пузыря ИИ предстанет во всей своей наготе.

Пристегните ремни - погружение будет глубоким!

Читать далее

ИИ-агенты на рынке недвижимости: эволюция

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели5.7K

Всем привет! Меня зовут Алина, и на связи снова компания Домклик. Сегодня я хочу рассказать про очень горячую тему этого года, а именно про разработку ИИ-агентов. Недавно выступила с докладом на конференции HighLoad++ 2025. Я думаю, что всем будет интересно узнать, как мы провели это лето, делая ИИ-агентов для рынка недвижимости. Несмотря на уже существовавшие Transformer-модели, массового ажиотажа вокруг агентов тогда не было, однако в этом году ситуация кардинально изменилась.

Читать далее

Как выбрать между облаком, арендой GPU и своим железом для LLM-систем

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.9K

В этой статье разберём, во сколько обходится LLM-сервис при нагрузке в 100 000 диалогов в день и где проходит граница окупаемости разных вариантов. Посмотрим на стоимость облачных API, аренды GPU и собственного железа, а заодно прикинем, какая инфраструктура нужна, чтобы всё это выдержало боевой трафик.

Читать далее

Как я собрал Telegram-бота-консультанта по железу на бесплатном стеке (RAG + Groq + python telegram bot)

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.6K

Представьте консультанта в DNS/Ситилинке, который не навязывает «вот этот блок питания потому что остался на складе», а спокойно объясняет, чем один БП лучше другого под ваш билд, помнит, о чём вы спрашивали раньше и ещё просит вежливый фидбек.

В статье рассказываю, как собрал такого консультанта в виде Telegram‑бота «Кремний» — RAG‑бота по железу на бесплатных инструментах (Telegram Bot API, Groq с Llama 3.1 8B, sentence‑transformers) и что за «чуть‑чуть боли» произошло с NumPy и Pterodactyl при деплое.

Telegram‑бот‑консультант по железу

Гречневая нейронка. Попытка закрыть национальный гештальт

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели9.1K

Детекция мусора в гречке с помощью нейросети YOLO8n + попытки в real-time детекцию (Docker + FastApi, Gradio, TensorFlow Lite) + предложение добавить такую фичу в приложения продуктовых магазинов. За результатами приглашаю в статью.

Читать далее

Как мы учили кассу самообслуживания в столовой отличать борщ от свекольника

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели8.3K

Хочу рассказать о том, как мы разрабатывали и внедряли кассы самообслуживания для столовых и фудкортов. Под катом:

Почему распознавать еду сложно (но можно). Где мы ожидали получить проблемы, и где они были на самом деле. Почему не нужно помогать кассиру делать свою работу. Сколько котлет нужно сфоткать для уверенного распознавания. Бунт кассиров, бессмысленный и беспощадный. Какие проблемы создает товароведу касса самообслуживания.

Читать далее

Роевой интеллект: как 15 строк кода заменяют централизованное управление дронами

Время на прочтение5 мин
Охват и читатели9.2K

Привет, Хабр! Сегодня мы погрузимся в увлекательный мир роевого интеллекта и децентрализованных систем. Я покажу, как простые правила, заложенные в каждый элемент системы, позволяют добиться сложного группового поведения без единого центра управления. В качестве полигона используем виртуальный рой автономных дронов.

*Код и симуляция: Python 3.8+, matplotlib, numpy

Проблема централизованного управления

Представьте, что вам нужно координировать движение 50 дронов. Первое, что приходит в голову — центральный контроллер с нейронной сетью, которая вычисляет оптимальные траектории для каждого аппарата. Но у этого подхода есть фундаментальные недостатки:

Читать далее

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели15K

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим:

Модель поддерживает SSML;

Модель стала быстрее ещё на 20-25% (она и так была супер быстрой);

С живыми дикторами были подписаны договоры на запись их голоса;

Запись велась в максимально высоком из практически доступного качестве;

Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress;

К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели;

Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

Читать далее

Сравнение инструментов разметки данных для CV: Label Studio & CVAT & Roboflow — опыт разметки 6000+ изображений

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели9.1K

Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали...

Читать далее

Оптимальный путь в NLP: как стать Middle за полгода

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели8.3K

Разбираю оптимальный путь в NLP: какие темы не нужны, что важно выучить, и как за 6 месяцев выйти на уровень Middle. Внутри — ошибки обучения, приоритеты и подробный роадмап с вопросами для самопроверки.

Читать далее

Open source-мероприятия в России: предстоящие конференции и встречи

Время на прочтение3 мин
Охват и читатели8.1K

Предлагаю вашему вниманию подборку ближайших событий по open source. Фокус на открытых, бесплатных тематических мероприятиях различного формата (очных, онлайн и гибридных), в том числе с научным и управленческим уклоном.

Если вы планируете подобное событие (или проводите личный доклад по теме open source, который можно послушать бесплатно) в начале следующего года, присылайте посмотреть ссылки для потенциального включения в новую подборку.

Читать далее

Ближайшие события

LLM Evals: движущая сила новой эры ИИ в бизнесе

Время на прочтение7 мин
Охват и читатели7.3K

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.

Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.

Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.

Читать далее

Softbank тайно избавился от акций Nvidia, а SEC расследует деятельность OpenAI. Лопнет ли пузырь ИИ?

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели9.8K

Пузырь ИИ - это уже не слон в комнате. Это обезумевший клоун, вооружённый ножом. Его нельзя игнорировать, а если вы попытаетесь, то сделаете это на свой страх и риск. Главный вопрос заключался не в том, лопнет ли пузырь и нападёт ли клоун, а в том, когда это случится. Этот пузырь сейчас столь огромен и так тесно переплетён с нашей экономикой и финансовыми системами (подробнее читайте здесь), что, когда он лопнет, то нанесёт ущерб всему. Поэтому предсказать, когда этот клоун пустится в свой смертоносный разгул, очень важно. Беда в том, что сделать такого рода предсказания также невозможно. Однако за последнюю неделю появились существенные признаки того, что этот пузырь уже начинает лопаться. Возможно, нам и не придётся ничего предсказывать, потому что, похоже, крах уже начался.

Читать далее

Дискретные дифференциальные операторы

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели8.4K

Дискретные дифференциальные операторы лежат в основе математического моделирования и обработки данных. В частности, они используются при обработке временных рядов и изображений, в компьютерной графике и симуляциях физических процессов и т.д. В статье последовательно разворачивается дискретизация дифференциальных операторов: производные, градиент, дивергенция и лапласиан. В каждом случае приводится ядро для вычисления при помощи кросс-корреляции. В статье также кратко раскрывается суть кросс-корреляции. Данная операция, помимо всего прочего, лежит в основе свёрточных нейронных сетей. Для демонстрации практического применения приводится моделирование диффузии клеточным автоматом на основе классического уравнения диффузии.

Читать далее

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели11K

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2, в которую вошло следующее:

Что вошло?

MIT доказал провал 95% проектов, OpenAI признали галлюцинации, или почему ИИ никогда не заменит людей

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели30K

Нобелевский лауреат Джеффри Хинтон, которого часто называют «крёстным отцом ИИ» за его гигантский вклад в технологию искусственных нейронных сетей, питающую современный ИИ, в последнее время обрушился с гневной тирадой на Big Tech. От обвинений в корпоративной жадности до подчёркивания опасностей ИИ, он, подобно Пандоре, отчаянно пытается запихнуть судьбы обратно в ящик. Но в недавнем интервью для Bloomberg он выкрутил громкость на одиннадцать, поставив под сомнение саму экономическую жизнеспособность ИИ.

На вопрос Bloomberg, окупятся ли когда-нибудь головокружительные инвестиции в ИИ, Хинтон ответил: «Я считаю, что не смогут», и уточнил: «Я считаю, что для того, чтобы заработать деньги, вам придётся заменить человеческий труд»...

Читать далее

LLM в науке. Используем LLM в анализе эксперимента

Уровень сложностиПростой
Время на прочтение18 мин
Охват и читатели11K

Очень много говорят о вреде использования LLM для пользователей. Проводятся научные эксперименты, которые, в большинстве своём, подтверждают интуитивные предположения о рисках. Подопытные впадают в эмоциональную зависимость, тупеют, теряют память, снижается критичность, уверены в собственной правоте, разрывают связь с обществом и так далее. Многочисленные опасения касаются того, что LLM могут снижать когнитивные способности, в частности — креативность, превращая пользователя из генератора идей в простого оператора. Наш эксперимент был призван проверить, так ли это на самом деле.

Эта статья рассказывает о самом эксперименте, и как LLM использовался в его анализе с приложением промптов.

Читать далее

Лабораторная работа по тонкой настройке LLM для нестандартных задач классификации

Уровень сложностиСредний
Время на прочтение24 мин
Охват и читатели9.3K

Еще со времён школы меня будоражили возможности, которые дают компьютеры. Написать программу — это как создать что-то материальное своими руками. Неделю назад я за один вечер прочитал книгу Себастьяна Рашки «Строим LLM с нуля» (доступна на английском бесплатно), в которой без сложной теории матанализа описывается архитектура современных LLM и как их тюнить. 

Если вы интересовались, как работают LLM, то уже имеете представление, что модели умеют предсказывать следующее слово и что за этим стоит математика. Но на этом объяснение, как правило, заканчивается. Детали того, как они предсказывают следующее слово, часто рассматриваются как черный ящик.. В этой статье предлагаю рассмотреть эту тему подробнее и познакомиться с тонкой настройкой (fine-tuning) LLM для решения условно-практической задачи классификации с помощью примеров кода, приведенных в упомянутой книге. 

Статья устроена так, что все шаги в статье вы можете повторить и в конце получить набор скриптов для выстраивания пайплайна обучения LLM. Я же описал свои шаги, потому что лучший способ что-то понять — это применить теорию на практике и попытаться объяснить результат кому-то. 

Чтобы приступить к лабораторной работе, достаем двойные листочки, расчехляем питон и тиктокен.

Читать далее

Вклад авторов