Все потоки
Поиск
Написать публикацию
Обновить
772.29

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Нейросеть на службе бизнеса: от отзыва до инсайтов

Время на прочтение6 мин
Количество просмотров75

эпоху цифровизации каждый клиентский отзыв — это больше, чем просто слова. Это ценный актив, содержащий информацию о настроениях, скрытых проблемах и возможностях для роста. Однако, как бизнесу эффективно обрабатывать тысячи таких сообщений? Решение лежит в области искусственного интеллекта. Сегодня мы разберёмся, как нейросеть трансформирует эмоциональный комментарий в структурированные данные, которые можно интегрировать в бизнес-процессы для принятия решений.


От текста к числам: язык, понятный машине


Прежде чем нейросеть сможет «понять» отзыв, его нужно перевести на её язык. Этот процесс называется токенизацией и векторизацией. Люди читают слова, а машины работают с числами.


Наш первый шаг — это предобработка данных. Представьте, что вы очищаете сырой алмаз от лишней породы, чтобы увидеть его истинный блеск. В мире NLP (обработки естественного языка) это означает:


Приведение к нижнему регистру: «Очень» и «очень» — это одно и то же слово для нашей модели.

Удаление «шума»: Местоимения, предлоги, союзы (и, в, на) — так называемые стоп-слова — часто не несут эмоциональной окраски. Их удаление помогает модели сфокусироваться на действительно значимых словах-маркерах.

Удаление пунктуации и спецсимволов: Запятые, восклицательные знаки и смайлики важны для человека, но для базового анализа могут быть избыточными.


После очистки мы преобразуем слова в числовой формат. Один из самых популярных методов — TF-IDF (Term Frequency–Inverse Document Frequency). Этот алгоритм не просто подсчитывает, сколько раз слово встречается в отзыве (TF), но и оценивает его важность (IDF). Слово, которое часто встречается в одном отзыве, но редко в тысячах других (например, «медленная» в негативном комментарии о доставке), получает высокий вес. Это позволяет выделить уникальные и значимые характеристики каждого отзыва.

Читать далее

Новости

Оптимизация ремонта грузовых вагонов: от мирового опыта к российской практике

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров338

Привет, Хабр! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В своей статье расскажу, как мы разработали систему оптимизации распределения вагонов на ремонт для одного из крупнейших железнодорожных операторов России Первой грузовой компании (ПГК). Внедрили методологию оценки экономического эффекта через сравнение с "идеальным сценарием". За два с половиной года работы система обработала рекомендации для более чем 50,000 вагонов.

Читать далее

Кейс: разработать квест-мастера на нейронке

Уровень сложностиСредний
Время на прочтение47 мин
Количество просмотров161

Инженерия подсказок, как и все, что связано с нейросетями, для непогруженного человека может показаться чем-то раздутым и незначительным. Нет, ну серьезно. Что трудного попросить ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ сочинить стишок или рассказать популярно что такое "Эпистемологический анархизм". Но на деле все действительно оказывается слишком, слишком, слишком нетривиально. Расскажу на примере пустяковой задачки: "Разработать ИИ-агента квест-мастера, который генерит загадки и отслеживает ее угадываемость".

Доп.цель:
добиться исполнения логики именно на стороне нейросети, используя только ее базовые параметры, используя только бесплатные или самые дешевые модели, с задействованием минимально необходимого бекенда.

Оглавление:
X1. Прототипирование. Достижение задуманного 65%. Отсутствие стабильности.
X2. Теория. Основные принципы предсказуемости.
X3. Прототип 2.0. Применение теории использования примеров и структурирования промта на практике и влияение на результат.
X4. Применение и теории, и практики для стабильного результата.

Читать далее

Как Google оценивает контент: скрытые метрики поискового доверия

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров126

Всем привет! Меня зовут Андрей Попов, я SEO-специалист в AGIMA. В 2025 году работа с поисковыми системами кардинально изменилась: Google и ИИ-ассистенты вроде Алисы, Gemini или Chat GPT всё чаще не просто ищут страницы по ключам, а сами «понимают» смысл контента и выдают пользователю готовый ответ.

И вот что самое интересное: решения о том, какой контент попадает в эту выдачу, принимаются не только по релевантности или ссылкам. Всё чаще Google опирается на скрытые метрики доверия — внутренние сигналы, которые оценивают не просто текст, а репутацию источника, авторитет автора, надежность бренда и даже «пограничность» самой темы.

Для SEO-специалиста это меняет правила игры. Недостаточно просто писать статьи и оптимизировать метатеги — нужно работать с невидимым слоем: формировать доверие, закреплять сущности и регулярно подтверждать экспертность.

Читать далее

No-code разработка: telegram-бот для анализа эмоций без программирования

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров240

Когда вокруг постоянно говорят про искусственный интеллект, трудно остаться в стороне. Куда ни посмотри — везде нейросети: от фильтров в соцсетях до сложных аналитических систем. Мне как начинающему специалисту эта тема особенно близка — не просто наблюдаю за трендами, а пробую их на практике.

Недавно я решил создать небольшой, но полезный проект — Telegram-бота, который умеет определять эмоциональный окрас сообщений. Не суперсложное приложение, а скорее практика: проверить, как можно быстро собрать рабочее AI-решение, не погружаясь в тонны серверных настроек и не тратя недели на разработку.

До этого я уже сталкивался с задачами по работе с облачными сервисами, но именно этот эксперимент стал для меня наглядным примером, как много сегодня можно сделать «из коробки». Нужно было лишь придумать задачу (в моем случае — анализ эмоций в тексте), выбрать инструменты и собрать все в единый рабочий процесс.

Я остановился на трех основных вещах: Container Apps для развертывания, n8n в роли конструктора логики и Evolution Foundation Models как источник интеллекта. Плюс удобный Artifact Registry, чтобы хранить образы контейнеров.

Дальше началось самое интересное — подготовка среды, развертывание и настройка бота. Ниже расскажу, как именно это происходило.

Узнать подробности

Kandinsky 5.0 Video Lite — лучший open-source генератор видео высокого качества в классе лёгких моделей

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров1.4K

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky 5. Модель работает в разрешении 768×512 и, при небольшом размере всего в 2 млрд параметров, демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых state-of-the-art решений.

Ключевой акцент сделан на эффективности: модель компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до предобучения и тонкой настройки. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости.

В этом посте мы подробно разберём устройство Kandinsky 5.0 Video Lite и её возможности.

Читать далее

Как мы (не) смогли посчитать вакантность жилья в Москве

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.1K

Летом прошлого года я в команде из шести человек поучаствовал в конкурсе «Исследуй город». Мы три месяца пытались оценить вакантность жилья в Москве, заняли предпоследнее место, а потом ещё год пробовали уже вне конкурса, на чистом энтузиазме, улучшить сделанное. Получилось все равно не очень, но отрицательный результат — тоже результат, поэтому делимся им: быть может, кто-то прочитает, вдохновится и сможет нас превзойти.

Читать далее

FuriosaAI NXT RNGD: как корейский стартап бросает вызов NVIDIA в сегменте ИИ-инференса

Время на прочтение3 мин
Количество просмотров377

Корейский стартап FuriosaAI представил сервер NXT RNGD для ИИ-инференса. 4 петафлопса вычислений при потреблении 3 кВт вместо 10+ кВт у GPU-решений. Анализ архитектуры, преимуществ и перспектив альтернативы NVIDIA.

Читать далее

Прощай, рутина: как наша команда QA в 3 раза ускорила работу с помощью собственного ИИ-агента

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров3.7K

Привет, меня зовут Сергей, я занимаюсь автоматизаций тестирования в компании ITFB Group, и хочу поделиться опытом внедрения AI-агентов в наши процессы.

Наверняка всем тестировщикам знакома ситуация, когда остаётся всего пара дней до релиза, а команда тестирования всё ещё работает над задачами по новым фичам и не может приступать к регрессу? Или перед передачей новой версии заказчику тестировщики успевают проверить только smoke-сценарии, засиживаясь допоздна? А до написания чек-листов и тест-кейсов по новым функциям руки дойдут вообще не скоро. У нас тоже такое нет-нет, да и случается.

Самое первое, что приходит в голову после таких авралов – нам нужна автоматизация регресса. Но как в кратчайшие сроки сделать из ручных сценариев автотесты, если никто в команде тестирования не пишет код и нужно изучать всё с нуля, и это при том, что и так ни на что не хватает времени? На помощь придёт вездесущий AI!

Читать далее

GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров523

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS.

За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта».

В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии.

Читать далее

Как посчитать, сколько людей в лаборатории

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.4K

Почти всё время существования лаборатории студенческих проектов Висконсинского университета в ней использовалась камера. Есть свидетельства наличия такой системы ещё в 1990-х: на древней версии сайта университета о ней говорится следующее:

…на стену приклеена изолентой камера ценой $15, подключённая к видеомагнитофону, который соединён с видеоразъёмом Mac IIcx, где запущены Timed Video Grabber (TVG) и FTPd. Рабочая станция HP Dax выполняет скрипт, который каждые 60 секунд пытается сохранить на FTP последнее изображение. Из-за отсутствия синхронизации часов время от времени происходят коллизии доступа к файлам, и вся схема ломается.

Прочитав это, я ненароком с восхищением взглянул на камеру, которая теперь установлена наверху аркадного автомата. Система, для создания которой требовалось оборудование на многие тысячи долларов, сегодня реализуема (в бесконечно лучшем качестве) на основе веб-камеры за $50, подключенной к Raspberry Pi.

Читать далее

Музыка и математика: как аккорды вдохновляют архитектуру алгоритмов

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров1.3K

Эта статья — эксперимент на стыке музыки, математики и программирования. Мы попробуем взглянуть на аккорды не как на набор звуков, а как на архитектурные паттерны. Я покажу, как гармонические последовательности могут подсказать нам структуру алгоритмов, приведу примеры кода и проведу параллели между миром нот и миром вычислений.

Читать далее

Прямой диалог с лентой или будущее рекомендательных систем

Время на прочтение4 мин
Количество просмотров251

Порой кажется, что ленты рекомендаций появились вместе с интернетом — мы уже привыкли к их настойчивым попыткам угодить нам по лайкам и кликам. Но кто из нас не сталкивался с однообразными подборками в своём информационном пузыре?

Исследователи решили попробовать новый подход к рекомендациям — дать пользователю право голоса прямо в ленте: теперь можно просто сказать «это слишком дорого», и рекомендация тут же поменяется. Как устроены такие рекомендательные системы — разбираемся в новом обзоре.

Читать далее

Ближайшие события

Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса

Время на прочтение10 мин
Количество просмотров472

Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).

Читать далее

Собираем систему мониторинга ответов LLM на коленке

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.4K

Наверняка вы сталкивались с ситуациями, когда модель начинает вести себя в проде не так, как задумывалось: например, ведётся на провокации пользователя или даёт некорректные ответы. Зачастую такие ошибки безобидны, но случаются и не очень приятные ситуации. А если речь идёт о чат-боте, который отвечает на вопросы в юридической или медицинской сфере — практически любая ошибка может быть критичной. 

Итак, мы плавно подошли к тому, что нужно каким-то образом валидировать ответы LLM. Давайте разберёмся, как это делать.   

Читать далее

Обзоры препринтов научных статей «astro-ph/arxiv.org» за август 2025 года

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров697

Выпуск 446

Сильная поляризация импульсов долгопериодического радиотранзиента с белым карликом.

Открыт новый долгопериодический радиотранзиент. Период 841 секунда. Открытие сделано на LOFAR. Также источ��ик виден и в УФ, что может говорить о том, что это белый карлик. Тогда он должен быть в двойной, но компаньон не виден, так что, видимо, это маломассивный красный карлик.

Интересно, что источник выдает импульсы, у некоторых из которых 100-процентная круговая поляриация, а у некоторых - линейная. Импульсы узкие - не более 10 секунд, - около 1% от периода и меньше.

Есть интересная квазипериодичность в приходе импульсов, что авторы связывают с тем, что источник находится в двойной системе.

Также источник обнаружен на CHIME, arxiv:2507.05139. В этой статье также указывается на раскрутуку источника. Т.е., период уменьшается. Авторы предполагают такие идеи: или есть аккреция, раскручивающая объект, или это орбитальный период, и тогда "виноваты" гравитационные волны. В принципе, можно добавить еще одну идею: молодой сжимающийся белый карлик (вроде того, что мы идентифицировали раньше: arxiv:1711.02449). Тогда это должен быть молодой (не старше примерно 100 000 лет) объект.

Приятного чтения

GDTE 2025: роботы дерутся, AI меняет бизнес, а мы нашли клиента на миллиарды — репортаж из Ханчжоу

Время на прочтение3 мин
Количество просмотров1.4K

Привет, хабровчане! Если вы в теме IT, AI и глобального бизнеса, то знаете: Китай - это не просто фабрика мира, а лаборатория будущего. А GDTE (Global Digital Trade Expo) - единственная национальная международная выставка цифровой торговли в Поднебесной, где собираются 1000+ компаний из 100+ стран, тысячи профильных байеров и инвестиции на сотни миллиардов юаней. В 2025-м (25–29 сентября, Hangzhou Grand Convention and Exhibition Center) она бьёт рекорды: 45 проектов на 64,87 млрд юаней ($9,1 млрд) в AI, умном производстве и логистике.

Нас - команду энтузиастов AI-решений для бизнеса - пригласили как партнёров в экосистеме БРИКС. Миссия? Показать, как наши нейросети меняют бизнес, укрепить связи с Китаем. Мы не просто гуляли по стендам: общались с министрами, охотились за клиентами и впитывали тренды, которые через год-два взорвут ваш стек. Делимся нашим личным отчётом по дням - с фото, плюс разбором: что взять для вашего проекта.

Читать далее

Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Время на прочтение3 мин
Количество просмотров1.5K

Последние поколения LLM умеют долго рассуждать. И вот недавно исследователи решили взглянуть на этот процесс иначе — как на развернутую историю, где каждая мысль занимает свое место в последовательности эпизодов. Оказывается, у логики моделей есть неожиданные параллели с тем, как задачи решают люди: сначала читают, потом анализируют, строят план, пробуют варианты, а иногда теряются и возвращаются на пару шагов назад. Какой путь проходит ИИ, пока ищет ответ, и насколько этот путь похож на человеческий? Новая работа с аккуратной разметкой и яркими визуализациями открывает этот скрытый внутренний театр рассуждений.

Читать далее

Как я разрабатывал приложение llm-translate для перевода с помощью нейросетей

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.4K

Небольшой рассказ о том, как я начал делать инструмент для локального перевода текстов и файлов, с чего началось, и куда пришло.

Тема использования нейросетей в разных областях (в том числе и для перевода) часто обсуждалась на хабре - и я тоже решил поделиться своим велосипедом. В данный момент уже есть базовый функционал и некоторые планы на его расширение.

Код открыт, ссылка на репозиторий будет, ссылки на телеграм-канал не будет. В качестве компенсации за отсутствие ссылки на телеграм будут результаты небольшого исследования, какая LLM модель подходит лучше всего для перевода художественного текста с английского на русский - с замерами времени, качества переводов, а также с текстами полученных переводов.

Изображение на обложке - веб-интерфейс страницы перевода в созданном приложении.

Читать далее

Что было самого интересного про компьютерное зрение на Я Железо 2025

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.6K

Чт�� с точки зрения CV-инженера, в основном обучающего модели компьютерного зрения, было интересно на конференции Я Железо 2025?

Читать далее
1
23 ...

Вклад авторов