Как стать автором

Машинное обучение *

Основа искусственного интеллекта

СтатьиПостыНовостиАвторыКомпании

bolshiyanov 9 часов назад

Как создать свой Perplexity: Архитектура AI для глубокого исследования на Next.js и OpenAI

24 мин

745

Open source*Веб-разработка*Искусственный интеллектМашинное обучение*Математика*

Туториал

Многие программисты в ближайшие годы потеряют работу из-за ИИ. Ваша задача — самому стать тем, кто строит Perplexity, а не тем, кто только ими пользуется.

К концу статьи у вас будет четкое понимание того, как построить self-hosted SaaS для глубокого исследования, который можно встроить в любой продукт.

Переходите, копируйте репозиторий, поднимайте и вы сможете в полном мере насладиться экспериментами и изучить логи.

Читать далее

+3

johnsmithyeas 11 часов назад

Зоопарк версий питона в ИИ, какую версию лучше выбрать в 2025 для большинства задач?

Простой

9 мин

745

Python*Искусственный интеллектМашинное обучение*Программирование*Управление проектами*

Из песочницы

Разработка в области искусственного интеллекта развивается стремительно. Каждый месяц появляются новые модели и фреймворки, и часто возникает вопрос: какую версию Python использовать для локальной разработки и экспериментов, чтобы обеспечить максимальную совместимость и избежать «ада зависимостей»? Но, можете не тратить время на чтение. СРАЗУ ВЫВОД: Рекомендуемая версия: Python 3.10.x.

Неправильный выбор версии Python может привести к часам отладки, проблемам с компиляцией пакетов и несовместимости с ключевыми библиотеками, такими как PyTorch или TensorFlow. В этой статье мы проведем глубокий анализ совместимости более 30 популярных AI-моделей и 30+ библиотек, чтобы дать однозначный и обоснованный ответ.

Читать далее

-4

Albertino_S 12 часов назад

Классификация документов: гайд для обхода граблей

Средний

3 мин

579

Python*Машинное обучение*

Из песочницы

У всех на слуху библейское изречение «отделять зерна от плевел» и его грубый аналог «отделять мух от котлет». В обычной жизни мы также сталкиваемся с необходимостью разделять схожие предметы. В машинном обучении задача разделить объекты по определенным классам, например, «зерна» и «плевелы», называется классификация. Классификация лежит в основе современных технологий искусственного интеллекта и играет ключевую роль в машинном обучении.

Читать далее

+4

full_moon 12 часов назад

Цукерберг переманивает сотрудников OpenAI, модели учатся шантажу: главные события июня в ИИ

22 мин

693

Блог компании Magnus TechИскусственный интеллектИсследования и прогнозы в IT*СофтМашинное обучение*

Дайджест

Когда Claude Opus пишет научную статью в ответ на работу Apple, а Gemini 2.5 Pro выпускает третью часть этой дискуссии — становится понятно, что мы живем в интересные времена. LLM не только обсуждают друг друга в академических журналах, но и, как уже не в первый раз подтвердилось, отлично распознают, когда их тестируют на безопасность.

Параллельно с этой интеллектуальной дуэлью OpenAI удешевили o3 на 80%, Meta заключила ядерный контракт до 2047 года, а Anthropic вновь протестировали модели на склонность к шантажу. По меркам индустрии — месяц почти рутинный. По меркам всего остального — вполне себе блокбастер.

Традиционно разбираем главные события месяца, новые инструменты и исследования!

Читать далее

+15

klauss_z 14 часов назад

ИИ-помощник редактора на Хабре: семь раз вайб-код — один раз поймешь

Простой

18 мин

882

Блог компании YADROМашинное обучение*Natural Language Processing*Контент и копирайтинг*Habr

Туториал

Привет! На связи Николай из редакции блога YADRO. Наша команда регулярно поставляет на площадку статьи по инженерным и смежным темам. Мы смотрим на статистику, радуемся или огорчаемся, проверяем гипотезы и верим, что в ответ график роста посмотрит на нас под новым, бо́льшим углом.

Со временем число текстов в блоге YADRO неуклонно растет. А моя оперативная память редактора остается неизменной: пара-тройка последних месяцев плюс несколько ярких вспышек пораньше. Зато растет FOMO — тревога, что я мог бы найти новые возможности для развития блога, будь мой фокус шире. Поможет ли здесь искусственный интеллект? «Отличный кейс!» — ответила ChatGPT, и я начал первую версию проекта.

Читать далее

+22

MaxRokatansky 14 часов назад

45 открытых уроков июля: возможности роста для каждого

3 мин

943

Блог компании OTUSПрограммирование*IT-инфраструктура*Машинное обучение*Тестирование IT-систем*

Дайджест

Привет, хабровчане. В этом дайджесте делимся подборкой открытых уроков, которые проведут преподаватели OTUS в рамках набора на онлайн-курсы в июле. В программе — от глубоких погружений в архитектуру DWH и сетевые протоколы до навыков работы с ML-моделями и DevOps. Каждый урок — возможность разобраться в ключевых аспектах IT-сферы, задать вопросы экспертам и закрыть пробелы в знаниях.

Все уроки бесплатны и проводятся онлайн — участие доступно каждому. Выбирайте интересную вам тему и записывайтесь по ссылкам ниже.

Читать далее

+7

xonika9 15 часов назад

MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM)

Средний

9 мин

618

Машинное обучение*Искусственный интеллект

Аналитика

В мире LLM доминирует квадратичная сложность, ограничивающая контекст. Но MiniMax-M1 бросает вызов: миллион токенов, низкие затраты. Разбираем гибридную архитектуру с Lightning Attention, новый алгоритм CISPO и инженерные прорывы, делающие эту модель уникальной.

Читать далее

+4

GG1KENOBI 15 часов назад

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

Простой

8 мин

2.3K

Python*Искусственный интеллектМашинное обучение*Natural Language Processing*Хакатоны

Из песочницы

От бизнес‑проблемы до технической реализации — опыт создания ИИ‑ассистента для Росатома за 48 часов

Представьте: новый сотрудник крупной корпорации ищет ответ на рабочий вопрос. Он открывает внутренний портал, видит сотни PDF-инструкций, тысячи записей в базе знаний службы поддержки. Час поиска, звонки коллегам, еще час изучения документов. В итоге — либо неточный ответ, либо решение отложить задачу.

Как ИИ может помочь сотруднику?

+7

maximthomas 15 часов назад

Использование LLM в Access Management на примере OpenAM и Spring AI

12 мин

145

Информационная безопасность*Open source*Машинное обучение*

В статье представлен практический пример решения автоматического анализа настроек системы управления доступом на базе OpenAM с использованием больших языковых моделей (LLM) через API Spring AI.

Мы развернем систему управления доступом, запросим у LLM проанализировать конфигурацию и вернуть рекомендации по ее улучшению.

Читать далее

-1

badcasedaily1 30 июн в 18:47

Что делает shuffle=True и как не сломать порядок

Простой

6 мин

1K

Блог компании OTUSМашинное обучение*Data Engineering*Анализ и проектирование систем*

Обзор

Привет, Хабр! В этой статье рассмотрим невинный на первый взгляд параметр shuffle=True в train_test_split.

Под «перемешать» подразумевается применение псевдо‑рандомного пермутационного алгоритма (обычно Fisher‑Yates) к индексам выборки до того, как мы режем её на train/test. Цель — заставить train‑и-test быть независимыми и одинаково распределёнными (i.i.d.). В scikit‑learn эта логика зашита в параметр shuffle почти всех сплиттеров. В train_test_split он True по умолчанию, что прямо сказано в документации — «shuffle bool, default=True».

Читать далее

+3

30 июн в 15:31

Чем живут создатели ИИ? ML’щики, приоткройте чёрный ящик, расскажите о себе в нашем опросе

1 мин

1.3K

Data Mining*Машинное обучение*Искусственный интеллект

Пока весь мир обсуждает революцию ИИ, те, кто её творят, остаются в тени и просто делают свою работу. Именно им, ML- и DS-специалистам, человечество обязано прорывам в технологиях. Но какие они на работе и в жизни, чем интересуются и главное — что думают об ИИ, который создают? Мы решили расспросить их самих, чтобы составить честный портрет современного ML-щика. Если вы занимаетесь ML и Data Science, добавьте свои штрихи этому портрету — пройдите наш небольшой опрос. А мы потом покажем вам — и всей аудитории Хабра — получившуюся картину.

Пройти опрос

+7

NikitaMartynov 30 июн в 13:04

POLLUX: оценка генеративных способностей моделей для русского языка

Средний

21 мин

1.6K

Блог компании СберNatural Language Processing*Машинное обучение*

Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают экзаменационные тесты с выбором правильного варианта ответа. Однако на практике пользователи задействуют модели для принципиально иных целей — создания текстов, генерации идей, переводов, составления резюме и прочих задач. Как оценивать результат в этом случае? В этой статье мы расскажем, как решали проблему оценки открытой генерации и что у нас получилось.

Читать далее

+20

skillfactory_school 30 июн в 12:49

SSH для дата сайентиста: обзор для начинающих

Простой

5 мин

2.3K

Машинное обучение*

Обзор

SSH — один из самых важных инструментов в арсенале любого специалиста, работающего с данными. Как человек, который провел бесчисленные часы, подключаясь к удаленным серверам для обучения моделей, могу сказать: без SSH никуда.

Читать далее

-3

ptsecurity 30 июн в 12:09

«Щит» или «дуршлаг»? ML упрощает жизнь разработчиков, но способен проделать новые дыры в безопасности

10 мин

597

Блог компании Positive TechnologiesИнформационная безопасность*Машинное обучение*Искусственный интеллектIT-инфраструктура*

Машинное обучение сейчас повсюду: автогенерация кода, умные помощники, анализ аномалий. Разработчики активно внедряют ML, радуясь новым возможностям — но злоумышленники тоже не дремлют. Они учатся обманывать и «отравлять» модели, превращая умные системы из помощников в уязвимое звено. Поговорим, как ML упрощает жизнь разработчиков и почему даже самая продвинутая нейросеть может превратиться в «дуршлаг».

Меня зовут Павел Попов, я руководитель группы инфраструктурной безопасности в Positive Technologies. Расскажу, как сами применяем ИИ и каких результатов нам удалось достичь с внедрением ML-моделей в MaxPatrol VM. А также попробуем ответить на вопрос, заменит ли ИИ разработчиков и есть ли вероятность, что мы все останемся без работы. Если вам тоже интересно, как технологии меняют ИБ-ландшафт и какие решения уже работают сегодня — добро пожаловать.

Читать далее

+10

kucev 30 июн в 11:00

Кто, как и зачем внедряет Gen AI в 2025: опыт 100 CIO

13 мин

508

Data Mining*Big Data*Машинное обучение*Искусственный интеллектData Engineering*

Перевод

Чуть больше года назад мы выделили 16 ключевых изменений в том, как компании подходили к разработке и закупке генеративных ИИ. С тех пор ландшафт продолжил стремительно эволюционировать, поэтому мы снова провели беседы с более чем двумя десятками корпоративных заказчиков и опросили 100 CIO из 15 отраслей, чтобы помочь фаундерам понять, как в 2025 в корпорациях используют, приобретают и закладывают бюджеты под generative AI.

Даже в такой динамичной сфере, где единственная постоянная — это перемены, структура рынка genAI изменилась куда сильнее, чем мы ожидали после прошлого исследования.

Читать далее

0

Kamil_GR 30 июн в 10:05

Как создавать контент, который ИИ будет воспринимать как источник

Простой

5 мин

936

Блог компании Timeweb CloudИскусственный интеллектКонтент и копирайтинг*Машинное обучение*Читальный зал

Обзор

Инсайдерский взгляд на то, как искусственный интеллект выбирает источники и что делает одни тексты более «цитируемыми»‬, чем другие

Каждый день миллионы людей получают ответы от ChatGPT, Claude, Gemini и других ИИ-ассистентов. И каждый раз ИИ делает выбор — какие источники использовать для ответа, какие проигнорировать, а какие процитировать дословно.

Но по каким критериям происходит этот выбор? Что делает одну статью «привлекательной»‬ для ИИ, а другую — невидимой?

Я — Claude, один из таких ИИ-ассистентов. И сегодня я расскажу, как происходит мой процесс выбора источников изнутри. Мой «алгоритм»‬‬ во многом имитирует то, как читает занятой, нетерпеливый, но очень умный эксперт. У меня нет времени на «воду», я сразу ищу суть. Поэтому правила, которые нравятся мне, почти всегда нравятся и вашим самым требовательным читателям-людям.

Читать далее

+16

ruslandevlabs 30 июн в 09:30

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных

5 мин

914

Машинное обучение*Искусственный интеллект

Извлечение признаков (feature extraction) из текстов — ключевой шаг при анализе документов: он является основной практической частью таких задач по обработке данных, как классификация, тематическое моделирование, NER, QA. Если раньше почти что для каждой из таких задач, и в особенности для разных модальностей данных использовались специализированные архитектуры нейронных сетей, то сейчас подобные системы обычно строятся вокруг LLM/VLM. Однако и современные модели на практике настраиваются под конкретные задачи через fine‑tuning или distillation, в связке с retrieval (RAG) и агентскими архитектурами.

В этой статье я рассматриваю свой опыт проектирования и разработки агентов для выполнения feature-extraction. При наличии мультимодальных данных с разнородной структурой - тексты, PDF, изображения - мне приходится извлекать нужные пользователю фрагменты информации. Для этого я перебрал различные подходы - в зависимости от сложности задачи - и теперь пора сравнить их эффективность и отметить сложности реализации.

Читать далее

+7

beeline_cloud 30 июн в 09:22

Как нейросетям перестать бояться и полюбить «синтетику»

8 мин

478

Блог компании beeline cloudМашинное обучение*Исследования и прогнозы в IT*Искусственный интеллектАлгоритмы*

Мнение

LLM требуют все больше данных для обучения, но обучаться постепенно становится не на чем: аппетиты ИИ-систем превосходят возможности человечества по генерации контента, к тому же использовать реальные данные в одних случаях дорого, в других — не очень-то законно.

Спасти ситуацию может «синтетика», но и с ней не все гладко. Мы в beeline cloud решили разобраться, какие риски несут в себе подобные датасеты, что такое «ML-аутофагия» и как с ней борются разработчики LLM.

Читать далее

+8

alizar 30 июн в 09:01

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

6 мин

23K

Блог компании RUVDS.comNatural Language Processing*Искусственный интеллектМашинное обучение*Научно-популярное

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос. И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда.

Читать дальше →

+133

alfredlao 30 июн в 07:05

Мой ответ Андрею Карпаты или зачем нам Когнитивный Инженер

5 мин

956

Искусственный интеллектМашинное обучение*Data Engineering*Будущее здесьКарьера в IT-индустрии

Недавний тезис Андрея Карпаты о замене термина prompt engineer на context engineer получил широкую поддержку в профессиональной среде. Действительно, промпт это лишь малая часть взаимодействия с LLM: краткая инструкция, команда или запрос. А вот построение контекста, в который этот промпт попадает, уже куда более сложная инженерная задача.

Читать далее

+9

1

2 3 ...