Обновить
1146.61

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга
Уровень сложности

Comet — браузер будущего с ИИ-ассистентом, который реально работает за вас

Время на прочтение5 мин
Количество просмотров14K

В эпоху искусственного интеллекта браузеры остаются почти неизменными — мы всё так же вручную кликаем, заполняем формы и переключаемся между вкладками. Но что, если браузер мог бы делать всё это за вас? Comet от Perplexity — это не просто очередной браузер на базе Chromium, а настоящий агентный браузер с AI-ассистентом, способным автономно выполнять сложные задачи в интернете.

Читать далее

Агент на Kotlin без фреймворков

Уровень сложностиСредний
Время на прочтение28 мин
Количество просмотров2.2K

Статья является продолжением Пишем агента на Kotlin: KOSMOS, но может читаться независимо. Мотивация к написанию — сохранить читателю время на возьню с фреймворками для решения относительно простой задачи.

Автор подразумевает у читателя теоретическое понимание того, что такое агент. Иначе лучше прочесть хотя бы начало предыдущей части.

В статье хочу показать, как самостоятельно написать аналог Koog или Langchain4j. У вас не будет всех их фичей, зато будет очень простая и расширяемая система.

Читать далее

Какие они, типичные DS-специалисты, и как часто ИИ пишет за них код: результаты совместного опроса Хабра и Авито

Время на прочтение10 мин
Количество просмотров22K

Хабр и технологическая платформа Авито решили заглянуть в мир ИИ и понять, кто всё это создаёт. Мы провели опрос среди пользователей Хабра, чтобы лучше узнать, кто такие современные дата-сайентисты и какие у них привычки, есть ли у них ИИ-любимчики, какие ИИ-инструменты они используют в работе. Около 500 разработчиков в сфере ML/DS ответили на самые разные вопросы — не только про свою профессиональную деятельности и нейросети, но и про увлечения и общение с родственниками.

Заглянуть в мир ИИ

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Уровень сложностиСложный
Время на прочтение10 мин
Количество просмотров2.5K

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!

Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке

Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим).

Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

Читать далее

Как ИИ-очки предсказывают ваши желания прежде чем вы о них подумаете

Время на прочтение3 мин
Количество просмотров934

ИИ-ассистенты уже достаточно эволюционировали, но есть ньюанс: даже самые умные ассистенты чаще всего остаются пассивными наблюдателями. Они ждут команды от человека и не берут на себя инициативу. Так почему ИИ до сих пор не угадывает наши желания? 

Исследователи нашли ответ на этот вопрос: дело не в “прокачанности” нейросетей, а в самом подходе к взаимодействию с ИИ. Они научили ИИ-очки не просто реагировать, а чувствовать ситуацию — вмешиваться ровно тогда, когда помощь действительно уместна, и делать это почти незаметно. В результате получилась система, которая не раздражает бесконечными подсказками, а помогает точно в момент сомнения — будь то партия в блэкджек или выбор свитера в магазине.  

В этом обзоре — как работает проактивный ассистент и почему именно способность заговорить вовремя способна перевернуть представление о будущем ИИ-интерфейсов.

Читать далее

Исследование-обучение с отладчиком контекста (ICRF 1.0)

Время на прочтение3 мин
Количество просмотров217

Рассуждающие чаты показывают пользователю ход своих мыслей. Но обычно там написана какая-то ерунда. Максимум, что там полезного можно вычитать: «пользователь спрашивает про плоскую землю — наверное, он сумасшедший».

А хочется, чтобы нейронка подробно объясняла каждый шаг и свои намерения.

Изумительно! Читать далее

Собираем качественные датасеты для LLM с помощью Telegram-бота

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров2.1K

«Дайте мне качественный датасет, и я переверну Землю!» — возможно, так перефразировал бы свою крылатую фразу Архимед, доведись ему тренировать современные LLM. Хороших наборов данных в открытом доступе не так много, а собрать свой — задача не из простых. О популярных способах сбора данных для датасетов, связанных с этим рисков и о решении, которое мы используем в YADRO, сегодня и поговорим. 

Читать далее

Балконы и полигоны: как мы разметили 12 000 квартир для генерации 3D-туров

Время на прочтение7 мин
Количество просмотров2.2K

Те, кто имел дело с покупкой и продажей недвижимости, знает, что просмотры — очень хлопотное занятие. Неудивительно, что для экономии времени появляются предложения посмотреть квартиру онлайн или с помощью 3D‑тура. О таких виртуальных экскурсиях мы сегодня и поговорим.

В сентябре Яндекс Недвижимость рассказала о 3D‑турах для новостроек. С момента начала тестирования в июле на сервисе было сгенерировано более четверти миллиона виртуальных экскурсий по строящимся квартирам. Чтобы это стало возможным, мы обучили нейросеть анализировать планировки и превращать их в трёхмерные визуализации. Но чтобы это стало возможным, нужно было проделать большую и кропотливую работу, чтобы нейросеть понимала, где отрисовывать окно или класть плитку на пол.

Меня зовут Катя Шибанова, я работаю архитектором краудсорсинговых решений (CSA) в службе разметки данных Yandex Crowd Solutions. Недавно к нам обратились коллеги из Яндекс Недвижимости: нужно было помочь с разметкой для обучения модели компьютерного зрения, которую используют для создания 3D‑туров. Об этом интересном проекте и будет мой рассказ. Я расскажу, чем опасны миллиметровые зазоры между полигонами в разметке, почему помимо типов помещений (кухня, спальня, санузел и тому подобное) нужно размечать структурно важные элементы — двери, окна, несущие стены, а также почему приоритизация геометрической согласованности важнее «средней» точности по пикселям.

Читать далее

Документный хаос? RAG-система придёт на помощь

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.8K

Статья описывает практическую реализацию системы Retrieval-Augmented Generation (RAG) для превращения документов в интерактивную базу знаний. Показано, как хранение эмбеддингов в Qdrant и интеграция с языковой моделью (LLM) позволяют быстро получать точные ответы на вопросы. Рассматриваются архитектура, ключевые компоненты и внутренние механизмы работы системы, полезные для разработчиков и новичков в области RAG.

Читать далее

Управление рисками: как культура съедает вашу стратегию на завтрак?

Время на прочтение28 мин
Количество просмотров1.3K

Небоскребы — это величайшие символы амбиций человека, олицетворяющие его стремление к величию. Но знаете что? Небоскребы падают. Падают в прямом и в переносном смысле. Первая четверть XXI века подарила нам способность смотреть на этих исполинов с ракурса истории, социологии, психологии и даже антропологии. Теперь, глядя вниз из окна на 60-м этаже ты по прежнему видишь вместо людей — точки, ресурсы, показатели. Но вместе с этим, ты видишь свое тусклое отражение в стекле и все чаще вспоминаешь десятки историй крушений и падений. Историй, которых накопились сотни и все они...

Велика вероятность, что вы уделили гораздо больше внимания красивой девушке на картинке, чем невзрачной надписи рядом с ней и уж тем более введению к этой статье. Если так (но в особенности ели это не так), то эта статья точно окажется для вас полезной.

Читать далее

ИИ в IDE против декларативных патчей ap: почему плагины не всегда могут то, что нам нужно

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров659

Привет, Хабр! Многие из вас, возможно, помнят мои предыдущие посты про формат файлов .ap — попытку создать AI-friendly формат для применения изменений в коде. В комментариях к каждой статье неизбежно возникает один и тот же вопрос: «А зачем всё это, если есть плагины для IDE вроде Copilot Chat?». Вопрос абсолютно справедливый, и сегодня я хочу дать на него развёрнутый, технический ответ. Потому что эти два подхода решают задачи совершенно разного масштаба.

Для начала, кратко напомню, что такое .ap. Это декларативный, человекочитаемый формат патчей, спроектированный специально для генерации нейросетями. Вместо хрупких и сложных для генерации LLM номеров строк, как в diff (модель ведь «мыслит» не строками, а токенами), он использует семантические «якоря» и уникальные фрагменты кода для поиска места изменения. Модель генерирует простой текстовый файл с командами вроде REPLACE или INSERT_AFTER, а специальная утилита-патчер применяет эти изменения к вашим файлам. А теперь — к самому интересному.

Давайте сравним этот подход с тем, как устроены AI-редакторы и плагины к ним.

Читать далее

Почему маленькие ошибки больших языковых моделей важнее, чем кажутся

Время на прочтение3 мин
Количество просмотров1.8K

ИИ становится всё умнее — но почему даже топовые модели всё ещё ошибаются в простых фактах, особенно если задать вопрос не по-английски? Бывает достаточно использовать одно неверное по смыслу слова, чтобы весь ответ оказался неверным.

Новое исследование PsiloQA неожиданно меняет акцент: оказывается, самые тонкие и опасные ошибки LLM часто проходят незамеченными именно потому, что стандартные проверки их не ловят — и ещё реже на других языках. Команда собрала огромный датасет из миллионов коротких галлюцинаций на 14 языках, чтобы понять: в чём уязвимость моделей, и какие методы реально помогают найти эти проблемы.

Разбираемся, как ИИ учится находить свои промахи, зачем детально размечать даже самые крошечные ошибки и почему эта тонкая работа может сыграть ключевую роль в будущем честных и универсальных ИИ-моделей.

Читать далее

Файлы, которые нельзя менять: философия TernFS и почему это гениально

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.9K

XTX Markets — это ведущая компания в области алгоритмической торговли. Они ежедневно обрабатываем огромные объёмы данных, которые являются основой для наших исследований в области машинного обучения и количественного анализа. Для эффективной работы нашим исследователям нужна быстрая, надёжная и удобная система хранения данных.

Представьте себе кластер из тысяч серверов, которые одновременно обращаются к одному и тому же набору данных. Именно в таких условиях работает наша инфраструктура. Поэтому производительность файловой системы становится критически важным фактором.

Читать далее

Ближайшие события

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.5K

Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.

Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.

Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.

Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.

Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.

Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.

👉 GitHub - upgini/upgini: Data search library for Machine Learning

Читать далее

Как Google S2R (speech-to-retrieval) решает проблему непонимания голосовых запросов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.2K

«Чай. Эрл‑Грей. Горячий». Помните эту фразу капитана Пикара из «Звёздного пути»?

Меня всегда поражало, с какой лёгкостью компьютер «Энтерпрайза» понимает команды Пикара. И вы замечали — никому на мостике корабля никогда не приходится повторять сказанное?

Никто не раздражается, когда просит компьютер выдать информацию. Машина не превращает слова в текст, не сверяет звучание похожих слов, не ищет в базе совпадения. Она просто... понимает. Проще говоря, намерение переходит от речи к действию без трения — мгновенно и безошибочно.

Читать далее

ИИ для бизнеса: как понять что он нужен, где использовать

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров880

Применение нейросетей в рабочих процессах стремительно набирает популярность. Для одних — это незаменимый помощник, который экономит сотни часов и избавляет команду от рутины. Для других — лишь модный хайп, за которым вскоре последует разочарование, как после пузыря доткомов.

Как понять, действительно ли ИИ принесет пользу вашему бизнесу? Где его место в ваших процессах и какие задачи стоит ему доверить? И главное — как избежать завышенных ожиданий и не тратить бюджет на все, что просто имеет приписку «AI»?

Читать далее

Как научить Telegram-бота на Python не терять задачи пользователей при перезапуске. Кейс ассистента для hh.ru

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3K

Привет, Хабр!

Мы тут в свободное время пилим проект, который должен решить боль многих айтишников, — автоматизировать рутинный поиск работы. Идея выросла в Telegram-бота «Аврора» , который на "автопилоте" ищет вакансии на hh.ru и откликается на них.

Но чтобы "автопилот" был полезным, он должен быть надежным. Никому не нужен ассистент, который при первом же деплое новой версии или падении сервера забывает, что он делал, и какие вакансии уже отправил.

Сегодня я хочу рассказать не столько о самом боте, сколько о конкретной инженерной задаче, с которой мы столкнулись: как обеспечить персистентность и "бесшовное" возобновление длительных пользовательских задач при перезапуске сервиса.

Под катом — наш подход к Graceful Shutdown, восстановлению сессий и немного про то, как LLM (в нашем случае Gemini) генерирует поисковые запросы.

Читать далее

Аттракшен инжиниринг и MCCP

Время на прочтение5 мин
Количество просмотров425

В последний месяц очень форсится идея о том, что для универсального промпта нужно правильно натаскать контекст, подключить правильные тулы и MCP, и вот тогда-то наступит счастье.

Итог этой идеи известен каждому руководителю, который пытался сделать для сотрудника идеальные условия, в которых он наконец-то сможет творить, а не заниматься рутиной. Это помогает лишь частично. Если у человека есть возможности что-то делать — не означает, что он пойдет и сделает. Для действий нужны уже некие внутренние мотиваторы. Руководитель уже может капать на нервы очень конкретным образом, в дополнение к формуле «морковка сзади, морковка спереди».

Читать далее

Промпт-инжиниринг мёртв? Почему «как спросить» больше не важно, и что приходит на смену

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров23K

Новое исследование от Anthropic, создателей Claude, ставит крест на классическом промпт-инжиниринге. Их вывод: эффективность ИИ-агентов теперь определяется не тем, как вы спросите, а тем, какие данные вы им предоставите. На сцену выходит контекст-инжиниринг.

Читать далее

Как нейрофизиологи Дэвид Хьюбел и Торстен Визель неожиданно для себя помогли в создании машинного зрения

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров838

В начале 1960-х у нас и в Америке появилась новая разновидность машинного зрения – лазерная, и приборы лазерного машинного видения – лидары. Во второй половине того десятилетия уже продавались промышленные тепловизоры. В основанном в 1966 году Центе искусственного интеллекта Стэнфордского исследовательского института построили программируемого робота колесиках, оснащенного антенной, телекамерой, ультразвуковыми дальномерами и чувствительными демпферами на случай столкновений, способного двигаться по заданному пути, самостоятельно обходя препятствия, а поскольку он при этом все время сам трясся, его так и назвали Shakey (Трясун). Уиллард Бойл и Джордж Смит из Bell Labs изобрели ПЗС-матрицу из светочувствительных диодов, которую окрестили «вездесущим цифровым глазом», новой цифровой ипостасью фотопластинок, фотопленок, телекамер, фотоэлектронного умножителя и т.п. 

Читать далее

Вклад авторов