Обновить
124.84

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Advisor: помощник по трудоустройству

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.4K

Привет, Хабр! Меня зовут Гурциев Ричард, я магистрант 1-го курса AI Talent Hub. За первый семестр я с головой погрузился в крутой проект, цель которого — сделать этап трудоустройства проще и удобнее как для работодателей, так и для кандидатов. В этой статье я хочу поделиться своим опытом работы над проектом Advisor🚀

Читать далее

Эмоциональное принятие решений в LLM: исследование, которое мы показали на NeurIPS 2024

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.4K

Привет, Хабр! Меня зовут Михаил, я — младший научный сотрудник группы «ИИ в промышленности» в AIRI. В этом году на конференции NeurIPS 2024 мы представили работу, посвященную сложной теме современного ИИ — эмоциональным большим языковым моделям (LLM) В целом понятно, что LLM умеют так или иначе эмулировать эмоции, ведь их обучают по большей части на данных, сгенерированных человеком. А человек — весьма эмоциональное создание. Но

▪ что такое правильная эмуляция?

▪ насколько правильно происходит эта эмуляция?

▪ достаточно ли однораундовых бенчмарков, чтобы убедиться в правильной реакции на эмоциональные промпты?

Отвечая на первый вопрос, в рамках нашего исследования мы решили, что наиболее востребованными будут две «правильных» реакции на эмоциональные промпты. Первая — полное отсутствие реакции, строгая оптимальность. Вторая — эмоциональные реакции, согласованные с человеком (эмоциональный алайнмент). Такого агента можно использовать для моделирования социальных и экономических экспериментов, да и общаться с ним потенциально будет приятнее.

А вот для того, чтобы ответить на оставшиеся вопросы мы написали нашу работу. Давайте разбираться вместе!

Читать далее

Контроль и порядок. Разворачиваем платформу учёта затравок для БЯМ

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров1.5K

Все мы знаем, что Гит здорово облегчает жизнь разработчикам. Версионирование позволяет нам вернуться на шаг назад, если мы где-то жестко напортачили. А еще оно помогает отслеживать изменения, которые мы вносим в код. Весь код и история изменений хранятся на сервере, через который может работать команда разрабов. Одним словом, удобно.

Под катом расскажу, как поднять платформу для учета и версионирования затравок Langfuse.

(Обложка сгенерирована DALL-E от OpenAI)

Читать далее

Реальная эффективность Qwen 2.5 Coder против ChatGPT (или можно ли сэкономить 20$?)

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров24K

Можно ли сэкономить 20$ и заменить ChatGPT локальным Qwen 2.5 Coder? Попробуем проверить логику моделей!

Читать далее

Выводим Большие языковые модели на чистую воду с помощью… Больших языковых моделей

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.2K

Генеративный искусственный интеллект постоянно становится героем заголовков СМИ, каждый час создаются новые стартапы с использованием Больших языковых моделей, однако реальный бизнес не очень охотно внедряет технологии ИИ в свои процессы. В кулуарах предприниматели говорят об опасениях в части галлюцинаций, введения пользователей в заблуждение, утечки чувствительных сведений. Как удостовериться, что интеллектуальный помощник клиники не советует вместо приёма витаминов пить пиво?

Читать далее

Сэм Альтман знает, как достичь AGI. Я тоже, и сейчас расскажу как

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров48K

«Теперь мы уверены, что знаем, как построить AGI в том виде, в каком мы традиционно его понимали… Сейчас это звучит как научная фантастика, и даже говорить об этом как-то безумно. Все в порядке — мы уже были там раньше и не против оказаться там снова.» Такое сообщение 6 января опубликовал Сэм Альтман.

Человечество нашло дорогу, по которой можно дальше и дальше улучшать качество моделей, и мы не видим здесь никакого предела. Про эту дорогу знает Альтман, и скоро узнаете вы.

Поехали в AGI

Почему токенизация – костыль? Передовые подходы для больших языковых моделей следующего поколения

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров14K

Сдерживает ли токенизация потенциал больших языковых моделей? Несмотря на свою популярность, этот подход имеет ряд ограничений, которые становятся всё более заметными с развитием LLM. В статье мы разберём, почему токенизация является костылём, какие проблемы она создаёт и какие альтернативные методы предлагают исследователи для их решения. От байтовых моделей до работы с концептами — как пытаются улучшить ситуацию и что это может означать для будущего языковых моделей.

Читать далее

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров2.9K

Привет, Хабр!

В этом году мы делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ. Возможно, нас на Хабре вы знаете по статьям про синтез речи, детектор голоса или через одного популярного бота для озвучки в Телеграме (на всякий не буду ссылку прикладывать).

Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.

По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT). Мы бы хотели покрыть как минимум 10 популярных языков. Всего популярных языков (более 100 тысяч носителей) 30+, так что, в принципе, тут есть, где разгуляться.

Поэтому ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:

С чем?

RAG в действии: актуальные инструменты и возможности их применения

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров8.3K

Задумывались ли вы, кто на самом деле находится по ту сторону телефонной линии или чата? В современном мире за приятным голосом неизвестного абонента или ненавязчивым текстовым сообщением часто скрывается вовсе не человек, а искусственный интеллект. Этот робот обучен выполнять задачи маркетинга и клиентской поддержки. Но когда мы пишем негативный фидбек или выражаем свои пожелания, то надеемся если не на изменения, то хотя бы на эмоциональную реакцию. Но ИИ такой ответ — не по силам.

Читать далее

Используем языковые модели в AI-агентах. Часть 1. Введение в LangChain

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров16K

LanhChain - фреймворк, предоставляющий обширный и удобный функционал по использованию LLM, он служит для разработки приложений на основе больших языковых моделей, создания AI-агентов, взаимодействия с векторными хранилищами и т.д.

Читать далее

Почему OpenAI откладывает релиз ChatGPT-5? Все дело в недостатке данных

Время на прочтение9 мин
Количество просмотров12K

Новый проект OpenAI в области искусственного интеллекта, получивший кодовое название Orion, столкнулся с множеством проблем. Он отстает от графика и требует огромных затрат. Неясно, когда и будет ли он работать. Возможно, в мире недостаточно данных, чтобы сделать его достаточно умным.

Читать далее

RAG (Retrieval-Augmented Generation): основы и продвинутые техники

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров23K

В этом посте мы поговорим подробно про RAG на каждом его этапе, его модификации и его перспективные направления развития на момент написания статьи.

Читать далее

Итоги года команды «кодИИм»

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров293

Так неожиданно год подходит к концу, а мы, как и все, не забываем рассказать о его итогах!

Год начался с курса, на котором ребята в течение 3 месяцев изучали ИИ очень глубинно, включая CV и NLP.

В этом году мы сделали программы для junior-уровня, где участники не просто начинают заниматься ИИ, но и применяют сразу знания на практике. Ребята начали изучать искусственный интеллект на буткемпах в феврале и августе

Читать далее

Ближайшие события

Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K

Привет, Хабр! Меня зовут Федор Горбунов, руковожу в Doubletapp направлением автоматизации бизнес-процессов с помощью LLM. В статье расскажу, как мы помогли клиенту автоматизировать одну из операций в производственной цепочке, как эта автоматизация ускорила поставку итогового продукта, уменьшила количество ошибок за счет сокращения ручного труда и в конечном итоге сэкономила заказчику деньги.

О чем текст:

Кодовые датасеты для обучения больших языковых моделей (LLM): как клиент работал до нас
Почему верификация данных критически важна?
Как автоматизация улучшила верификацию диалогов для больших языковых моделей
Автоматизируем процесс: что и как мы делали?
Результат в цифрах

Читать далее

Модель o3 от OpenAI показала результат 75,7% в бенчмарке ARC-AGI-Pub

Время на прочтение5 мин
Количество просмотров7.4K

Франсуа Шолле, создатель фреймворка Keras и основатель ARC Prize Foundation, поделился итогами тестов новой модели o3 от OpenAI в тестах бенчмарка ARC-AGI-Pub. Эта модель достигла впечатляющего результата — 75,7% на полу-приватном наборе оценки при соблюдении установленного публичного лимита вычислительных ресурсов в $10 тысяч. Конфигурация o3 с увеличенным уровнем вычислений (172-кратное увеличение) показала результат 87,5%.

Этот результат представляет собой неожиданный и значительный скачок в возможностях искусственного интеллекта, демонстрируя способность к адаптации к новым задачам, ранее невиданную в моделях семейства GPT. Для сравнения, ARC-AGI-1 потребовал 4 года, чтобы повысить результат с 0% у GPT-3 в 2020 году до 5% у GPT-4o в 2024 году. Все представления о возможностях ИИ требуют пересмотра подхода к бенчмаркам ARC в свете достижений o3.

Читать далее

Как и зачем мы замеряли знания культурного кода у YandexGPT

Время на прочтение7 мин
Количество просмотров5.4K

Привет! Сегодня предлагаю поговорить о том, как мы проверяем, понимает ли YandexGPT специфичные для нашей культуры явления: отсылки к фильмам и песням, цитаты, традиции, анекдоты, мемы. Для нас это очень важная задача, ведь YandexGPT используют такие большие продукты, как Поиск и Алиса, с которыми ежедневно взаимодействуют миллионы людей — она обязана понимать культурные отсылки самого разного уровня.

В статье про бенчмарки для LLM уже упоминался бенчмарк культурного кода. В него мы вложили много сил и души, и думаю пришло время рассказать о нём подробнее — как же мы придумали замерять культурный код, из чего собрали бенчмарк, как тестировали YandexGPT и каким мемам её учили.

Читать далее

Если шутка не смешная: как расшифровать культурный код фильма при помощи LLM

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.9K

Если шутка не смешная: расшифровываем культурные коды фильма при помощи LLM
Вы учите иностранный язык, возможно уже хорошо его знаете и смотрите фильмы в оригинале, но часть шуток и культурных нюансов по‑прежнему ускользает от вас? Как понять без контекста, да даже и в контексте, что такое «bake sale» или кто такие «Momsters», если это не часть вашей родной культуры? Я нашла для себя способ, как при помощи LLM относительно быстро и недорого расшифровывать скрытые культурные коды фильма — делюсь своим первым опытом.

Читать далее

Сортировка книг по тематикам скриптами Python

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров7.8K

На момент написания этой заметки около половины из 16 тысяч книг в моей библиотеке — ИТшные, другая половина — медицинские. Две трети этих книг на английском, одна треть — на русском.

Примерно раз в месяц я с телеграм-каналов докачиваю еще 1–2 тысячи книг, из которых реально новых — не более 100–200, остальное у меня уже есть. Кроме того, попадаются сканированные книги с околонулевой пользой, если их не распознавать.

Всё это добро мне нужно регулярно дедуплицировать, раскладывать по тематическим папочкам, выкладывать в облако для коллег и при этом не тратить на это много времени. Готовых программ для таких задач я не нашел, поэтому, как мог, справлялся сам — писал скрипты на Python.

Читать далее

BABILong — бенчмарк для оценки LLM на больших контекстах

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.1K

Привет, Хабр! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который мы привезли на NeurIPS в этом году. Он оценивает то, насколько успешно современные модели умеют искать информацию в собственных гигантских контекстах. Оказалось, что зачастую главное — это не размер, а умение пользоваться.

В этой статье расскажем подробнее о наших экспериментах, а также о том, как эффективно использовать длинный контекст.

Читать далее

Бенчмарк SLAVA: шаг к мировоззренческому суверенитету

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3K

Бенчмарк SLAVA: шаг к мировоззренческому суверенитету.

SLAVA Space on Hugging Face - Наш актульный лидерборд на HF
SLAVA Benchmark - В этом репозитории находится код и документация для фрейморвка
SLAVA Dataset on Hugging Face - Открытый набор данных включает 2.8 тысяч вопросов

Читать далее