Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

atomlib 26 сен 2024 в 13:50

Калифорнийский университет в Беркли создал систему для анализа текстов DocETL

5 мин

1.7K

Машинное обучение * Natural Language Processing * Искусственный интеллектНаучно-популярноеData Engineering *

Система DocETL предлагает инструмент для создания и выполнения пайплайнов обработки данных, заточенных для анализа текстовых документов с помощью больших языковых моделей. Агентный подход помогает задействовать принципы low-code для описания операций. Код DocETL открыт, готовится научная статья о системе.

AnnieBronson 21 сен 2024 в 16:29

Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком загрязнили данные

2 мин

12K

Искусственный интеллектNatural Language Processing *

Робин Спир, создательница проекта Wordfreq по анализу использования языка людьми в интернете, объявила о его закрытии. По её словам, нейросети слишком сильно загрязнили данные, из-за чего анализ стал невозможен.

Wordfreq — это программа, которая отслеживала, как люди используют более 40 различных языков, анализируя статьи в «Википедии», субтитры к фильмам и передачам, новости, книги и посты в соцсетях, таких как Twitter и Reddit. Система предназначена для оценки меняющихся языковых привычек, сленга и популярной культуры. На странице проекта на GitHub Робин Спир написала, что проект «больше не будет обновляться».

+43

AlexanderAnisimov 6 сен 2024 в 17:43

На платформе Coursera вышел новый курс Барбары Оакли: «Ускорьте свое обучение с ChatGPT»

7 мин

7.1K

Учебный процесс в ITИскусственный интеллектNatural Language Processing *

Барбара Оакли - соавтор одного из самых популярных курсов за всю историю платформы Coursera: Learning How to Learn (3,85 млн зарегистрировавшихся учеников, 84,5 тыс отзывов). Недавно она в соавторстве с другим популярным на платформе преподавателем - Джулсом Уайтом (Jules White) - выпустила новый курс на схожую тему: Accelerate Your Learning with ChatGPT (https://www.coursera.org/learn/learning-chatgpt).

Курс достаточно короткий - всего два "модуля", 18 видео суммарной длительностью 2ч 40мин. В курсе практически нет других учебных материалов кроме видео.

В начале авторы дают вводную информацию по основам LLM и промпт-инжиниринга. Далее основная часть посвящена конкретным приемам использования ИИ в процессе обучения - всего их описано около десятка.

Под катом я поместил саммари курса, автоматически сгенерированное на основе субтитров с помощью Gemini 1.5 Pro (а точнее говоря, с помощью NotebookLM).

madrugado 2 сен 2024 в 11:36

Новый запуск курса Natural Language Processing

2 мин

2.8K

Блог компании МТСБлог компании Open Data ScienceБлог компании MWS AIИскусственный интеллектNatural Language Processing *

Этой весной сообщество Open Data Science и компания MTS AI делают новый запуск курса по обработке естественного языка. Вот страница нашего курса. Для того, чтобы его пройти, нужно зарегистрироваться.

NatalieVT 29 авг 2024 в 08:05

Яндекс разработал нейросеть на основе YandexGPT, которая в шесть раз точнее создаёт описания локаций в Картах

2 мин

3.6K

Блог компании ЯндексГеоинформационные сервисы * Машинное обучение * Natural Language Processing *

Яндекс обучил нейросеть на базе YandexGPT самостоятельно проверять сгенерированные тексты на наличие галлюцинаций. Благодаря новому подходу удалось в шесть раз сократить количество неточностей в созданных нейросетью кратких описаниях мест и достопримечательностей в Картах. Кроме того, переход на обновлённую модель позволил использовать меньше вычислительных мощностей и удешевить её работу.

NatalieVT 30 авг 2024 в 08:01

Яндекс опубликовал программу ежегодной конференции Practical ML Conf

2 мин

1.1K

Блог компании ЯндексМашинное обучение * КонференцииNatural Language Processing *

На сайте конференции Practical ML Conf мы опубликовали первый список докладов. Среди тем этого года — сложности разработки мультимодальных нейросетей, технологии синтеза выразительной речи, обучение больших языковых моделей работе с кодом.

В конференции примут участие ведущие ML‑инженеры Яндекса, «Т‑Банка», Сбера, Х5, HH.ru и других компаний. Докладчики выступят в шести секциях, отражающих актуальные тренды в машинном обучении: компьютерное зрение, обработка естественного языка, генерация речи, рекомендательные системы, внедрение и инференс нейросетей, а также сбор и анализ данных.

atomlib 19 авг 2024 в 17:01

Aider: большие языковые модели хуже пишут код, если требовать ответ в формате JSON

5 мин

Программирование * Проектирование API * Машинное обучение * Искусственный интеллектNatural Language Processing *

В начале августа организация OpenAI представила улучшенные функции структурирования ответов своих больших языковых моделей. Обещалось, что теперь модели будут точнее следовать формату JSON в ответах. Проект Aider сравнил качество кода в различных форматах ответов и пришёл к выводу, что любые БЯМ пишут код лучше, если отвечать нужно в plain text.

+12

atomlib 6 авг 2024 в 16:09

«Не галлюцинируй»: реддитор достал из macOS 15.1 Beta 1 системные промпты Apple Intelligence

4 мин

9.2K

Машинное обучение * Natural Language Processing * Искусственный интеллектmacOS * iOS *

Пользователь Reddit обнаружил системные промпты Apple Intelligence в бета-версии операционной системы macOS 15.1. В промптах даны текстовые инструкции, как большая языковая модель должна выполнять различные умные функции.

+11

AnnieBronson 18 июл 2024 в 16:32

OpenAI представила новую бесплатную модель GPT-4o-mini, она заменит GPT-3.5 Turbo

2 мин

11K

Машинное обучение * Искусственный интеллектNatural Language Processing *

OpenAI представила GPT-4o mini, небольшую ИИ-модель, которая призвана сделать технологии компании более доступными и менее энергоёмкими. Использование GPT-4o mini обойдётся в 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов; это на 60% дешевле, чем цена GPT-3.5 Turbo.

Новая модель уже доступна пользователям ChatGPT Free, Plus и Team. Корпоративные пользователи получат доступ начиная со следующей недели.

+13

janvarev 18 июл 2024 в 15:27

Вышла Mistral NeMo — многоязычная 12B модель с поддержкой русского и 128К контекстом

1 мин

9.5K

Natural Language Processing * Машинное обучение * Искусственный интеллект

Mistral AI представила Mistral NeMo, 12-миллиардную модель, разработанную в сотрудничестве с NVIDIA. Mistral NeMo предлагает большой контекст до 128 тысяч токенов.

Модель выпущена по лицензии Apache 2.0, что разрешает её коммерческое использование.

Авторы также подготовили таблицу сравнения модели с другими моделями аналогичного уровня - Llama 3 8B и Gemma 2 9B (очевидно, что с большими моделями сравнивать не очень в пользу себе)

+14

NatalieVT 5 июл 2024 в 08:00

Яндекс научил Нейро точнее отвечать на вопросы пользователей и добавил голосовой ввод

2 мин

1.3K

Блог компании ЯндексМашинное обучение * Поисковые технологии * Natural Language Processing * Accessibility *

Сегодня мы обновили сервис Нейро, о котором ранее уже рассказывали на Хабре. Благодаря обновлённой модели семейства YandexGPT 3 он стал точнее понимать запросы пользователей и отвечать более содержательно. Кроме того, задать вопрос теперь можно не только текстом и картинкой, но и голосом. А ещё сервис адаптировали для программ экранного доступа, которые необходимы для людей с нарушениями зрения.

NatalieVT 4 июл 2024 в 09:01

Нейросети помогут исправить и улучшить текст в Яндекс Клавиатуре

2 мин

3.5K

Блог компании ЯндексРазработка мобильных приложений * Машинное обучение * Искусственный интеллектNatural Language Processing *

Мы добавили в нашу виртуальную клавиатуру для мобильных устройств новые функции на основе нейросетей Яндекса. Пользователи Клавиатуры теперь могут использовать их в любом сервисе, где есть текстовый ввод. YandexGPT поможет исправить ошибки в тексте, разнообразить его синонимами и добавить подходящие эмодзи, а YandexART создаст уникальный фон по текстовому описанию.

Новые возможности уже доступны в последней версии Яндекс Клавиатуры для Android и iOS.

+10

NatalieVT 7 июн 2024 в 08:02

Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT

2 мин

4.8K

Блог компании ЯндексМашинное обучение * Искусственный интеллектNatural Language Processing *

Мы впервые применили большую языковая модель YandexGPT для подготовили эталонных примеров текстов, на которых затем обучили нейросеть в Яндекс Переводчике. Это позволило сервису точнее понимать контекст, распознавать фразеологизмы и ориентироваться в профессиональной лексике.

Переводчик стал качественнее справляться с длинными и сложными текстами. Благодаря дообучению он лучше определяет взаимосвязи внутри предложений и между ними. Кроме того, выросло качество перевода статей узконаправленной тематики. Например, сервис теперь поймёт по контексту, что речь идёт о языке программирования или фондовом индексе, и оставит их названия без перевода.

+18

dolotov 28 мая 2024 в 08:59

Яндекс представил YandexGPT 3 Lite

3 мин

7.2K

Блог компании ЯндексПроектирование API * Машинное обучение * Искусственный интеллектNatural Language Processing *

Сегодня мы открыли доступ к YandexGPT Lite третьего поколения. Облегченная версия нашей большой языковой модели доступна через API в Yandex Cloud. Новая модель полезна в сценариях, где важна скорость ответа: например, её можно использовать в чат-ботах, для проверки орфографии или анализа данных. Это оптимальная по цене и качеству генеративная модель Яндекса для решения рутинных задач.

Чуть более подробно о результатах сравнения с другими моделями, а также об изменениях в процессе обучения и архитектуре — в этой новости.

+19

atomlib 23 апр 2024 в 12:06

В словарном запасе ChatGPT усмотрели влияние обучавших его африканцев

4 мин

11K

Natural Language Processing * Изучение языковИскусственный интеллектМашинное обучение * Научно-популярное

В последние два года в научных статьях значительно чаще употребляется слово «delve». Это слово называют одним из маркеров письма ChatGPT. Как считает автор издания Guardian, любовь ИИ к «delve» — это следствие попадания в данные дообучения модели нигерийского диалекта английского языка.

Читать дальше →

+17

AnnieBronson 2 апр 2024 в 20:11

Исследователи не смогли получить от ИИ-сервисов Midjourney и DALL-E от OpenAI картинку с чистым белым фоном

2 мин

15K

Машинное обучение * Искусственный интеллектNatural Language Processing *

Нейросети Midjourney и DALL-E испытывают трудности с генерацией картинки чистого белого фона. К такому выводу пришёл независимый исследователь по обработке данных Коди Нэш и редакция Bleeping Computer.

+10

atomlib 1 апр 2024 в 05:02

Форк Newspaper4k продолжает развитие библиотеки Newspaper3k

3 мин

2.1K

Natural Language Processing * Open source * Python * Веб-разработка * Программирование *

Библиотека Newspaper3k для Python 3 предназначена для скрейпинга и автоматического парсинга новостных статей. С 2018 года проект не обновляется. Разработчик Андрей Параскив представил проект-форк Newspaper4k, в рамках которого он планирует закрывать баги и продолжать улучшать работу библиотеки.

Читать дальше →

atomlib 21 мар 2024 в 14:48

Издание TechCrunch разбило GPT-нарушителей в магазине OpenAI на категории

4 мин

3.5K

Natural Language Processing * Искусственный интеллектКопирайтНаучно-популярноеСпам и антиспам

TechCrunch

TechCrunch опубликовало обзор состояния магазина приложений GPT Store. Как считает издание, компания OpenAI слабо следит за соблюденим авторских прав, за спамом сторонних сайтов и даже за нарушениями собственных правил.

Читать дальше →

atomlib 19 мар 2024 в 04:09

Копирование текста из ChatGPT нашли в рецензируемых научных журналах

3 мин

16K

Natural Language Processing * Искусственный интеллектМашинное обучение * Научно-популярноеПрофессиональная литература *

PubPeer

Признаки копирования из ChatGPT часты не только в школьных сочинениях, но и в серьёзных научных изданиях. Речь не про недобросовестные журналы, готовые опубликовать что угодно за деньги. Как обнаружил Гийом Кабанак, такие проколы часты даже в журналах издательства Elsevier.

Читать дальше →

+19

atomlib 18 мар 2024 в 03:09

xAI открыл веса и архитектуру языковой модели Grok-1

3 мин

15K

IT-компанииNatural Language Processing * Open source * Машинное обучение * Научно-популярное

Иллюстрация от Midjourney

Стартап Илона Маска xAI открыл исходники языковой модели Grok-1 под лицензией Apache 2.0. В виде торрента предлагают скачать 300 ГиБ файлов с весами MoE-модели c 314 млрд параметров.

Читать дальше →

+23

1 2 3

5 6 7

Natural Language Processing *

Калифорнийский университет в Беркли создал систему для анализа текстов DocETL

Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком загрязнили данные

На платформе Coursera вышел новый курс Барбары Оакли: «Ускорьте свое обучение с ChatGPT»

Новый запуск курса Natural Language Processing

Яндекс разработал нейросеть на основе YandexGPT, которая в шесть раз точнее создаёт описания локаций в Картах

Яндекс опубликовал программу ежегодной конференции Practical ML Conf

Aider: большие языковые модели хуже пишут код, если требовать ответ в формате JSON

«Не галлюцинируй»: реддитор достал из macOS 15.1 Beta 1 системные промпты Apple Intelligence

OpenAI представила новую бесплатную модель GPT-4o-mini, она заменит GPT-3.5 Turbo

Вышла Mistral NeMo — многоязычная 12B модель с поддержкой русского и 128К контекстом

Яндекс научил Нейро точнее отвечать на вопросы пользователей и добавил голосовой ввод

Нейросети помогут исправить и улучшить текст в Яндекс Клавиатуре

Яндекс представил новую версию машинного перевода, обученную с помощью YandexGPT

Ближайшие события

Яндекс представил YandexGPT 3 Lite

В словарном запасе ChatGPT усмотрели влияние обучавших его африканцев

Исследователи не смогли получить от ИИ-сервисов Midjourney и DALL-E от OpenAI картинку с чистым белым фоном

Форк Newspaper4k продолжает развитие библиотеки Newspaper3k

Издание TechCrunch разбило GPT-нарушителей в магазине OpenAI на категории

Копирование текста из ChatGPT нашли в рецензируемых научных журналах

xAI открыл веса и архитектуру языковой модели Grok-1

Вклад авторов