Как стать автором
Поиск
Написать публикацию
Обновить
52.21

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Что слепой знает о мире? Большие языковые модели и география

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров3.6K

Изображение выше принято рекомендовать как древнюю карту мира римского географа Помпония Мелы. Это не совсем так. Собственно оригинал вряд ли бы сохранился — Мела умер около 45 года нашей эры. До нас дошёл только древний трактат «Описательная география» (De chorographia, также его называют De situ orbis), то есть текстовое описание ойкумены без координат и без графической схемы.

Карту выше в 1898 году реконструировал немецкий картограф Конрад Миллер. Картинка обрезана, там должен быть текст «Orbis habitabilis ad mentem Pomponii Melae» («Обитаемая часть мира по мысли Помпония Мелы»). Лист с картой вышел в шестом выпуске серии Миллера «Mappae mundi. Древнейшие карты мира» (Mappaemundi. Die ältesten Weltkarten) с подзаголовком «Реконструированные карты» (Rekonstruierte Karten), таблица 7.

Карты как распространённый жанр родились в позднесредневековых и в ранненововременных изданиях благодаря появлению ксилографии и гравюр на меди. Мела же занимался описательной хорографией — писал рассказы про территории. Упомянутый трактат — это перипл про разные части света, без координатной сетки, меридианов и параллелей. Грубо говоря, Помпоний Мела составлял текстовый портрет территории, а не рисовал картинки. Как же из этого получился вот этот рисунок?

Читать далее

Новости

Просто и подробно о том, как работают ChatGPT и другие GPT подобные модели. С картинками

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров32K

Эта статья — длиннопост о том, как работают ChatGPT и другие GPT подобные модели

Внутри

🔠 Подробно про токены, токенизатор и контекстное окно

❓ Почему GPT модели работают лучше на английском, чем на русском

🔢 Как большие языковые модели работают с числами

Два моих убеждения о том, почему важно понимать принцип работы нейросетей

Непонятная технология воспринимается как магия

Люди любят наделять неживое свойствами живого

LLM сочетают в себе эти два свойства: они достаточно сложны в устройстве и естественны в общении. Это сочетание снижает критичность восприятия — люди могут воспринимать ChatGPT и подобные интерфейсы как разумных существ, что приводит к переоценке их возможностей, повышенной внушаемости и определенным психологическим рискам — эмоциональной зависимости или мании величия от «особых отношений» с ИИ.

Узнать, как же они работают 🦄

Возвратиться или продолжить: поговорим про continuations

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.7K

Одна из самых эзотерических тем в программировании и computer science это продолжения (continuations), ограниченные продолжения (delimited continuations) и continuation-passing style. Я попытаюсь раскрыть эту тему понятным для обычного программиста языком. Предполагается, что обычный программист знаком с понятиями функции/подпрограммы, фрейма вызова (stack frame), а также имеет базовое знания языка Scheme, хотя бы на уровне первых глав SICP.

Читать далее

Вкусы и предпочтения больших языковых моделей

Уровень сложностиПростой
Время на прочтение29 мин
Количество просмотров2K

У больших языковых моделей есть системы ценностей. БЯМ по-разному отзываются о чужих текстах или даже человеческой жизни, а их оценочные суждения и качество ответов отличаются в зависимости от упоминаемой расы, пола и национальности человека. Не вызывает никаких сомнений, что подобную предвзятость систем на искусственном интеллекте нужно искоренять.

Однако также у моделей есть предпочтения. Разные БЯМ называют любимыми разные песни, кино и книги. ИИ одного провайдера предпочитает одну разновидность мороженого, у конкурентов языковая модель любит десерты другого вкуса. Ответы на подобные вопросы глубоко субъективны, одного морально правильного нет.

Можно даже сказать, что вкусы — это частный случай систем ценностей. Разница в том, что явных угроз подобные артефакты выравнивания не несут. Какая разница, предпочитает ли БЯМ джаз или рок?

Читать далее

SONAR-LLM — учим нейросети думать предложениями вместо слов

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров3.1K

Привет, Хабр. Меня зовут Никита Драгунов, я из команды «Интерпретируемый ИИ» лаборатории FusionBrain AIRI. У себя в группе мы активно пытаемся понять, почему большие языковые модели и другие архитектуры ведут себя так или иначе, и разрабатываем инструменты, которые помогают нам в этом разобраться.

Среди прочего нас очень заинтересовал сравнительно свежий подход, в котором предлагается перейти от генерации токенов к генерации целых предложений — Large Concept Models, LCMs. Мы углубились в эту тему и смогли предложить новый способ, как использовать идею LCM эффективнее.

О том, что мы сделали — в статье ниже.

Читать далее

Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП

Время на прочтение6 мин
Количество просмотров1.3K

Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний, автоматизировав в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

Изначально мы рассматривали два подхода к реализации подобных проектов. Первый – предполагал классическую работу с гибкими описаниями документов, когда правила извлечения информации задаются человеком. Второй вариант – комбинированный, с использованием больших языковых моделей (LLM). Наш опыт показал, что последний подход как минимум в три раза экономичнее, при работе с неструктурированными документами. Он обеспечивает хорошую скорость и высокое качество извлечения данных (более 95% правильно извлеченных данных), что позволяет нашим заказчикам масштабировать обработку документов без роста операционных расходов.

Узнать подробности

Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров383

Что если ошибочные ответы модели — не мусор, а ценный обучающий материал? В данной статье мы разберём метод Hindsight Instruction Relabeling (HIR), который позволяет дообучать LLM модели иногда даже лучше, чем RLHF. Кроме того, данный метод требует меньшего количества вычислений, не использует дополнительные модели и вдобавок ко всему максимально использует имеющийся датасет.

Читать далее

Сказка о зачарованной пасеке

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.2K

Басня о коде и мёде

Когда-то давно в обширном цифровом королевстве жила гильдия строителей. Не замков и мостов, а сложных, невидимых структур, созданных на основе чистой логики. Они были архитекторами и разработчиками программного обеспечения, и их самой большой проблемой было создание систем, которые могли бы расти и адаптироваться, не погружаясь в хаос.

Они трудились день и ночь, используя всевозможные чертежи и заклинания, однако их творения часто становились запутанными беспорядками — хрупкими и трудно поддающимися изменению. Строители просто жаждали создать программное обеспечение устойчивое, организованное и полное жизни, как шумный улей.

И вот однажды мудрый старый архитектор, известный как «Пчеловод», собрал молодых строителей. «Вы стремитесь строить «Великие вещи», — сказала она, и ее голос был теплым, как летний мед. «Но вы строите из камня и железа, когда вы должны строить из самой жизни. Посмотрите на пчел. Их ульи — шедевры дизайна, построенные на века на протяжении поколений. Давайте узнаем их секреты».

Так начинается наша история. История не только о коде, но и о вечных закономерностях природы, которые могут помочь нам создавать создавать красивые программы. Мы отправимся в самое сердце Шестиугольного Улья, откроем его секретный генетический код и узнаем, как выращивать собственных «рабочих пчел», которые будут служить нашему цифровому королевству добросовестно.

Читать далее

Полное руководство по добавлению серверов MCP в Claude Code: от основ к мастерству

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров956

Эта статья предоставляет самые современные методы настройки MCP, решения распространённых ошибок, а также рекомендует 10 протестированных практичных MCP-серверов. Это поможет решить более 90% проблем с настройкой и расширить функционал Claude Code.

Читать далее

Не em dash'ем единым: как распознать ИИ-текст по гайду Википедии

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров815

Честно говоря, охота на следы ИИ не самая увлекательная задача. Но инструмент полезный: помогает авторам убрать штампы из черновика, а редакторам сэкономить время. Ниже короткий пересказ актуального гайда сообщества Википедии Signs of AI writing и практичный чек-лист для самопроверки.

Читать далее

LLM на прокачку: практический гайд по Alignment

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.3K

Мы в Точка Банке делаем свою LLM. Чтобы она работала хорошо, недостаточно просто обучить её на куче текстов. Для получения осмысленного и предсказуемого поведения модели, нужен Alignment — дообучение с учётом предпочтений и ограничений. В статье расскажу, какие методы применяют в современных моделях, и как мы адаптировали их под себя.

Читать далее

Legen… Wait, Wait… Dary! Разбираемся с рефлексией LLM

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров2K

Хабр, привет! Меня зовут Андрей Галичин, я младший научный сотрудник группы «Доверенные и безопасные интеллектуальные системы» в Институте AIRI, инженер‑исследователь в лаборатории безопасного искусственного интеллекта SAIL AIRI‑МТУСИ, а также аспирант Сколтеха. Мы с коллегами занимаемся интерпретируемостью больших языковых моделей. В январе этого года, когда все обсуждали впечатляющие результаты новой рассуждающей языковой модели DeepSeek‑R1 (подробный разбор статьи от моего коллеги Антона Разжигаева можно найти здесь), мы задались вопросом: а что на самом деле происходит внутри этих моделей, когда они «думают»?

Главная особенность таких моделей — это способность к рефлексии, самопроверке и сомнениях в своих рассуждениях, которые магическим образом возникают в процессе обучения ("aha moment") и выражаются в использовании моделью человекоподобных фраз типа "Wait", "Alternatively" и других. Однако никто толком не разбирался, откуда они берутся и зачем нужны (работает — не трогай!).

Именно на эти вопросы мы и попытались ответить в нашей новой статье "​I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders". Мы обнаружили, что эти фразы — не просто декорация, а действительно важные для модели вещи. Мы спустились на уровень скрытых представлений модели и нашли механизмы, отвечающие за рассуждающие способности. Более того, мы научились их контролировать — усиливая нужные компоненты, мы смогли заставить модель рассуждать глубже и точнее!

В этой статье я коротко расскажу про наши главные выводы.

Читать далее

Виртуальный рассказчик 2.0: эволюция нейросетевого рассказчика в Яндекс Книгах

Время на прочтение8 мин
Количество просмотров11K

Примерно год назад мы запустили виртуального рассказчика в Яндекс Книгах. Он хорошо решал задачу чтения книг вслух без предзаписанных аудиоверсий, но иногда звучал однообразно. Дело в том, что он был основан на небольшой нейросети — Tacotron. Проблема заключалась в том, что мы обучали модель для каждого спикера. И если спикер пользовался несколькими интонационными паттернами, то модель просто выбирала самый частый из них. 

Тогда мы начали активно экспериментировать c highres-моделями. Они могут учиться на большом количестве данных разного качества и поэтому способны воспроизводить более интонационно осмысленную речь. К тому же им не нужны вспомогательные модели, такие как PnG BERT или отдельные модели для расстановки пауз, — все эти интонационные нюансы они выучивают сами. У них есть хорошая способность к семплированию, в отличие от старых моделей, где один и тот же текст на разных генерациях произносился почти одинаково.

И вот мы покатили новые модели в прод. А я расскажу, как мы научились заводить highres-модели для синтеза книг и делать это в реалтайме, а также какую работу пришлось для этого провести.

Читать далее

Ближайшие события

Аналитика данных для RAG: как (не)наполнить базу решений для нулевой линии поддержки

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров2.5K

Привет, я Азат Хакимов, аналитик данных команды «ИИ для ИТ Поддержки» в Т1 Иннотех. Мы разрабатываем интеллектуальные системы помощи и автоматизации для команд поддержки. В этой статье я расскажу про одну из задач анализа текстов, с которой столкнулась команда в ходе разработки системы для нулевой линии поддержки.

Задачу, которую пытались решить - наполнение базы готовых решений для RAG сервиса простыми и легкими, с точки зрения ресурсоемкости, методами

Читать далее

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.2K

Привет, Хабр!

Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning.

Читать далее

Стирая языковые границы для NLP-датасетов

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1K

Всем привет. В этом посте расскажем, как мы тестировали БЯМ для перевода англоязычных датасетов на русский. «Мы» — это ваш покорный слуга и ребята из ФИЦ ИУ РАН. Пост по факту перевод нашей статьи, которая была опубликована еще в апреле, но вот руки до поста дошли только сейчас.

Читать далее

Вебинары трека Наука о данных Летней цифровой школы Сбера

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров586

Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера.

Читать далее

NLP в японском стиле. Репортаж с поездки в Канадзаву на конференцию NLDB 2025

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров288

Всем привет! С 4 по 6 июля в японском городе Канадзава прошла небольшая, но очень ламповая конференция NLDB 2025, посвященная различным доменам в NLP. Мы, группа исследователей из AIRI, съездили на это мероприятие, других посмотреть и себя показать.

О том, что было на конференции и о красотах Канадзавы — читайте в тексте ниже.

Читать далее

Как мы заставили LLM понимать юридические документы лучше юристов: история создания универсального промта

Время на прочтение6 мин
Количество просмотров7.8K

В прошлой статье мы говорили, что нашли быстрый и простой способ, как с помощью LLM вытаскивать данные из юридических документов и доверенностей. А сегодня расскажем, какой промт мы для этого использовали.

Узнать подробности

Как мы учили нейросеть отвечать на вопросы

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров2.3K

Привет, Хабр! На связи Денис Романов, директор департамента Professional Services компании «Базис». Яркое появление китайских языковых моделей заставило нас по-новому посмотреть на возможности нейросетей, и вот уже несколько месяцев мы активно внедряем их в рабочие процессы — от автоматизации рутинных задач до поддержки клиентов.

Скрещиваем Elasticsearch, Ollama и QWen
1
23 ...