Все потоки

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

atomlib 7 сен в 16:26

Где поток ненужного софта? Почему заявления об ИИ-ассистентах не сходятся

Простой

8 мин

27K

Искусственный интеллектПрограммирование * Статистика в ITПроектирование и рефакторинг * Natural Language Processing *

Мнение

Перевод

Я в бешенстве. Я реально зол. Зол настолько, что хочется сносить чужие песочные замки, зарядить Дэниэлю ЛаРуссо по физиономии и поливать его грязью перед его девушкой^a.

Вообще-то я не из тех, кого легко разозлить, но ситуация в индустрии достала окончательно.

Читать далее

+133

aufklarer 6 сен в 08:31

Fine-tune Qwen3 Embeddings для классификации категорий товаров

Средний

4 мин

4.1K

Машинное обучение * Natural Language Processing *

Туториал

Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста.

Читать далее

+18

ph_piter 5 сен в 10:53

Большие языковые модели как новый уровень абстрагирования

3 мин

2K

Блог компании Издательский дом «Питер»Искусственный интеллектКарьера в IT-индустрииNatural Language Processing *

Перевод

Как и большинство серьёзных спикеров в IT, я внимательно слежу за тем, какую роль могут сыграть в разработке ПО системы генеративного искусственного интеллекта. Думаю, возникновение больших языковых моделей (LLM) повлияет на разработку ПО примерно в той же степени, что и переход с ассемблера на первые высокоуровневые языки программирования. Чем дальше развиваются языки и фреймворки, тем сильнее абстрагируется наш код и, соответственно, возрастает продуктивность, но такие изменения пока не касаются самой природы программирования. При применении LLM – уже касаются, но я хочу поговорить о том, что LLM не только повышают уровень абстракции. Пользуясь ими, приходится учитывать, как выглядит программирование с использованием недетерминированных инструментов.

Как я уже говорил, высокоуровневые языки программирования вывели нас на совершенно новый уровень абстракции. Работая с ассемблером, я думаю о наборе инструкций для конкретной машинной архитектуры. Мне приходится продумывать даже самые простые действия, размышляя, как я буду осуществлять те или иные последовательности действий, записывая данные в нужные регистры. Но при работе с высокоуровневыми языками появилась возможность обдумывать программу как последовательность команд, в которой предусмотрены условные операторы, чтобы выбирать альтернативы для продолжения. Также в программе есть итерации, чтобы раз за разом применять команды к наборам значений данных. Многие элементы кода можно именовать, чтобы было ясно, что именно понимается под теми или иными значениями. Ранние языки программирования явно были в чём-то ограничены. Я начинал программировать на Fortran IV, где у операторов «IF» не было условия «ELSE». Поэтому мне приходилось как-то запоминать мои целочисленные переменные, и я начинал их с букв от «I» до «N».

Читать далее

+5

atomlib 1 сен в 11:10

Что слепой знает о мире? Большие языковые модели и география

Простой

17 мин

4.8K

Искусственный интеллектГеоинформационные сервисы * Машинное обучение * Научно-популярноеNatural Language Processing *

Дайджест

Изображение выше принято рекомендовать как древнюю карту мира римского географа Помпония Мелы. Это не совсем так. Собственно оригинал вряд ли бы сохранился — Мела умер около 45 года нашей эры. До нас дошёл только древний трактат «Описательная география» (De chorographia, также его называют De situ orbis), то есть текстовое описание ойкумены без координат и без графической схемы.

Карту выше в 1898 году реконструировал немецкий картограф Конрад Миллер. Картинка обрезана, там должен быть текст «Orbis habitabilis ad mentem Pomponii Melae» («Обитаемая часть мира по мысли Помпония Мелы»). Лист с картой вышел в шестом выпуске серии Миллера «Mappae mundi. Древнейшие карты мира» (Mappaemundi. Die ältesten Weltkarten) с подзаголовком «Реконструированные карты» (Rekonstruierte Karten), таблица 7.

Карты как распространённый жанр родились в позднесредневековых и в ранненововременных изданиях благодаря появлению ксилографии и гравюр на меди. Мела же занимался описательной хорографией — писал рассказы про территории. Упомянутый трактат — это перипл про разные части света, без координатной сетки, меридианов и параллелей. Грубо говоря, Помпоний Мела составлял текстовый портрет территории, а не рисовал картинки. Как же из этого получился вот этот рисунок?

Читать далее

+33

Raicon 31 авг в 05:01

Просто и подробно о том, как работают ChatGPT и другие GPT подобные модели. С картинками

Простой

12 мин

43K

Искусственный интеллектIT-инфраструктура * Natural Language Processing * Будущее здесьЛайфхаки для гиков

🛸 Космотекст

Эта статья — длиннопост о том, как работают ChatGPT и другие GPT подобные модели

Внутри

🔠 Подробно про токены, токенизатор и контекстное окно

❓ Почему GPT модели работают лучше на английском, чем на русском

🔢 Как большие языковые модели работают с числами

Два моих убеждения о том, почему важно понимать принцип работы нейросетей

Непонятная технология воспринимается как магия

Люди любят наделять неживое свойствами живого

LLM сочетают в себе эти два свойства: они достаточно сложны в устройстве и естественны в общении. Это сочетание снижает критичность восприятия — люди могут воспринимать ChatGPT и подобные интерфейсы как разумных существ, что приводит к переоценке их возможностей, повышенной внушаемости и определенным психологическим рискам — эмоциональной зависимости или мании величия от «особых отношений» с ИИ.

Узнать, как же они работают 🦄

+38

potan 30 авг в 21:34

Возвратиться или продолжить: поговорим про continuations

Средний

6 мин

3.2K

Lisp * Natural Language Processing * Компиляторы * Математика * Функциональное программирование *

Обзор

Одна из самых эзотерических тем в программировании и computer science это продолжения (continuations), ограниченные продолжения (delimited continuations) и continuation-passing style. Я попытаюсь раскрыть эту тему понятным для обычного программиста языком. Предполагается, что обычный программист знаком с понятиями функции/подпрограммы, фрейма вызова (stack frame), а также имеет базовое знания языка Scheme, хотя бы на уровне первых глав SICP.

Читать далее

+28

atomlib 30 авг в 15:12

Вкусы и предпочтения больших языковых моделей

Простой

29 мин

2.2K

Искусственный интеллектМашинное обучение * Natural Language Processing * Научно-популярноеБудущее здесь

Дайджест

У больших языковых моделей есть системы ценностей. БЯМ по-разному отзываются о чужих текстах или даже человеческой жизни, а их оценочные суждения и качество ответов отличаются в зависимости от упоминаемой расы, пола и национальности человека. Не вызывает никаких сомнений, что подобную предвзятость систем на искусственном интеллекте нужно искоренять.

Однако также у моделей есть предпочтения. Разные БЯМ называют любимыми разные песни, кино и книги. ИИ одного провайдера предпочитает одну разновидность мороженого, у конкурентов языковая модель любит десерты другого вкуса. Ответы на подобные вопросы глубоко субъективны, одного морально правильного нет.

Можно даже сказать, что вкусы — это частный случай систем ценностей. Разница в том, что явных угроз подобные артефакты выравнивания не несут. Какая разница, предпочитает ли БЯМ джаз или рок?

Читать далее

+12

NikitaNLP 29 авг в 13:46

SONAR-LLM — учим нейросети думать предложениями вместо слов

Сложный

7 мин

3.8K

Блог компании AIRIМашинное обучение * Алгоритмы * Natural Language Processing * Искусственный интеллект

Кейс

Привет, Хабр. Меня зовут Никита Драгунов, я из команды «Интерпретируемый ИИ» лаборатории FusionBrain AIRI. У себя в группе мы активно пытаемся понять, почему большие языковые модели и другие архитектуры ведут себя так или иначе, и разрабатываем инструменты, которые помогают нам в этом разобраться.

Среди прочего нас очень заинтересовал сравнительно свежий подход, в котором предлагается перейти от генерации токенов к генерации целых предложений — Large Concept Models, LCMs. Мы углубились в эту тему и смогли предложить новый способ, как использовать идею LCM эффективнее.

О том, что мы сделали — в статье ниже.

Читать далее

+14

ContentAI_Team 28 авг в 16:00

Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП

6 мин

1.6K

Блог компании Content AIИскусственный интеллектОбработка изображений * Natural Language Processing *

Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний, автоматизировав в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

Изначально мы рассматривали два подхода к реализации подобных проектов. Первый – предполагал классическую работу с гибкими описаниями документов, когда правила извлечения информации задаются человеком. Второй вариант – комбинированный, с использованием больших языковых моделей (LLM). Наш опыт показал, что последний подход как минимум в три раза экономичнее, при работе с неструктурированными документами. Он обеспечивает хорошую скорость и высокое качество извлечения данных (более 95% правильно извлеченных данных), что позволяет нашим заказчикам масштабировать обработку документов без роста операционных расходов.

Узнать подробности

+4

Tuturutuw 27 авг в 08:49

Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Средний

4 мин

505

Natural Language Processing * Математика * Машинное обучение *

Обзор

Перевод

Что если ошибочные ответы модели — не мусор, а ценный обучающий материал? В данной статье мы разберём метод Hindsight Instruction Relabeling (HIR), который позволяет дообучать LLM модели иногда даже лучше, чем RLHF. Кроме того, данный метод требует меньшего количества вычислений, не использует дополнительные модели и вдобавок ко всему максимально использует имеющийся датасет.

Читать далее

0

ZaeBest 21 авг в 03:57

Сказка о зачарованной пасеке

Средний

8 мин

2.3K

Go * Python * Natural Language Processing * TypeScript * SQL *

Перевод

Басня о коде и мёде

Когда-то давно в обширном цифровом королевстве жила гильдия строителей. Не замков и мостов, а сложных, невидимых структур, созданных на основе чистой логики. Они были архитекторами и разработчиками программного обеспечения, и их самой большой проблемой было создание систем, которые могли бы расти и адаптироваться, не погружаясь в хаос.

Они трудились день и ночь, используя всевозможные чертежи и заклинания, однако их творения часто становились запутанными беспорядками — хрупкими и трудно поддающимися изменению. Строители просто жаждали создать программное обеспечение устойчивое, организованное и полное жизни, как шумный улей.

И вот однажды мудрый старый архитектор, известный как «Пчеловод», собрал молодых строителей. «Вы стремитесь строить «Великие вещи», — сказала она, и ее голос был теплым, как летний мед. «Но вы строите из камня и железа, когда вы должны строить из самой жизни. Посмотрите на пчел. Их ульи — шедевры дизайна, построенные на века на протяжении поколений. Давайте узнаем их секреты».

Так начинается наша история. История не только о коде, но и о вечных закономерностях природы, которые могут помочь нам создавать создавать красивые программы. Мы отправимся в самое сердце Шестиугольного Улья, откроем его секретный генетический код и узнаем, как выращивать собственных «рабочих пчел», которые будут служить нашему цифровому королевству добросовестно.

Читать далее

+3

KoiCode 19 авг в 11:32

Полное руководство по добавлению серверов MCP в Claude Code: от основ к мастерству

Простой

7 мин

1.7K

Creative Commons * GitHub * IT-инфраструктура * Natural Language Processing *

Recovery Mode

Эта статья предоставляет самые современные методы настройки MCP, решения распространённых ошибок, а также рекомендует 10 протестированных практичных MCP-серверов. Это поможет решить более 90% проблем с настройкой и расширить функционал Claude Code.

Читать далее

+3

Yukajii 19 авг в 09:22

Не em dash'ем единым: как распознать ИИ-текст по гайду Википедии

Простой

3 мин

856

Искусственный интеллектNatural Language Processing * Машинное обучение * Контент и копирайтинг *

Честно говоря, охота на следы ИИ не самая увлекательная задача. Но инструмент полезный: помогает авторам убрать штампы из черновика, а редакторам сэкономить время. Ниже короткий пересказ актуального гайда сообщества Википедии Signs of AI writing и практичный чек-лист для самопроверки.

Читать далее

+5

DeadSailor 18 авг в 10:26

LLM на прокачку: практический гайд по Alignment

Простой

6 мин

3.4K

Блог компании Точка БанкNatural Language Processing * Python * Искусственный интеллектМашинное обучение *

Туториал

Мы в Точка Банке делаем свою LLM. Чтобы она работала хорошо, недостаточно просто обучить её на куче текстов. Для получения осмысленного и предсказуемого поведения модели, нужен Alignment — дообучение с учётом предпочтений и ограничений. В статье расскажу, какие методы применяют в современных моделях, и как мы адаптировали их под себя.

Читать далее

+9

avgalichin 15 авг в 11:35

Legen… Wait, Wait… Dary! Разбираемся с рефлексией LLM

Сложный

6 мин

2.3K

Блог компании AIRIИскусственный интеллектМашинное обучение * Natural Language Processing *

Кейс

Хабр, привет! Меня зовут Андрей Галичин, я младший научный сотрудник группы «Доверенные и безопасные интеллектуальные системы» в Институте AIRI, инженер‑исследователь в лаборатории безопасного искусственного интеллекта SAIL AIRI‑МТУСИ, а также аспирант Сколтеха. Мы с коллегами занимаемся интерпретируемостью больших языковых моделей. В январе этого года, когда все обсуждали впечатляющие результаты новой рассуждающей языковой модели DeepSeek‑R1 (подробный разбор статьи от моего коллеги Антона Разжигаева можно найти здесь), мы задались вопросом: а что на самом деле происходит внутри этих моделей, когда они «думают»?

Главная особенность таких моделей — это способность к рефлексии, самопроверке и сомнениях в своих рассуждениях, которые магическим образом возникают в процессе обучения ("aha moment") и выражаются в использовании моделью человекоподобных фраз типа "Wait", "Alternatively" и других. Однако никто толком не разбирался, откуда они берутся и зачем нужны (работает — не трогай!).

Именно на эти вопросы мы и попытались ответить в нашей новой статье "I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders". Мы обнаружили, что эти фразы — не просто декорация, а действительно важные для модели вещи. Мы спустились на уровень скрытых представлений модели и нашли механизмы, отвечающие за рассуждающие способности. Более того, мы научились их контролировать — усиливая нужные компоненты, мы смогли заставить модель рассуждать глубже и точнее!

В этой статье я коротко расскажу про наши главные выводы.

Читать далее

+15

aaplakhin 15 авг в 07:30

Виртуальный рассказчик 2.0: эволюция нейросетевого рассказчика в Яндекс Книгах

8 мин

11K

Блог компании ЯндексМашинное обучение * Искусственный интеллектЗвукNatural Language Processing *

Примерно год назад мы запустили виртуального рассказчика в Яндекс Книгах. Он хорошо решал задачу чтения книг вслух без предзаписанных аудиоверсий, но иногда звучал однообразно. Дело в том, что он был основан на небольшой нейросети — Tacotron. Проблема заключалась в том, что мы обучали модель для каждого спикера. И если спикер пользовался несколькими интонационными паттернами, то модель просто выбирала самый частый из них.

Тогда мы начали активно экспериментировать c highres-моделями. Они могут учиться на большом количестве данных разного качества и поэтому способны воспроизводить более интонационно осмысленную речь. К тому же им не нужны вспомогательные модели, такие как PnG BERT или отдельные модели для расстановки пауз, — все эти интонационные нюансы они выучивают сами. У них есть хорошая способность к семплированию, в отличие от старых моделей, где один и тот же текст на разных генерациях произносился почти одинаково.

И вот мы покатили новые модели в прод. А я расскажу, как мы научились заводить highres-модели для синтеза книг и делать это в реалтайме, а также какую работу пришлось для этого провести.

Читать далее

+29

Liugger 13 авг в 07:42

Аналитика данных для RAG: как (не)наполнить базу решений для нулевой линии поддержки

Средний

19 мин

2.7K

Блог компании ИТ-холдинг Т1Natural Language Processing * Service Desk *

Кейс

Привет, я Азат Хакимов, аналитик данных команды «ИИ для ИТ Поддержки» в Т1 Иннотех. Мы разрабатываем интеллектуальные системы помощи и автоматизации для команд поддержки. В этой статье я расскажу про одну из задач анализа текстов, с которой столкнулась команда в ходе разработки системы для нулевой линии поддержки.

Задачу, которую пытались решить - наполнение базы готовых решений для RAG сервиса простыми и легкими, с точки зрения ресурсоемкости, методами

Читать далее

+8

ai-talent 11 авг в 09:30

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

Средний

5 мин

1.4K

Машинное обучение * Искусственный интеллектNatural Language Processing *

Обзор

Привет, Хабр!

Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning.

Читать далее

+4

aarmaageedoon 11 авг в 08:00

Стирая языковые границы для NLP-датасетов

Средний

12 мин

1.1K

Natural Language Processing * Машинное обучение * Искусственный интеллектData Mining *

Всем привет. В этом посте расскажем, как мы тестировали БЯМ для перевода англоязычных датасетов на русский. «Мы» — это ваш покорный слуга и ребята из ФИЦ ИУ РАН. Пост по факту перевод нашей статьи, которая была опубликована еще в апреле, но вот руки до поста дошли только сейчас.

Читать далее

+1

castos 9 авг в 05:56

Вебинары трека Наука о данных Летней цифровой школы Сбера

Средний

4 мин

700

Искусственный интеллектМашинное обучение * Data Mining * Data Engineering * Natural Language Processing *

Дайджест

Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера.

Читать далее

+3

4

5 6 ...