Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

gofat 10 июл 2024 в 08:35

Prompt engineering 101

Простой

26 мин

22K

Блог компании X5 TechМашинное обучение * Искусственный интеллектPython * Natural Language Processing *

Из песочницы

✏️ Технотекст 7

Привет!

Использование LLM все больше проникает в бизнес. И ритейл — не исключение. В X5 мы решили сделать небольшую методичку по prompt engineering для обычного бизнес‑пользователя. Мы посмотрели на получившийся результат и решили поделиться этой методичкой с сообществом, чтобы как можно больше людей смогли овладеть разными техниками, позволяющими работать с LLM эффективнее.

Для этого нам сначала придется разобраться с тем, как вообще устроены LLM, затем поговорим о промптах: общие принципы построения, техники оптимизации и промпты для изображений. А на десерт предложим вам продвинутые техники работы с LLM: автоматизированные подходы по улучшению промптов, Retrieval‑Augmented Generation и разметка данных для ML с помощью LLM.

+16

Oleg_Rogov 9 июл 2024 в 07:00

GPT для генерации кода в реальном применении на производстве

4 мин

14K

Блог компании НЛМК ИТУправление проектами * Машинное обучение * Natural Language Processing *

Кажется почти все используют GPT или другие LLM-based-решения для генерации кода. Есть куча проектов, где так же генерируют фронт (код интерфейсов). Собственно, когда у нас появилась дизайн-система со множеством компонентов, стало понятно, что это идеальная документация для обучения модели, ведь она включает в себя описание типов, аргументы, тесты и состояния использования компонентов.

В какой-то момент я начал задумываться, почему мы не используем код, который есть в дизайн-системе, чтобы он автоматически генерировался помощником. Достаточно векторизовать эту базу, дальше модель сможет на основе нашей дизайн-системы выдавать готовые решения по текстовому запросу.

Многие наши компоненты достаточно сложные. Самый сложный — таблица, потому что у нас много разных типов таблиц для производственных данных. Внезапно выяснилось, что разработчику нужно три дня, чтобы вникнуть в матчасть и написать свою первую таблицу — или же примерно 30 секунд на запрос «сделай мне таблицу для такой-то задачи», чтобы GPT-4 выбрал подходящие параметры и сразу показал, что надо. Либо дал скорректировать запрос, если таблица не подходит.

Читать дальше →

+23

sobolevslava 9 июл 2024 в 03:45

Как сделать голосовой интерфейс к LLM

Средний

8 мин

7.3K

Arduino * Искусственный интеллектГолосовые интерфейсы * Natural Language Processing * DIY или Сделай сам

Из песочницы

В конце февраля на Бали прошел фестиваль Lampu, организованный по принципам знаменитого Burning Man. По его традиции, участники самостоятельно создают инсталляции и арт-объекты.

Мы с друзьями из кемпа 19:19, вдохновившись идеей католических исповедален, придумали сделать свой AI Confession Room, где любой желающий мог бы поговорить с искусственным интеллектом.

mrcoolinhabr 8 июл 2024 в 22:20

Искусство общения с LLM: Гайд по техникам Prompt Engineering

Средний

8 мин

20K

Python * Искусственный интеллектМашинное обучение * Natural Language Processing *

Из песочницы

Привет, Хабр! Меня зовут Никита Кулин, ML-Engineer NLP моделей.

В этом гайде мы поговорим о подготовке к prompt-engineering, о базовых принципах написания промпта, про его структуру и про типы решаемых задач, о продвинутых техниках через рассуждения для повышения качества ответа и снижения вероятности появления галлюцинаций. Гайд будет полезен для всех, кто начинает погружаться в промптинг.

Это мой первый пост, поэтому буду рад любой обратной связи!

+12

truba_jr 8 июл 2024 в 19:08

Диалекты, зумеры и боты: секреты тестирования NLU-систем

Простой

6 мин

1.2K

Блог компании Just AIТестирование IT-систем * Natural Language Processing * Голосовые интерфейсы *

Туториал

Привет, Хабр! Меня зовут Даниил Трублаевич, я занимаюсь тестированием диалоговых систем в компании Just AI. Сегодня сложно отрицать, что боты, голосовые ассистенты и виртуальные помощники стали неотъемлемой частью нашей повседневной жизни. Но, чтобы эти системы были действительно эффективными, они должны не просто распознавать слова и фразы, но и корректно понимать их смысл в различных контекстах.

Тестирование NLU – сложный процесс, так как невозможно точно определить границу полноты тестирования. Для этого и существуют некоторые лайфхаки – правила тестирования, о которых хочется поговорить в этой статье. Материалы разделены на два блока: личный опыт QA-инженера и тестирование при помощи нейросетей.

beeline_cloud 7 июл 2024 в 02:17

Забытые системы ИИ — как «Сайк» здравому смыслу учили

Простой

6 мин

Блог компании Beeline CloudNatural Language Processing * Биографии гиковИскусственный интеллектИстория IT

Ретроспектива

Разговорами о работе с ИИ уже никого не удивить. Нейросетями не пользуется только ленивый, а бизнес всё чаще запускает свои языковые модели. Но мало кто помнит, что еще в 80-х один амбициозный исследователь взялся разработать свою интеллектуальную систему с чувством «здравого смысла». Проект назвали «Сайк», и он до сих пор существует — даже имеет ряд кейсов коммерческого применения. Мы в beeline cloud решили обсудить, как он устроен, и что лежит в основе решения.

+24

Uran286 6 июл 2024 в 13:44

Google AI Studioзно умеет обманывать

Средний

8 мин

6.9K

Natural Language Processing * Искусственный интеллектИсследования и прогнозы в IT * Контент и копирайтинг * Машинное обучение *

Из песочницы

Это моя первая статья на Хабре. Ну как принято, я сразу сделаю оговорки (тот самый дисклеймер) о том, что все, что я тут пишу — это мой личный опыт, мое личное мнение, я не стремлюсь как‑то где‑то и чем‑то кого‑то (тем более корпорацию Гугл, чьими продуктами я очень в принципе доволен и рад пользоваться) задеть, ущемить интересы, создать антирекламу, кого‑то опозорить (бла, бла..) и т. д. и т. п. Если кто‑то что‑то увидит негативное в свой адрес — это я не со зла и не специально (заранее извиняюсь), просто проводя аналитические оценки я пришел к таким выводам.

Решил поделится некими размышлениями о том, как ИИ от Гугла иногда преднамеренно (в смысле возможно ему специально включили «это» в алгоритм) или в процессе общения, сам того не ведая, научился «врать» (простите модераторы, не нужно сильно модерировать, это я просто запарился с этим ИИ, потому как немного пострадал).

В общем, история простоя и короткая. Я, как, наверное, и все любители (и не только) частенько отдаю на «аутсорс» (или точнее вскармливаю) определенные задачи ИИ‑шкам. Последнее время нравился Google AI. Ну а что? Многие со мной согласятся, что по сравнению с ChatGPT, работает Google AI более релевантно. Не слишком фамильярничает, не перегружает «водой» (если контекст этого не требует), отвечает быстрее, ну и 2 млн. токенов дает «на халяву» загрузить и анализировать. Для аналитика прям «ляпота и не только».

Короче, решали мы с Google AI (далее чтобы не копи/пастить давайте по тексту я назову его ГАИ) задачу. Ничего особенного, ГАИ мне давал, вроде, как обычно все результаты, и вроде так, как я от него добивался (в прямом смысле слова). Здесь я немного отступлю, просто экспромт возник — не перелистываем абзац, пожалуйста, просто есть один нюанс, о котором я пользуясь моментом тоже хочу узнать, может кто скажет дельное. Когда пишешь задачу особенно по матстатистике или эконометрике, и загружаешь в ГАИ, то надо в обяз прописывать условия типа «распиши решение с детальным описанием алгоритма» или «представь ответ с описанием формулы или расчета» и т. д. Я конечно понимаю, что имею дело с ИИ, но почему с тем же ЧатомГПТ или Клодом так детально писать не нужно? Они сами все предельно коротко, но емко напишут, а вот ГАИ — нееет, обязательно где‑то сократит и именно так, что потом «черт не разберет». Короче как я не пытался его настроить, без вышеназванных фраз, а-ля «дай ответ с подробным описанием...» ничего не получается. Конец отступлению.

LisaaSimpson 4 июл 2024 в 10:20

Эволюция сервиса классификации

8 мин

1.5K

Блог компании SL Soft.NET * Машинное обучение * Natural Language Processing * Data Mining *

Привет, Хабр. Меня зовут Аделина Ямалтдинова, я разработчик технологического сервиса «Классификатор» — одной из частей платформы «Преферентум».

Как вы могли догадаться из названия, сервис нужен для классификации неструктурированной информации — документов, заявок, звонков и т. д. Он применяется для маршрутизации обращений на горячую линию, сортировки входящих документов в СЭД, тематической классификации, выявления негативных отзывов, определения типа и контроля комплектности документации и т. п. Таким образом, «Классификатор» упрощает переход компаний к интеллектуальной автоматизации различных бизнес‑процессов, обогащая используемые системы ИИ.

В статье я расскажу об устройстве нашего «Классификатора» и о том, как мы его улучшаем.

yakvenalex 30 июн 2024 в 18:14

ИИ LLama3 без ограничений: локальный запуск, GROQ и интеграция в Телеграм бота с помощью Python

Средний

25 мин

38K

Python * Natural Language Processing *

Туториал

Друзья, приветствую вас в очередной статье. Сегодня я расскажу, как использовать LLAMA3 ИИ в своих проектах. После небольшой подготовки мы приступим к созданию полноценного Telegram бота.

Сегодня мы:

• Научимся устанавливать LLama3 на локальную машину.

• Научимся бесплатно запускать LLama3 через платформу GROQ.

• Разберемся с преимуществами и недостатками первого и второго способа развертывания LLama3.

• Напишем полноценного Telegram бота с использованием aiogram3, который сможет работать как с локальной версией LLAMA3, так и через сервис GROQ (технически он сможет работать с любой подключенной нейросетью).

• Запустим Telegram бота на VPS сервере (опционально).

+20

tg_bomze 29 июн 2024 в 19:17

Irbis-7B или как мы учили ЛЛМку казахскому языку

Средний

7 мин

7.4K

Natural Language Processing *

Из песочницы

Языковые модели, основанные на архитектуре трансформеров, такие как Llama, Mistral и прочие, показывают впечатляющие результаты на английском языке. Однако их эффективность на других языках, включая казахский, может страдать. Дообучение на отдельный домен, даже при наличии хорошего датасета, может не давать значительного прироста в качестве. И дело не столько в том, что базовая модель при обучении видела мало текста на казахском, сколько в неэффективной токенизации. Этот недостаток приводит к тому, что модели не могут в полной мере использовать свой потенциал на языках, отличных от английского. В данной статье мы расскажем решали эту проблему при создании казахской языковой модели.

+17

DanKarpov 27 июн 2024 в 12:25

Есть ли жизнь до fit/predict?

Средний

12 мин

2.4K

Блог компании MWS AIБлог компании МТСМашинное обучение * Искусственный интеллектNatural Language Processing *

Обзор

Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных.

Sanek22 26 июн 2024 в 10:49

Real AI Семантический Анализатор и решение задачи по извлечению поручений из распорядительных документов

Простой

5 мин

1.2K

Искусственный интеллектNatural Language Processing *

Кейс

Привет Хабр!

Чуть больше года прошло с момента последней публикации, в которой описано одно из применений технологии анализа текста, основанной на разработанном нами «свойство-ориентированном подходе».

За это время мы провели работу по переходу от технологии к продукту - семантическому анализатору Real AI SA, решающему реальную задачу бизнеса, и сделали следующее: провели около двадцати проблемных интервью, создали юридическое лицо, получили грант от Фонда Содействия Инновациям, разработали и зарегистрировали ПО для извлечения поручений, начали пилотирование решения.

Подробнее о практической задаче – автоматическом заполнении карточек поручений в системе электронного документооборота путем анализа распорядительных документов, а также о нашем подходе к ее решению хотелось бы рассказать в этой статье.

pspetrov 25 июн 2024 в 20:45

Атрибутивное распознавание документов

Простой

10 мин

4.2K

ECM/СЭД * Natural Language Processing * Искусственный интеллектМашинное обучение * Обработка изображений *

Из песочницы

Многие компании, несмотря на переход на электронный документооборот, всё равно сталкиваются с задачами автоматизации ввода информации с бумажных документов. Все они хотят избавиться от этой рутинной операции, и внедряют системы атрибутивного распознавания. На практике, часто оказывается, что такие системы не всегда соответствуют ожиданиям. Сегодня хочу обсудить подходы к решению задачи атрибутивного распознавания, а также проблемы с которыми я сталкивался за 10 лет практики в этой области.

Многие забывают, что само распознавание документов не является конечной целью. Главная задача - это сократить человеческие трудозатраты на ввод информации с бумажных документов. т.е. в теории, если производительность человека на ввод информации магическим образом вырастет, то и распознавать ничего не надо. Скорее всего, для этой магии нам конечно понадобится распознавание, но это лишь один из инструментов.

Так как же сократить трудозатраты?

Olesya_Kolosovskaya 25 июн 2024 в 09:04

Маршрутизация обращений: автоматизация в ИТ-поддержке с помощью ИИ и языковых моделей

Средний

8 мин

4.6K

Блог компании НЛМК ИТHelp Desk Software * Service Desk * Natural Language Processing *

Кейс

ИИ может не только ускорить, но и значительно повысить качество обработки обращений в техподдержку. Я занимаюсь в НЛМК генеративным искусственным интеллектом и расскажу, как нам совместно с ИТ‑вендором Аксеникс удалось преобразовать подход к обслуживанию ИT‑запросов поддержки пользователей через проект интеллектуальной классификации и маршрутизации.

anton_shbk 24 июн 2024 в 11:20

Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

Средний

14 мин

6.2K

Natural Language Processing * Искусственный интеллектМашинное обучение * Python *

Туториал

В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.

CyberexTech 18 июн 2024 в 08:01

Моя б̶е̶з̶умная колонка: часть вторая // программная

Простой

16 мин

19K

Блог компании Timeweb CloudПрограммирование * Голосовые интерфейсы * Python * Natural Language Processing *

Кейс

Привет, Хабр!

В прошлой статье я описал аппаратную реализацию своего голосового ассистента на базе бюджетного одноплатника Orange Pi Zero 2W с 4Гб оперативной памяти. Эту же статью хочу посвятить программной реализации данного устройства. Если стало интересно, то добро пожаловать под кат.

Читать дальше →

+50

artschedrov 16 июн 2024 в 14:18

1-битные LLM могут решить проблему энергопотребления ИИ

4 мин

11K

Машинное обучение * Natural Language Processing *

Перевод

Большие языковые модели, системы искусственного интеллекта, на которых работают такие чат-боты, как ChatGPT, становятся все лучше и лучше, но они также становятся все больше и больше, требуя все больше энергии и вычислительной мощности.

Dimmension 14 июн 2024 в 12:19

Как интегрировать виртуального помощника на Rasa?

Простой

6 мин

1.4K

Python * Natural Language Processing * Программирование *

Из песочницы

На сегодняшний день существует много интегрированных информационных систем и клиентских приложений, и при работе с ними у пользователей возникают проблемы различной степени сложности, и чтобы разгрузить и улучшить качество взаимодействия с ними, в разрабатываются диалоговые помощники и виртуальные консультанты с использованием искусственного интеллекта и технологиями NLP.

Одним из инструментов создания диалоговых помощников является Rasa — сценарная платформа машинного обучения с открытым исходным кодом.

Для более удобного взаимодействия с виртуальным консультантом встает вопрос об интеграции его в социальные сети и мессенджеры, что позволит работать с чат‑ботом при помощи смартфона.

nikitayusupov 12 июн 2024 в 12:38

Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

Простой

19 мин

9.8K

Python * Визуализация данных * Машинное обучение * Искусственный интеллектNatural Language Processing *

Туториал

В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

+19

Nevergreenin 11 июн 2024 в 10:30

Лучший друг интроверта: как ИИ помогает в общении с людьми

Простой

2 мин

1.4K

Natural Language Processing * Будущее здесьЯндекс API * VK API * Python *

Обзор

Начнем с того, что интровертам порой бывает нелегко сформулировать правильное сообщение, особенно когда речь идет о важных или личных вопросах. Сомнения, страх сказать что-то не то, и даже простое нежелание вступать в диалог – все это может сделать коммуникацию настоящим испытанием. С такой проблемой я сталкиваюсь каждый день. Тем не менее, умение правильно выразить свои мысли и чувства чрезвычайно важно, и здесь на помощь могут прийти технологии.

Чат-боты уже давно перестали быть просто развлечением. В условиях, когда технологии становятся все более сложными, чат-боты представляют собой простой и удобный интерфейс для взаимодействия с различными сервисами и приложениями. ChatGPT показал, насколько удобно использовать интерфейс чата, и насколько много различных задач можно решить в таком виде. Такой интерфейс понятен каждому и доступен в любое время.

Я всегда стараюсь найти, какие трудности из моей жизни я могу решить с помощью технологий. Итак, позвольте представить вам Дейта – чат-бота ВКонтакте, который поможет вам на каждом этапе диалога. Вот что он умеет:

1 2 ...

17 18

20 21 ...

55 56

Natural Language Processing *

Prompt engineering 101

GPT для генерации кода в реальном применении на производстве

Как сделать голосовой интерфейс к LLM

Искусство общения с LLM: Гайд по техникам Prompt Engineering

Диалекты, зумеры и боты: секреты тестирования NLU-систем

Забытые системы ИИ — как «Сайк» здравому смыслу учили

Google AI Studioзно умеет обманывать

Эволюция сервиса классификации

ИИ LLama3 без ограничений: локальный запуск, GROQ и интеграция в Телеграм бота с помощью Python

Irbis-7B или как мы учили ЛЛМку казахскому языку

Есть ли жизнь до fit/predict?

Real AI Семантический Анализатор и решение задачи по извлечению поручений из распорядительных документов

Атрибутивное распознавание документов

Ближайшие события

Маршрутизация обращений: автоматизация в ИТ-поддержке с помощью ИИ и языковых моделей

Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

Моя б̶е̶з̶умная колонка: часть вторая // программная

1-битные LLM могут решить проблему энергопотребления ИИ

Как интегрировать виртуального помощника на Rasa?

Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

Лучший друг интроверта: как ИИ помогает в общении с людьми

Вклад авторов