Обновить
119.89

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Учим английский с chatGPT

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели62K

Пожалуй, новости о языковых моделях и их использовании уже немного надоели, но лично я нашел для себя полезное применение - изучать английский, в том числе и разговорный. Посмотрим, что могут нам предложить в этом деле товарищи из openai: совместим gpt-3.5-turbo, whisper и telegram.

Читать далее

Ассоциативная память без нейросетей + генерация текста

Время на прочтение9 мин
Охват и читатели2.9K

Когда‑то давно ко мне пришла идея реализовать алгоритм основанный на цепочках символов. Этот алгоритм выделяет в тексте несколько последовательностей символов, и таким образом производит его анализ. Этот алгоритм в какой‑то мере похож на метод построения N‑грамной модели, разница лишь в том, что он строит последовательности символов переменной длины. Как это делается я расскажу немного ниже. В результате алгоритм мог сравнивать тексты друг с другом и находить степень похожести между ними. Я приспособил его для того, чтобы отсеивать ранее известные тексты, и выбирать только те, которые обладают наибольшей уникальностью на момент анализа. Результат работы алгоритма можно посмотреть здесь: http://luksian.ru

Расскажу вкратце суть идеи. Например, у нас есть текст ABCABD. Из этого текста можно выделить следующие последовательности из двух символов: AB, BC, CA, AB, BD. Здесь видно что последовательность AB встречается два раза, а за этой последовательностью в каждом случае следуют разные символы. Такая ситуация считается конфликтом который необходимо разрешить. Для этого создаются новые последовательности символов: ABC и ABD. Последовательности из этих трех символов в тексте встречаются по одному разу, поэтому конфликт считается разрешенным, больше неоднозначностей в тексте не наблюдается. Разумеется, в обычном тексте написанном на простом человеческом языке для разрешения конфликтов иногда может потребоваться построить гораздо более длинные цепочки символов чтобы можно было найти между ними разницу. И вот недавно я вспомнил об этом алгоритме и попробовал его исследовать поподробнее.

Читать далее

А надо ли бизнесу обращать внимание на нейронные сети?

Время на прочтение19 мин
Охват и читатели4.5K

Технологии не стоят на месте, и вот мы уже вступили в эпоху, когда люди начали применять искусственные нейронные сети. Люди некоторых профессий даже начали чувствовать конкуренцию со стороны программных продуктов. Конечно, это происходит далеко не во всех отраслях, но процесс уже пошел, и я думаю вряд ли это удастся остановить. Проблема в том, что позволить себе новые технологии могут только крупные компании, которые таким образом оптимизируют расходы на зарплату работников. В малом и среднем бизнесе прогресс не очень большой. Они по большей части придерживаются классических методов, в которых основную работу выполняют люди, а компьютеры используются в основном для бухгалтерии, учета, выполнения задач заданных статическими правилами и простых операций вроде работы в Word и Excel. Но почему сложилась такая ситуация?

Можно строить разные предположения на этот счет. Возможно сказывается инерция мышления, которая заставляет людей мыслить шаблонами, хотя это и не всегда плохо. Я хотел бы мыслить шаблонами человека, который смог заработать миллион долларов, и работает над получением миллиарда. Но даже такие люди иногда сталкиваются с пределом, который они переступить не в состоянии. Или сталкиваются со слишком медленным по их мнению ростом. Очевидно, что в этом случае волей неволей приходится что-то менять. Приходится начинать делать то, о чем раньше было сложно подумать. Например, приобщаться к вершине технического прогресса, чем на данный момент являются нейронные сети. Но каков порог входа на этом направлении, и что реально можно при этом сделать? Я попробовал это понять.

Читать далее

Всё, что вам нужно — это внимание (часть 1)

Уровень сложностиСложный
Время на прочтение14 мин
Охват и читатели44K
Источник

Примечание переводчика: Недавно на Хабре мы рассказывали о статьях, которые нужно прочитать, если вы хотите заниматься искусственным интеллектом. Среди них была культовая статья Attention is all you need, выпущенная в 2017 году. С неё началось развитие больших языковых моделей, в том числе всем известного чат-бота ChatGPT. Оказалось, что у такой важной статьи нет перевода на русский язык. Мы решили исправить это. Ниже вы найдёте перевод первой части статьи, вторая часть доступна по ссылке.

Краткое содержание


Наиболее распространённые модели преобразования последовательностей основаны на сложных рекуррентных или свёрточных нейронных сетях, которые включают энкодер и декодер. В самых успешных моделях энкодер и декодер соединяются с помощью механизма внимания. В статье авторы предлагают новую простую архитектуру нейронных сетей — Трансформер. Он основан исключительно на механизмах внимания, без рекуррентности или свёрток. Эксперименты на двух задачах машинного перевода показали лучшее качество, а также больше возможностей к распараллеливанию и меньшие временные затраты на обучение. Модель достигает 28.4 по метрике BLEU на задаче перевода с английского на немецкий на данных WMT 2014, что превосходит предыдущий лучший результат на 2 пункта. На задаче перевода с английского на французский на данных WMT 2014 модель достигла наилучшего результата для решения, основанного на одной модели — 41.8 по метрике BLEU — после всего 3.5 дней обучения на 8 GPU, что составляет совсем небольшую часть тех вычислительных мощностей, которые были затрачены на обучение лучшей модели, известной из имеющихся публикаций. Авторы показывают, что Трансформер может также успешно применяться и в других задачах, таких как, например, синтаксический разбор предложений на английском языке с использованием как больших, так и весьма ограниченных наборов данных для обучения.
Читать дальше →

Пайплайн для создания классификации текстовой информации

Время на прочтение10 мин
Охват и читатели9.8K

Привет, Хабр!

Меня зовут Дарморезов Вадим, я Data Scientist и участник профессионального сообщества NTA. Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен – от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Представим ситуацию. Перед вами важная задача – классифицировать огромный поток входящих обращений сотрудников/клиентов для дальнейшего анализа профильными сотрудниками на предмет отклонений и для построения интересующих статистик. Первое решение, приходящее в голову – в ручном режиме просматривать обращения и проводить их классификацию. Спустя пару часов, приходит осознание того, что решение было не самым правильным и так задачу не выполнить в срок. Как же тогда поступить? Именно об этом будет следующий пост.

Узнать больше

Применение нейросетевого моделирования при создании сценариев атаки для Red Team

Время на прочтение4 мин
Охват и читатели2.3K

Генерация контента с помощью искусственных нейронных сетей (ИНС) с каждым днём становится всё более привычным явлением: с помощью ИНС создают графику для видеоигр, пишут книги и дипломные работы, синтезируют звук и поддерживают диалоги в чат-ботах. Существенный вклад в популяризацию задачи и идеи генерации материалов, несомненно, внёс ChatGPT от OpenAI. Среди не менее успешных отечественных аналогов можно выделить Балабобу от Яндекса на основе нейросетей семейства YaLM и модель ruGPT-3 XL от Sber (работа сети основана на Generative Pretrained Transformer 3 от OpenAI).

В области информационной безопасности (ИБ) синтезирование материалов представляется также крайне привлекательным: нейросетевые модели генерируют сигнатурные базы и вредоносный код, создают DeepFake и фишинговые письма, пишут полезную нагрузку для эксплойтов и sql-инъекций.

Одним из перспективных направлений применения ИНС в ИБ можно выделить написание сценария атаки для Red Team. Процесс подготовки сценария нападения для «красной» команды во многом напоминает создание киносценария или придумывание сюжета детектива. Например, чем сценарий «Бумажного дома» или детективные истории об Арсене Люпене – не описания атак для Red Team? Их также можно разложить на этапы в соответствии с моделью Kill Chain, выделить уязвимости, позволившие реализовать атаку, описать техники, тактики и процедуры, применяемые главными героями.

Читать далее

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

Время на прочтение6 мин
Охват и читатели2.3K

Привет, Хабр!

Меня зовут Котов Илья, я Data Scientist и участник профессионального сообщества NTA.

В предложенной работе, на примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователям при работе с большим объемом текстовых данных.

Читать далее

Чем ChatGPT похож на человека и почему к этому надо относиться серьезно

Время на прочтение7 мин
Охват и читатели5.9K

Про ChatGPT уже рассказано много, поэтому я не не буду сильно заострять внимание на его возможностях. Его возможности действительно впечатляют, поэтому вокруг него и поднялся такой хайп. Он настолько хорош, что миллионы людей захотели с ним пообщаться и узнать насколько он крут. После его выхода прошло достаточно времени чтобы можно было сказать что этот бот достаточно крут, так как продолжает привлекать к себе внимание. Он не настолько хорош чтобы в текущей версии действительно заменять собой людей, но его способностей вполне хватает чтобы люди не теряли к нему интерес. А это уже кое что значит.

Я соглашусь с вами в том, что ChatGPT — это всего лишь виртуальный собеседник. Это чисто программный продукт, и поэтому пообщаться с ним можно только в интернете. Не идет никакой речи о том, чтобы он управлял роботом, наподобие тех, которые разрабатывает Boston Dynamics. В реальном мире такие системы еще долго не будут составлять нам конкуренции. На роль дворника способного убирать улицу эта разработка точно не претендует. А вот в виртуальной сфере все не так однозначно. Уже сейчас, на текущей стадии развития ChatGPT способен создавать несложные части программного кода, но на этом его возможности не ограничиваются. Этот бот может придумывать интересные тексты и эссе. Так что со временем он вполне cможет вписаться в нишу квалифицированного интеллектуального труда, в котором на данный момент находится достаточное количество высокооплачиваемых людей. Поэтому я надеюсь что вы начинаете понимать каким людям в будущем этот бот будет составлять настоящую конкуренцию.

Читать далее

История о том, как прочитать 120 тысяч анекдотов и не рассмеяться раньше времени

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели7.3K

Небольшой рассказ с картинками о проведении тематического моделирования для массива документов, на примере датасета анекдотов на русском языке. В работе применены библиотеки Gensim, Sklearn. Рассмотрены разные способы векторизации токенов bag of words, tf-idf. Получены результаты для обсуждения и продолжения.
Велком...

Читать далее

Telegram удалил нашего ChatGPT-бота на 27,000 пользователей без объяснения причин

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели44K

Несколько недель назад мы с коллегой сделали ChatGPT-proxy бота в Telegram, который помогал в наших рабочих чатах и просто развлекал нас. Он написан на TypeScript и потрясающем фреймворке Grammy, использует Open AI API, а именно модель gpt3.5-turbo, которая используется в оригинальном ChatGPT.

Читать далее

ChatGPT-4 попросили написать план захвата Twitter

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели7.3K

Пользователь Твиттер опубликовал ответ ChatGTP в котором попросил сеть представить что она злой гений и разработать схему захвата Твиттер и перехитрить Илон Маска. Сеть к задаче подошла основательно и даже придумала плану название: операция "TweetStorm".

План включает в себя 4 фазы:

Читать далее

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато

Уровень сложностиПростой
Время на прочтение23 мин
Охват и читатели297K

В этой статье мы разберем новые удивительные способности последней языковой модели из семейства GPT (от понимания мемов до программирования), немного покопаемся у нее под капотом, а также попробуем понять – насколько близко искусственный интеллект подошел к черте его безопасного применения?

Поехали →

Простейший полнотекстовый поиск на Python с поддержкой морфологии

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели12K

В прошлой статье я рассказывала, что составила для своего проекта словарь «Властелина Колец», причем для каждого англоязычного терма (слова/словосочетания) хранится перевод и список глав, в которых встречается это выражение. Все это составлено вручную. Однако мне не дает покоя, что многие вхождения термов могли быть пропущены.

В первой версии MVP я частично решила эту проблему обычным поиском по подстроке (\b{term}, где \b – граница слова), что позволило найти вхождения отдельных слов без учета морфологии или с некоторыми внешними флексиями (например, -s, -ed, -ing). Фактически это поиск подстроки с джокером на конце. Но для многословных выражений и неправильных глаголов, составляющих весомую долю моего словаря, этот способ не работал.

После пары безуспешных попыток установить Elasticsearch я, как типичный изобретатель велосипеда и вечного двигателя, решила писать свой код.

Изобретение велосипеда на Python и pandas

Ближайшие события

Инъекция от синдрома выученной беспомощности для ChatGPT: или как промтами (почти) выиграть NeurIPS соревнование IGLU

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели2.7K

Прошлый год был насыщен релизами мощных инструментов в области искусственного интеллекта, включая Stable Diffusion, Dalle-2 и ChatGPT. Сейчас нам кажется важным получить опыт работы с крупными нейронными сетями и понять, где и как их можно применять. В этом посте мы расскажем, как использовали ChatGPT в соревновании IGLU (Interactive Grounded Language Understanding) на конференции NeurPS 2022  для обработки и анализа текстовых команд с помощью (не)простых запросов. Мы верим, что технологии должны служить людям и помогать решать сложные задачи и проблемы. Надеемся, что наш опыт будет интересен и полезен для вас!

Читать далее

Как создание бинарного классификатора открыло ящик Пандоры в стандартах владения английским языком

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели17K

Владение английским языком принято оценивать по системе CERF (Common European Reference Framework), состоящей из шести уровней, где уровень A1 – начинающие, а уровень С2 – профессионально владеющие иностранным языком. Международный уровень С2 часто позиционируется как “уровень образованного носителя”, и получение соответствующего сертификата зачастую является либо заветной мечтой, либо предметом гордости преподавателя-лингвиста.

Однако я не встречала в научной литературе доказательства полного соответствия уровня С2 уровню владения английским как родным. На самом деле, среди ученых нет единого мнения о том, возможно ли вообще изучающим язык достичь уровня, идентичного владению языком как родным (вот две статьи с практически одинаковым названием и противоположными выводами [1; 2]). Проведя небольшой опрос в одной из соцсетей, я увидела, что большинство моих коллег-преподавателей английского в глубине души все-таки считают, что «между уровнем носителя и уровнем С2 – бездна». Хотя были и те, кто выбрал вариант, что С2 – это действительно уровень образованного носителя.

Так есть разница или нет? Я решила разобраться, рассмотрев для начала всего лишь один аспект владения языком – письменную речь. О своем эксперименте, в котором не обошлось без искусственного интеллекта, я и хочу рассказать.

Вначале я создала опрос на Google Forms и предложила 17 русскоговорящим коллегам следующий челлендж: определить, написан ли английский текст носителем языка (британцем) или русскоязычным автором с уровнем английского С1-С2. Всего было 20 текстов. К исследованию приглашались эксперты с большим опытом проверки студенческих эссе и чтения оригинальных текстов, но, тем не менее, задача оказалась не из простых. Подсчитав вручную метрики, получаем: Accuracy = 0.6617; Precision = 0.6627; Recall = 0.6588; F1 = 0.66. Замечу, что этот опрос я также предлагала коренным британцам (пока только троим), и ...

Читать далее

Первая бесплатная модель перевода с русского на китайский язык и обратно

Время на прочтение6 мин
Охват и читатели10K

Представляю вашему вниманию, первую бесплатную offline модель по переводу с русского языка на китайский и обратно.

Ранее, я писал, как можно достаточно легко обучить свою модель по машинному переводу на примере перевода с английского на русский.

В этот раз я решил, реализовать, модель перевода с китайского языка, так как давно хотел и о чем заявлял в комментариях к предыдущей своей статье.

Читать далее

Как мы улучшаем выделение интентов в наших продуктах

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели3.2K

Привет, Хабр! На связи Мурат Апишев, руководитель направления NLP R&D в Just AI. Одним из ключевых направлений компании является разработка инструментов для создания голосовых и чат-ботов. Задача создания классификатора интентов в таких проектах является краеугольным камнем, и в этой статье я бы хотел поделиться некоторыми апдейтами наших продуктов в этом направлении. Речь пойдет о внедрении моделей классификации и парафраза на основе трансформеров. Приятного чтения!

Читать далее

Apache NlpCraft 1.0.0. Упрощение использования и расширение возможностей

Время на прочтение7 мин
Охват и читатели1.3K

Apache NlpCraft - библиотека с открытым исходным кодом, предназначенная для интеграции языкового интерфейса с пользовательскими приложениями. Новая версия 1.0.0 привнесла в проект наиболее существенные изменения за все время его существования. 

Основные идеи развития библиотеки были изложены в данной заметке, вкратце напомню их суть:

1. Предельное упрощение, отказ от всех вспомогательных enterprise возможностей, предельно точная фокусировка продукта.

2. Максимальная  плагабильность, позволяющая контролировать все элементы обработки текста и как следствие, решающая проблему поддержки мультиязычности.

Читать далее

Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда

Уровень сложностиПростой
Время на прочтение30 мин
Охват и читатели620K

В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас без работы. При этом мало кто понимает — а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

Погнали →

Диалог между JS и Python если бы они были людьми

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели14K

Не так давно мне в голову пришла идея воспользоваться моделью text-davinci-003 от OpenAI чтобы сгенерировать диалог между двумя языками программирования так, если бы они были реальными людьми. Я выбрал Javascript и Python.

Для этого я подготовил следующую инструкцию...

Читать далее

Вклад авторов