Статьи / Профиль perevalov

Александр Перевалов @perevalov_a

Researcher in NLP, IR, and Web Engineering

Профиль Публикации 22Комментарии 23Закладки 1

perevalov_a 18 июл в 22:51

OpenAI представила GPT-4o mini и мы её уже внедрили

Простой

3 мин

8.6K

Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Обзор

Сегодня нас порадовали очередные горячие новости из мира ИИ! Open AI представили GPT-4o mini — новую доступную и высокоинтеллектуальную «маленькую» языковую модель, которая значительно умнее, дешевле и так же быстра, как GPT-3.5 Turbo. Недолго думая, мы внедрили и протестировали новую модель на своих задачах. Результаты внизу.

perevalov_a 15 июл в 15:09

Эволюция языковых моделей для генерации текста с высоты птичьего полёта

Средний

8 мин

2.5K

Машинное обучение*История ITИскусственный интеллект

FAQ

Перевод

В этой статье я хотел бы поделиться своими заметками о том, как языковые модели развивались в последние десятилетия. Этот текст может послужить туториалом для новичков и помочь понять ключевые концепции языковых моделей на протяжении их истории. Стоит отметить, что я не углубляюсь в детали реализации и математические аспекты, однако уровень описания достаточен для правильного понимания эволюции LMs.

+11

perevalov_a 13 мая в 23:46

OpenAI релизнула GPT-4o и мы её уже внедрили

Простой

3 мин

45K

Машинное обучение*Искусственный интеллектNatural Language Processing*

Обзор

13 мая 2024 года запомнится как важная веха в мире искусственного интеллекта. OpenAI провела долгожданное обновление, представив GPT-4o и множество улучшений для ChatGPT. Эти новинки имеют все шансы изменить то, как мы взаимодействуем с ИИ в повседневной жизни. Мы уже успели внедрить новую модель и протестировали как она работает.

perevalov_a 20 мар в 15:00

Мультимодальный AI Ассистент в Telegram: Как это работает?

Простой

5 мин

5.1K

Я пиарюсь

Вот уже больше полутора лет генеративный искусственный интеллект (ИИ) не даёт покоя не только разработчикам, но и, порой далёким от цифрового мира, пользователям. Для одних — ИИ не более чем игрушка или развлечение, для других же — неотъемлемая часть рабочего процесса. Как я уже говорил в одной из предыдущих статей, считаю генеративный ИИ следующей ступенью технологической эволюции, новым техноукладом, и очередным успехом в автоматизации труда некоторых профессий, однако, речи о замене нас с вами быть не может. Давайте теперь поговорим об этой самой автоматизации: чем именно и в каком виде ИИ может нам помочь?

perevalov_a 26 фев в 12:35

В мире незавершённых задач: почему важно доводить дела до конца?

Простой

7 мин

7.9K

Учебный процесс в ITGTD*

Всё в этой жизни имеет своё начало и конец, это как с хорошей книжкой. Подумайте о том моменте, когда вы берётесь за новый проект, начинаете осваивать новый танцевальный экзерсис или пытаетесь впервые сыграть мелодию на фортепиано двумя руками вместо одной. В каждом из этих случаев мы что-то начинаем с определённой целью и желаемым результатом, даже если не всегда осознаём это. Словно наш внутренний ответ на призыв к приключениям, вне зависимости от того, исходил ли он от нас самих или из вне, мы открываемся новым переживаниям и часто узнаём интересные вещи, о существовании которых даже не подозревали!

perevalov_a 6 фев в 20:16

Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем

Средний

7 мин

1.3K

Python*Машинное обучение*Научно-популярноеИскусственный интеллект

Обзор

Машинный перевод может улучшить существующие вопросно‑ответные системы (англ. Question Answering — QA), которые имеют ограниченные языковые возможности, позволяя им поддерживать несколько языков. Однако у машинного перевода есть один основной недостаток: часто такие системы не справляются с переводом именованных сущностей, которые нельзя перевести дословно. Например, немецкое название фильма «The Pope Must Die» переводится как «Ein Papst zum Küssen», что дословно означает «Папа для поцелуев». На Русском языке название фильма звучит так: «Папа должен похудеть». Поскольку правильность именованных сущностей критична для вопросно‑ответных систем, необходимо как можно лучше обеспечить правильность их перевода. В данной статье я представляю наш метод машинного перевода, учитывающий именованные сущности, под названием «Lingua Franca». Он использует графы знаний для использования хранящейся там символьной информации с целью обеспечения правильности перевода именованных сущностей. И да, это работает!

perevalov_a 21 сен 2023 в 11:30

Как мы сделали свою ChatGPT Plus с голосовым вводом, чтением PDF, Youtube, и т.д

Простой

4 мин

7.2K

Машинное обучение*Искусственный интеллектМессенджеры*

Кейс

Не секрет, что ChatGPT это очень эффективный инструмент, который помогает как в обычной жизни, например, чтобы узнать рецепт борща, так и в профессиональной сфере: от копирайтеров и инста-блоггеров до программистов.

Вместе с тем, аналогов ChatGPT не так много, а её доступность в России ограничена. Более того, подписка на ChatGPT Plus и вовсе платная, стоит, кстати, довольно ощутимых денег.

-1

perevalov_a 9 сен 2023 в 12:44

Заблокирован ли протокол OpenVPN? И как теперь быть?

Простой

3 мин

113K

Информационная безопасность*Серверное администрирование*Веб-аналитика*DIY или Сделай сам

Кейс

Один мой знакомый держит свой OpenVPN сервер, он поделился со мной хронологией блокировки популярных VPN протоколов в России. С его разрешения, я публикую детальную информацию о том, как это происходило с точки зрения клиента и администратора OpenVPN.

perevalov_a 9 июл 2023 в 15:53

Почему ChatGPT нас (полностью) не заменит

Простой

5 мин

4.8K

Машинное обучение*Исследования и прогнозы в IT*Карьера в IT-индустрииИскусственный интеллектБудущее здесь

Мнение

Примечание: этот текст не был написан ChatGPT.

В последнее время технологии искусственного интеллекта (ИИ), включая генеративные нейронные сети, стали все более распространенными среди широких масс. Одним из самых продвинутых и широко известных примеров является ChatGPT, созданный на базе GPT-3.5 архитектуры, которая позволяет ему обрабатывать и анализировать естественный язык и давать точные и часто неожиданные ответы на разнообразные вопросы. ChatGPT может быть использован во многих областях, включая образование, здравоохранение, банковское дело и многие другие.

Несмотря на все его возможности, и вопреки многочисленным репликам в интернете, ChatGPT, как и любая другая «умная программа», не может полностью заменить человека на его рабочем месте. В этой статье мы порассуждаем на тему того, почему труд человека останется актуальным.

-2

118

perevalov_a 22 дек 2022 в 13:07

Средства производства программиста

6 мин

9.6K

Развитие стартапаКарьера в IT-индустрииУдалённая работа

Бытует распространённое мнение о том, что современный программист это некий новый общественный класс, имеющий безграничную свободу в плане производственных отношений. Причём, под "программистом" можно понимать эдакого абстрактного работника сферы ИТ, например, сисадмина, тестировщика или аналитика. Культ свободы в ИТ-сфере стал особенно актуальным с началом "пандемии", когда многие работодатели начали охотнее разрешать работать из дома. Безусловно, работа в ИТ чаще чем другие сферы подразумевает гибкий график, "удалёнку", относительно высокую зарплату и другие приятные вещи. Однако, не стоит забывать, что все вышеперечисленные бонусы в большинстве своём касаются только "чистых" ИТ-предприятий. Например, сложно представить программиста, устроенного на заводе или серьёзном госпредприятии, который постоянно работает из дома или из-за рубежа и приходит на работу когда хочет.

perevalov_a 3 ноя 2022 в 14:14

Политическая экономия Facebook*

12 мин

1.3K

Монетизация IT-систем*Исследования и прогнозы в IT*Веб-аналитика*Интернет-маркетинг*Бизнес-модели*

Перевод

* Компания Meta Platforms Inc., владеющая социальными сетями Facebook, признана экстремистской организацией, ее деятельность на территории России запрещена.

В данном посте я представлю перевод главы одной статьи случайно попавшейся мне на глаза. Статья называется "The Political Economy of Privacy on Facebook" (Политическая экономия конфиденциальности на Facebook), автор Christian Fuchs (Кристиан Фукс, Швеция) опубликовал её ещё в 2012 году, однако, мне показалось, что её содержание достаточно актуально и интересно продвинутым пользователям Сети. В статье автор даёт определение понятию конфиденциальность (privacy) в общем случае, а также применяет его на примере функционирования Facebook. Я бы хотел остановиться на одной из глав, одноимённой с названием данного поста — The Political Economy of Facebook (Политическая экономия Facebook). Автор, используя термины политической экономии и теории Маркса, описывает отношения между пользователями, сотрудниками и бенефициарами компании Facebook. Несмотря на то, что автор повествует о модели конкретной компании, я считаю, что она может быть применима ко многим современным социальным сетям и онлайн платформам, созданных по типу Web 2.0, где пользователи генерируют контент.

perevalov_a 10 сен 2022 в 18:01

Financial News Sentiment Dataset: определяем точку входа в акции по настроению новостей

5 мин

6.6K

Python*Финансы в ITNatural Language Processing*

Набор данных Financial News Sentiment Dataset (FiNeS) содержит в себе заголовки финансовых новостей о компаниях, торгующихся на Московской и СПб биржах. Целевой переменной датасета является оценка тональности новостных заголовков в виде вещественного числа. Идеи для использования датасета: Создание трейдинговых стратегий на основе анализа тональности новостей "на лету"; Анализ новостного фона в разрезе времени (день/неделя) или в разрезе компании.

+12

perevalov_a 3 мая 2022 в 18:28

Лингвистические особенности речи человека в диалогах с виртуальным ассистентом

5 мин

2.4K

Python*Машинное обучение*Искусственный интеллект

Зачастую, для создания виртуальных ассистентов используются подходы на основе машинного обучения и, конечно, подходы на основе правил. Оба (в большей степени машинное обучение) полагаются на исходные данные, которыми обычно являются человеческие диалоги. При этом, не учитывается фактор того, что пользователи диалоговых систем не будут общаться с ними так же как с реальными людьми.

perevalov_a 3 фев 2022 в 22:12

Проблема многоязычности Question Answering over Knowledge Graphs и новый датасет QALD-9-Plus, способный её решить

6 мин

1.8K

Машинное обучение*Искусственный интеллектData Mining*

Для разнородных групп пользователей (прим. язык, возраст), возможность одинаково эффективно взаимодействовать с веб-приложениями является одним из важнейших факторов такого понятия как "доступность" (англ. Accessibility). Это относится и к системам автоматического ответа на вопросы с использованием графов знаний (англ. Knowledge Graph Question Answering, KGQA), которые обеспечивают доступ к данным Семантической паутины (англ. The Semantic Web) через интерфейс на естественном языке. В ходе работы над такой темой, как многоязычная доступность KGQA-систем, мы с коллегами выявили несколько наиболее острых проблем. Одной из которых является отсутствие многоязычных бенчмарков для KGQA.

В этой статье мы улучшаем один из самых популярных бенчмарков для KGQA -- QALD-9, путем создания эталонных переводов вопросов из исходного датасета на 8 различных языков (немецкий, французский, русский, украинский, белорусский, армянский, башкирский, литовский). Одним из самых важных аспектов является то, что переводы были предоставленны и провалидированы носителями соответствующего языка. Пять из этих языков - армянский, украинский, литовский, башкирский и белорусский - насколько нам известно, никогда ранее не рассматривались в рамках KGQA-систем. А два языка (башкирский и белорусский) рассматриваются ЮНЕСКО как "находящиеся под угрозой исчезновения". Мы назвали новый расширенный датасет "QALD-9-plus". Датасет доступен онлайн.

perevalov_a 3 ноя 2021 в 15:35

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

4 мин

1.8K

Поисковые технологии*Семантика*API*Машинное обучение*Голосовые интерфейсы*

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

perevalov_a 4 апр 2021 в 18:36

Как мы не сделали стартап в сфере телемедицины

2 мин

3.9K

Python*Развитие стартапаИскусственный интеллектПрезентацииТелемедицина

В 2019 году я и мой товарищ решили сделать проект под названием "Polyclinica". Его основной идеей было перенаправить трафик людей, "гуглящих" свои симптомы в приложение-чатбот (a.k.a симптом-чекер), рекомендующий пользователю врача, к которому стоит обратиться. К врачу также можно записаться прямо на сайте через интеграцию API https://docdoc.ru/. Мы разработали полноценный MVP, выступали на нескольких стартап-конференциях, но что-то пошло не так. Цель написания данной статьи -- проанализировать свои ошибки и получить обратную связь от компетентных читателей.

-9

perevalov_a 19 мар 2021 в 18:16

FAQ чатбот COVID-19 — спустя год

3 мин

1.4K

Natural Language Processing*Голосовые интерфейсы*Будущее здесьОткрытые данные*

Около года назад я решил написать чат-бота, который отвечает на часто задаваемые вопросы о COVID-19. В тот момент многим показалось, что моя идея не более чем хайп, который спустя короткий промежуток времени потухнет. Однако, оказалось, что спустя год, данная тема только набирает обороты. В этой статье я расскажу о том, как мы создавали чат-бот для консультации по вопросам COVID-19 по просьбе МВД (BMI) Германии, а также выражу идею о создании аналогичного проекта в России.

-5

perevalov_a 26 мар 2020 в 13:29

COVID-19 Telegram-бот // Отвечаем на FAQ вопросы автоматически

7 мин

7.3K

Data Mining*Python*Машинное обучение*

В контексте всеобщего хайпа на Коронавирусе, я решил сделать хоть что-нибудь полезное (но не менее хайповое). В данной статье я расскажу о том, как за 2.5 часа (именно столько у меня ушло) создать и развернуть Telegram Бота с использованием Rule-Based NLP методов, отвечающего на FAQ-вопросы на примере с кейсом COVID-19.

В ходе работы, мы будем использовать старый добрый Python, Telegram API, пару стандартных NLP-библиотек, а также Docker.

Читать дальше →

perevalov_a 9 мар 2020 в 12:21

Как программисту написать диплом. Полное руководство

6 мин

46K

IT-стандарты*Научно-популярноеПрофессиональная литература*Учебный процесс в IT

Туториал

Всем привет, меня зовут Александр и в этом году я заканчиваю магистратуру.

Так получилось, что сейчас я пишу 2 диплома или, правильнее сказать, 2 магистерских диссертации одновременно: одну на русском языке по российским стандартам, а вторую — на английском языке по немецким стандартам. Почему так получилось, я расскажу как нибудь потом (совсем другая история), а сейчас, я бы хотел поделиться своими знаниями в области написания работ бакалавров и магистерских диссертаций в преддверии летних защит.

Читать дальше →

-5

perevalov_a 9 июл 2019 в 15:34

Как студенты из Перми попали в финал международного чемпионата по анализу данных Data Mining Cup 2019

5 мин

3.7K

Big Data*Data Mining*Python*Визуализация данных*Машинное обучение*

Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.

Читать дальше →

+11

OpenAI представила GPT-4o mini и мы её уже внедрили

Эволюция языковых моделей для генерации текста с высоты птичьего полёта

OpenAI релизнула GPT-4o и мы её уже внедрили

Мультимодальный AI Ассистент в Telegram: Как это работает?

В мире незавершённых задач: почему важно доводить дела до конца?

Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем

Как мы сделали свою ChatGPT Plus с голосовым вводом, чтением PDF, Youtube, и т.д

Заблокирован ли протокол OpenVPN? И как теперь быть?

Почему ChatGPT нас (полностью) не заменит

Средства производства программиста

Политическая экономия Facebook*

Financial News Sentiment Dataset: определяем точку входа в акции по настроению новостей

Лингвистические особенности речи человека в диалогах с виртуальным ассистентом

Проблема многоязычности Question Answering over Knowledge Graphs и новый датасет QALD-9-Plus, способный её решить

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Как мы не сделали стартап в сфере телемедицины

FAQ чатбот COVID-19 — спустя год

COVID-19 Telegram-бот // Отвечаем на FAQ вопросы автоматически

Как программисту написать диплом. Полное руководство

Как студенты из Перми попали в финал международного чемпионата по анализу данных Data Mining Cup 2019

Информация

Специализация