Александр Севастьянов @SanSanychSeva

Аналитик данных, эксперт по телекому, физик

Profile Publications 2Comments 45Bookmarks 30

badcasedaily1 Dec 7 2023 at 08:06

CatBoost

Easy

11 min

18K

OTUS corporate blogProgramming*Algorithms*

Review

Добрый день, уважаемые читатели Хабра!

CatBoost – алгоритм, разработанный специалистами из Yandex, представляет собой нечто большее, чем просто ещё один инструмент в арсенале данных науки. CatBoost – это гармоничное сочетание инноваций и эффективности, особенно когда дело доходит до работы с категориальными данными.

Первые шаги CatBoost были сделаны в 2017 году, когда мир уже знал о таких гигантах, как XGBoost и LightGBM. В чем же заключается уникальность CatBoost? Его разработка была направлена на решение специфических проблем, связанных с категориальными данными – той самой головной боли многих специалистов в области машинного обучения. С тех пор CatBoost прошёл долгий путь развития и совершенствования, став не просто эффективным инструментом, но и частью больших исследовательских проектов в различных сферах от финансов до биоинформатики.

CatBoost выделяется на фоне других алгоритмов градиентного бустинга благодаря ряду ключевых особенностей:

+14

stalkermustang Sep 18 at 08:00

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Easy

27 min

90K

Open Data Science corporate blogMachine learning*Artificial IntelligenceThe future is hereNatural Language Processing*

Review

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

Давайте выясним →

+252

351

atomlib Aug 31 at 23:59

3 самых очевидных способа вручную обнаружить текст от большой языковой модели

Easy

12 min

47K

Opinion

На написание и публикацию этого текста меня побудила необходимость быстро объяснить, как определять текст от больших языковых моделей (БЯМ). Важно, что речь идёт только про выявление очевидных случаев, а не бронебойное детектирование.

В голове инструкция выглядела как три коротких пункта. Списочек немедленно разросся обширным введением, замечаниями и примерами. Грех этой инструкцией не поделиться.

+99

galqiwi Jul 23 at 12:01

Как развивалась технология экстремального сжатия LLM: от QuIP до AQLM с PV-tuning

4 min

9.1K

Яндекс corporate blogAlgorithms*Machine learning*Artificial IntelligenceOpen source*

Мы живём в эпоху LLM — компании применяют на практике всё более крупные модели с миллиардами параметров. Это здорово, потом что большие модели открывают пользователям сервисов новые возможности, но не всё так просто. Размер накладывает ограничения — запускать такие модели очень дорого, а на пользовательских компьютерах — ещё дороже и сложнее. Поэтому часто исследователи и инженеры сначала обучают большую модель, а потом придумывают, как сжать её с минимальными потерями качества, чтобы сделать доступнее.

Модели выкладываются в формате float16, где на один вес выделяется 16 бит. Два года назад человечество научилось хорошо сжимать нейросети до 4 бит с помощью таких методов, как GPTQ. Но на этом исследователи не остановились, и сейчас актуальная задача — сжатие моделей до 2 бит, то есть в 8 раз.

Недавно исследователи Yandex Research совместно с коллегами из IST Austria и KAUST предложили новый способ сжатия моделей в 8 раз с помощью комбинации методов AQLM и PV-tuning, который уже доступен разработчикам и исследователям по всему миру — код опубликован в репозитории GitHub. Специалисты также могут скачать сжатые с помощью наших методов популярные опенсорс-модели. Кроме того, мы выложили обучающие материалы, которые помогут разработчикам дообучить уменьшенные нейросети под свои сценарии.

О том, как исследователи пришли к сегодняшним результатам, мы расскажем на примере двух «конкурирующих» команд и их state-of-the-art алгоритмов сжатия — QuIP и AQLM. Это короткая, но увлекательная история «противостояния» исследователей, в которой каждые пару месяцев случаются новые повороты, появляются оптимизации и оригинальные подходы к решению проблем.

+44

GolovinDS Jun 10 2023 at 15:37

Классификация аудиофайлов с библиотекой Librosa

Medium

10 min

9.6K

OTUS corporate blogMachine learning*Sound

Review

Привет Хабр! В этой статье поработаем с аудиофайлами, используя библиотеку librosa и алгоритмы Machine learning.

Сначала немного поговорим о том, что такое аудиосигнал. Аудиосигнал представляет собой сложный сигнал, состоящий из нескольких одночастотных звуковых волн, которые распространяются вместе как изменение давления в среде. Каждый аудиосигнал имеет свои определенные характеристики, например, такие как частота, амплитуда, ширина полосы, децибел и т.д. Число волн, производимых сигналом за одну секунду называется частотой. Амплитуда показывает интенсивность звука, то есть является высотой волны.

+13

alitenicole May 15 2023 at 18:47

Событийно-ориентированные приложения с использованием Kafka и Python

10 min

7.6K

Слёрм corporate blogProgramming*IT Infrastructure*IT-companies

Translation

В этом посте мы разработаем и реализуем событийно-ориентированное приложение с использованием Kafka в Python. Для примера мы возьмем заказ мебели в приложении типа IKEA. Это просто пример, а не то, что происходит на самом деле в IKEA.

Мы будем делать приложение на нашем локальном компьютере, но для производственных сред вы можете использовать облачный провайдер, такой как AWS, GCP или Azure.

+11

badcasedaily1 Sep 18 2023 at 18:11

Построение распределенной системы очередей сообщений с RabbitMQ и Python

22 min

19K

OTUS corporate blogPython*Programming*

Распределенные системы — это важная составляющая современных вычислений. Они позволяют нам создавать приложения и сервисы, способные обрабатывать огромные объемы данных, обеспечивать высокую доступность и масштабируемость. Однако, при работе с распределенными системами, существует ряд сложностей и вызовов, которые разработчики должны учитывать.

RabbitMQ — это мощный и гибкий брокер сообщений, который широко используется для создания распределенных систем, поддерживающих обмен данных между различными компонентами приложения. Он был разработан с учетом принципов протокола Advanced Message Queuing Protocol (AMQP), что делает его стандартом в индустрии для обработки сообщений.

+14

ITMan82 Jul 12 2023 at 12:45

На наших глазах ИИ убивает старый интернет. Но новый обещает быть хуже

12 min

69K

ГК ITGLOBAL.COM corporate blogThe future is hereArtificial IntelligenceIT-companies

Если вы сидели в Интернете в последний год, то могли заметить, что он быстро меняется. И этот снежный ком летит с горы с возрастающей скоростью.

Google хочет убить свои стандартные 10 синих ссылок (заменив их выдачей данных из чатбота Bard). Твиттер умирает под давлением ботов и синих галочек. Amazon захламляется ИИ-книгами, которые сейчас доминируют в списке бестселлеров, а также фальшивыми отзывами и прочим мусором. Большие проблемы с контентом и рекламодателями испытывает TikTok.

Массовые увольнения захватывают интернет-СМИ. В вакансии от «ИИ-редактора» ожидается «выпуск от 200 до 250 статей в неделю». ChatGPT используется для создания целых сотен спам-сайтов, на которых, ничего не подозревая, через Google Ads рекламируются бренды. Etsy наводнен «мусором, созданным искусственным интеллектом».

Чатботы цитируют друг друга в каком-то дезинформационном уроборосе. LinkedIn использует искусственный интеллект для симуляции сообщений рекрутеров (чтобы создать персонализированное сообщение теперь не нужно тратить ни секунды времени — привет, официально одобренный спам!). Но и это ещё не предел. Snapchat и Instagram рассчитывают, что боты скоро будут разговаривать с вами, когда этого не делают ваши друзья. Реддиторы устраивают забастовки. Бастуют моды Stack Overflow. Интернет-архив борется со считывателями данных, выдающих десятки тысяч запросов в секунду. А еще «ИИ разрывает Википедию на части».

В общем, старая сеть умирает, а новая сеть изо всех сил пытается родиться. И мы уже видим её общие очертания.

+145

717

varanio Apr 17 2019 at 21:48

Понимание джойнов сломано. Это точно не пересечение кругов, честно

4 min

337K

PostgreSQL*SQL*Programming*Website development*

Так получилось, что я провожу довольно много собеседований на должность веб-программиста. Один из обязательных вопросов, который я задаю — это чем отличается INNER JOIN от LEFT JOIN.

Чаще всего ответ примерно такой: "inner join — это как бы пересечение множеств, т.е. остается только то, что есть в обеих таблицах, а left join — это когда левая таблица остается без изменений, а от правой добавляется пересечение множеств. Для всех остальных строк добавляется null". Еще, бывает, рисуют пересекающиеся круги.

Я так устал от этих ответов с пересечениями множеств и кругов, что даже перестал поправлять людей.

Дело в том, что этот ответ в общем случае неверен. Ну или, как минимум, не точен.

Читать дальше →

+97

227

TyVik Jun 2 2023 at 10:15

Что делает ChatGPT… и почему это работает?

Medium

75 min

156K

Algorithms*Machine learning*Artificial IntelligenceNatural Language Processing*

Translation

То, что ChatGPT может автоматически генерировать что-то, что хотя бы на первый взгляд похоже на написанный человеком текст, удивительно и неожиданно. Но как он это делает? И почему это работает? Цель этой статьи - дать приблизительное описание того, что происходит внутри ChatGPT, а затем исследовать, почему он может так хорошо справляться с созданием более-менее осмысленного текста. С самого начала я должен сказать, что собираюсь сосредоточиться на общей картине происходящего, и хотя я упомяну некоторые инженерные детали, но не буду глубоко в них вникать. (Примеры в статье применимы как к другим современным "большим языковым моделям" (LLM), так и к ChatGPT).

+248

121

xo4y_B_BostonDynamics Mar 26 2023 at 15:04

Учим ChatGPT говорить и слушать

Medium

1 min

15K

Artificial IntelligenceAPI*Programming*Python*Open source*

Tutorial

В этой мини статье я покажу как на компьютере при помощи Python3 дать возможность ChatGPT слушать вас и отвечать на вопросы без использования клавиатуры и дисплея.

Aleksandra-Belova Mar 18 2023 at 21:59

Ошибки начинающего аналитика при обработке данных на Python: 4 всадника апокалипсиса

Easy

8 min

Python*

Саша начинает свой карьерный путь в качестве аналитика. Директор ставит задачу: подготовить отчёт по эффективности сотрудников. Саша решает выполнять задачу с помощью Python. У аналитика есть минимальный опыт программирования.

Саша выгружает данные по первому отделу из таск трекера и пишет код для обработки данных. Код работает, хоть и состоит на 70% из неуниверсальных полуавтоматизированных фрагментов. При выгрузке данных по другим подразделениям формат файла меняется. Код требует постоянных ручных изменений, а срок сдачи отчёта поджимает.

Эта статья о том, какие ошибки допускает Саша при написании кода и как исправляет их. Расскажем, как сделать код более универсальным, чтобы он подходил к меняющимся файлам. Статья подойдёт для начинающих аналитиков, которые только знакомятся с Python.

honyaki Mar 15 2023 at 19:05

Вот что такое искусственный интеллект по мнению изобретателя байесовских сетей

Easy

8 min

8.8K

Skillfactory corporate blogInterviewArtificial IntelligenceMathematics*Reading room

Interview

Translation

Искусственный интеллект во многом обязан своими достижениями Джуде Перлу. В 1980-х он руководил работами, которые позволили машинам развить способности к вероятностному рассуждению. Сегодня Джуда Перл — один из самых ярых критиков в этой области. В своей последней книге «Почему? Новая наука о причинно-следственной связи» (англ. The Book of Why)? он утверждает, что [настоящему] искусственному интеллекту препятствует неполное понимание того, что на самом деле представляет собой интеллект. За ответами — к старту флагманского курса по Data Science — приглашаем под кат.

Читать дальше →

kucev Mar 13 2023 at 09:20

Десять самых распространённых проблем с качеством данных и способы их устранения

5 min

Data Mining*System Analysis and Design*Data visualization*Data storage*

Translation

Введение

Данные стали основой всех бизнесов мира. В процессе принятия решений организации сильно полагаются на свои ресурсы данных, но, к сожалению, «на 100% чистых и точных данных» не существует. На данные влияют различные факторы, снижающие их качество. По словам специалистов, лучшим способом борьбы с проблемами данных является выявление их первопричин и внедрение новых процессов для повышения их качества. В этой статье рассказывается о распространённых проблемах с качеством данных и об оптимальных способах их устранения. Но сначала давайте разберёмся, почему важно знание этих проблем и как они могут влиять на ведение бизнеса.

Читать дальше →

kurpenok Mar 12 2023 at 13:02

Работа памяти в Python

Easy

2 min

9.5K

Python*

From sandbox

Python - интерпретируемый язык программирования, поэтому перед выполнением код транслируется в машиночитаемые инструкции - байт-код. Байт-код интерпретируется виртуальной машиной, определяемой реализацией языка, например, стандартной - CPython.

Python не взаимодействует с памятью - только с её виртуальным представлением. В процессе выполнения программы операционная система создаёт процесс и выделяет под него ресурсы. В отличие от С/С++ мы не можем управлять памятью из кучи напрямую, а делаем это посредством memory manager, который и обращается к памяти через Python/C API.

-6

jayatsea Mar 12 2023 at 14:05

Как создание бинарного классификатора открыло ящик Пандоры в стандартах владения английским языком

Medium

5 min

17K

Machine learning*Learning languagesNatural Language Processing*Python*Artificial Intelligence

From sandbox

Владение английским языком принято оценивать по системе CERF (Common European Reference Framework), состоящей из шести уровней, где уровень A1 – начинающие, а уровень С2 – профессионально владеющие иностранным языком. Международный уровень С2 часто позиционируется как “уровень образованного носителя”, и получение соответствующего сертификата зачастую является либо заветной мечтой, либо предметом гордости преподавателя-лингвиста.

Однако я не встречала в научной литературе доказательства полного соответствия уровня С2 уровню владения английским как родным. На самом деле, среди ученых нет единого мнения о том, возможно ли вообще изучающим язык достичь уровня, идентичного владению языком как родным (вот две статьи с практически одинаковым названием и противоположными выводами [1; 2]). Проведя небольшой опрос в одной из соцсетей, я увидела, что большинство моих коллег-преподавателей английского в глубине души все-таки считают, что «между уровнем носителя и уровнем С2 – бездна». Хотя были и те, кто выбрал вариант, что С2 – это действительно уровень образованного носителя.

Так есть разница или нет? Я решила разобраться, рассмотрев для начала всего лишь один аспект владения языком – письменную речь. О своем эксперименте, в котором не обошлось без искусственного интеллекта, я и хочу рассказать.

Вначале я создала опрос на Google Forms и предложила 17 русскоговорящим коллегам следующий челлендж: определить, написан ли английский текст носителем языка (британцем) или русскоязычным автором с уровнем английского С1-С2. Всего было 20 текстов. К исследованию приглашались эксперты с большим опытом проверки студенческих эссе и чтения оригинальных текстов, но, тем не менее, задача оказалась не из простых. Подсчитав вручную метрики, получаем: Accuracy = 0.6617; Precision = 0.6627; Recall = 0.6588; F1 = 0.66. Замечу, что этот опрос я также предлагала коренным британцам (пока только троим), и ...

+52

UtrobinMV Sep 22 2022 at 12:21

Как создать переводчик, который переводит лучше, чем Google Translate

8 min

30K

Data Engineering*Natural Language Processing*Artificial IntelligenceMachine learning*Data Mining*

Tutorial

Data Mining Season

Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

В этот раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.

+61

volinski Mar 9 2023 at 11:53

Инструменты для MLOps: выбираем между вендорскими и Open Source-решениями

9 min

5.2K

VK corporate blogBig Data*Machine learning*

Review

MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров ML в производственной среде. По мере развития MLOps-инструментов для работы с ним становится больше — как проприетарных, так и Open Source. Из этого разнообразия часто сложно выбрать стек для своего проекта.

Меня зовут Александр Волынский, я технический менеджер Cloud ML Platform в VK Cloud. В этой статье я сравню подходы к работе с MLOps на основе Open Source и проприетарного ПО и расскажу, какие инструменты и почему мы выбрали для Cloud ML Platform.

Читать дальше →

+42

PatientZero Mar 9 2023 at 09:54

Мы обнаружили в GPT-2 нейрон конкретного токена

10 min

15K

Artificial IntelligenceMathematics*Machine learning*

Translation

Мы начали с вопроса: откуда GPT-2 знает, когда использовать слово an, а не a? Выбор зависит от того, начинается ли следующее за ним слово с гласной, однако GPT-2 может прогнозировать только одно слово за раз.

У нас по-прежнему нет полного ответа, однако мы нашли нейрон MLP в GPT-2 Large, который необходим для прогнозирования токена " an". Также мы выяснили, что веса этого нейрона соотносятся с эмбеддингом токена " an", что позволило нам найти другие нейроны, прогнозирующие конкретный токен.

Читать дальше →

+29

adalan Mar 5 2023 at 18:57

Собеседование в QA или Кошки-Мышки XXI века

13 min

26K

IT careerPersonnel Management*Web services testing*IT systems testing*

From sandbox

За последние несколько лет на рынке появилось множество школ, обещающих вход в IT без профильного образования и золотые горы «без регистрации и смс». Все, что для этого нужно – пройти 2-3х месячный курс, на котором тебе расскажут все про тестирование, научат автоматизации тестирования, помогут с составлением резюме, портфолио, и подготовят к прохождению собеседования.

И вот на рынке появляются сотни, если не тысячи резюме вчерашних выпускников курсов, с одинаковыми резюме, одинаковыми заявленными скиллами, инструментами. Кто-то даже с опытом работы в IT.

Так как же понять, кто из кандидатов действительно хорош?

+11

CatBoost

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

3 самых очевидных способа вручную обнаружить текст от большой языковой модели

Как развивалась технология экстремального сжатия LLM: от QuIP до AQLM с PV-tuning

Классификация аудиофайлов с библиотекой Librosa

Событийно-ориентированные приложения с использованием Kafka и Python

Построение распределенной системы очередей сообщений с RabbitMQ и Python

На наших глазах ИИ убивает старый интернет. Но новый обещает быть хуже

Понимание джойнов сломано. Это точно не пересечение кругов, честно

Что делает ChatGPT… и почему это работает?

Учим ChatGPT говорить и слушать

Ошибки начинающего аналитика при обработке данных на Python: 4 всадника апокалипсиса

Вот что такое искусственный интеллект по мнению изобретателя байесовских сетей

Десять самых распространённых проблем с качеством данных и способы их устранения

Введение

Работа памяти в Python

Как создание бинарного классификатора открыло ящик Пандоры в стандартах владения английским языком

Как создать переводчик, который переводит лучше, чем Google Translate

Инструменты для MLOps: выбираем между вендорскими и Open Source-решениями

Мы обнаружили в GPT-2 нейрон конкретного токена

Собеседование в QA или Кошки-Мышки XXI века

Information

Specialization