randall 18 янв 2024 в 18:37

Прокачиваем навыки в сфере ML — что изучать в 2024-м

Простой

6 мин

17K

Блог компании MWSБлог компании МТСПрофессиональная литература*Машинное обучение*Искусственный интеллект

Обзор

Бизнесу нужны технологии, способные обрабатывать огромные объемы данных, предоставлять релевантные рекомендации, оценивать финансовую надежность клиентов и обеспечивать эффективный поиск информации. Ключевым элементом для автоматизации рутинных задач и создании бизнес-решений на основе данных становится ML.

Ритейл, банки, технологические предприятия, компании-разработчики и все те, кто собирает большие массивы неструктурированных данных, для запуска сложных моделей могут использовать вычислительные ресурсы облака. Например, строить нейросети с помощью ML-платформы или использовать объектное хранилище для обработки Big Data.

Но чтобы грамотно использовать инструменты для работы с AI- и ML-задачами, нужно приобрести необходимо знания и навыки. Поможет разобраться в машинном обучении и инструментах для работы с ML-моделями подборка новых и высокооцененных специализированных курсов, книг и других тематических материалов.

Руководство по NLP: обработка естественного языка

Начнем с материалов, которые помогут разобраться в общих принципах обработки текстовых данных. Так, интерактивный курс Advanced NLP with spaCy посвящен одной из наиболее востребованных Python-библиотек для обработки естественного языка, синтаксического парсинга и распознавания именованных сущностей (NER).

Сегодня spaCy представляет собой серьезный аналитический инструмент. Его применяют не только корпоративные команды разработки, но и сотрудники научных институтов для проведения исследований, поэтому эта библиотека — частый гость в публикациях профильных журналов.

Так, статья «A Contextual Model for Information Extraction in Resume Analytics Using NLP’s Spacy» описывает ML-модель, обученную с применением spaCy, которая обрабатывает резюме и выявляет подходящих на ту или иную должность кандидатов. Другая группа инженеров опубликовала работу «Named Entity Recognition for Rental Documents Using NLP», в которой использовала spaCy для извлечения информации об арендаторе и арендодателе из юридических документов.

Что касается курса Advanced NLP with spaCy, то стоящим внимания его делает биография автора. Его представила разработчица библиотеки spaCy и основательница компании Explosion, которая проектирует специализированные решения для разметки данных и обучения языковых моделей (например, prodigy).

В целом материал разбит на несколько частей. Первая посвящена основам обработки текста, структурам данных и настройке пайплайнов для обучения языковых моделей. Вторая глава учит ориентироваться в больших текстах и извлекать из них необходимую информацию, а третья — писать собственные компоненты и добавлять их в пайплайн.

Заключительный раздел закрепляет полученные знания на практике и посвящен тренировке ML-моделей. Задания выполняются на сайте во встроенном терминале (он проверяет исполнение команд на лету). Если решить задачу не получается, можно запросить подсказку или в крайнем случае подсмотреть правильный ответ.

Количественный анализ текста

Более традиционный формат обучения представлен в курсе Text Mining for Social Scientists — это руководство по анализу текстовых данных для тех, кто занимается экономикой, социологией, политологией и другими общественными науками. Обработка текстовых материалов с помощью вычислительных систем позволяет проводить масштабные исследования на основе текстов новостей, административных документов, авторских колонок, постов в соцсетях и корпоративных документов.

Автор курса по текстовому майнингу — кандидат социологических наук и магистр вычислительных социальных наук, который в своих исследованиях опирается на текстовые данные из социальных сетей и использует их для обучения ML-моделей. Он написал Text Mining for Social Scientists для студентов вуза, где преподает. По этой причине материал структурирован по аналогии с классическим учебником и опирается на язык R, который часто используют для количественного анализа.

Пособие содержит теоретические выкладки, ссылки на источники и примеры кода. В конце глав приведены задания с решениями. Отдельные разделы посвящены предварительной подготовке текстовых материалов, сентимент-анализу, работе с уже упомянутой библиотекой spaCy, а также обучению моделей на размеченных и неразмеченных данных.

Обработка естественного языка для семантического поиска

Желающим погрузиться в более комплексные методы анализа текста стоит обратить внимание на курс Natural Language Processing for Semantic Search. Его подготовили сотрудники компании, которая разрабатывает одноименную векторную базу данных для систем ИИ. Она ускоряет поиск и обработку векторов отдельных слов, предложений и документов в больших сводах текстовой информации. Учитывая профиль авторов, курс научит строить языковые модели для реализации семантического поиска, рекомендательных и вопросно-ответных (QA) систем.

На данный момент доступно 13 уроков. Они включают в себя теорию с богатым иллюстративным материалом и примерами кода. Первый урок посвящен векторному представлению текстовых данных. Авторы объясняют, что такое плотные векторы и с помощью каких инструментов их генерировать. Далее они переходят к прикладным темам — например, работе трансформеров и аугментации текстовых данных.

NLP с Transformers, Datasets, Tokenizers и Accelerate

Курс по NLP от Hugging Face поможет освоиться с библиотеками из экосистемы сообщества и познакомит с трансформерами, датасетами и токенизаторами. Отдельные разделы посвящены обзору моделей seq2seq и тонкой настройке предварительно обученных моделей с помощью Keras.

В каждой главе присутствуют небольшие практические задания — например, в одном из них необходимо спроектировать многоязычный датасет на основе корпусов текстов от Common Crawl.

Некоторые уроки записаны в формате коротких видеолекций, но большая часть состоит из текста и примеров кода. Также есть глава, посвященная обмену готовыми моделями в рамках площадки The Hugging Face Hub.

Материалы курса написали девять экспертов по ML, которые активно участвуют в жизни сообщества Hugging Face. Так, один из них защитил кандидатскую по прикладному машинному обучению в Стэндфордском университете и разработал открытую библиотеку Gradio для запуска веб-приложений с моделями машинного обучения.

Курс подойдет даже тем, кто не понимает английский. Материалы переведены на разные языки, в том числе на русский. Однако стоит отметить, что для прохождения уроков необходимо знание Python. Знакомство с фреймворками глубокого обучения PyTorch или TensorFlow также будет плюсом.

В то же время участники сообщества Hugging Face отмечают, что начинающим специалистам стоит предварительно пройти ознакомительный курс Practical Deep Learning for Coders от fast.ai или любую программу, подготовленную DeepLearning.AI.

Мягкое погружение в машинное обучение

В этой части поговорим о книгах, в которых доступно объясняют фундаментальные понятия из сферы машинного обучения. Начнем с пособия The Machine Learning Simplified (2022). Его автор использует понятные примеры для объяснения ключевых концепций, алгоритмов и методов. В ходе повествования он постепенно переходит от простых примеров к более комплексным.

В первой части — дает основные термины (от систем ИИ и data science до глубокого обучения и проч.), во второй — разъясняет сложные понятия, такие как логистическая регрессия, байесовское моделирование, древовидная структура данных. Вторая часть еще не опубликована полностью — новые главы выходят постепенно, и их можно изучать по мере выпуска.

Автор книги — MLOps-инженер. Его опыт преподавания в сфере ML показал, что вводные материалы по машинному обучению написаны либо наукообразно и непонятно для начинающих, либо, наоборот, слишком упрощенно и без конкретики. Поэтому он разработал свой учебник, в котором попытался простыми словами рассказать об основах ML. В отзывах на книгу пишут о четкой структуре, объяснении сложных процессов с помощью простых примеров. В начале каждой главы автор дает ее краткое содержание и раскрывает ключевые понятия — такой подход позволяет не тратить время на прочтение уже знакомой информации.

Введение в алгоритмы и машинное обучение

Еще одна книга, предназначенная для новичков в теме ML — Introduction to Algorithms and Machine Learning (2022). Она была написана в поддержку курса по компьютерным наукам Eurisko для старшеклассников из школы Пасадены. Ее программа считается одной из наиболее насыщенных, наравне с программами престижных технических вузов вроде MIT. Автор книги — разработчик и преподаватель в MathAcademy, сервисе для изучения высшей математики. Он считает устоявшиеся подходы к обучению компьютерным наукам скучными и неэффективными, поэтому разрабатывает математические курсы и учебники, которые могут решить эту проблему.

Introduction to Algorithms and Machine Learning начинается с вводных упражнений по программированию и погружает в матчасть по машинному обучению: в поиск и сортировку данных, работу с объектами, регрессию и классификацию. По своему формату издание напоминает классическое пособие, в котором после теоретического материала представлено несколько заданий на закрепление изученного. Например, в главе про графы, автор предлагает составить датасет для обучения модели, при анализе которого сгенерируется дерево решений определенного вида.

На первый взгляд книга может показаться сложной для начинающих, поскольку содержит большое количество примеров кода, графиков, схем и математических формул. Но материал подается доступным образом и порционно, поэтому его последовательное изучение позволяет разобраться в обсуждаемых концепциях.

Облачная инфраструктура для решения AI- и ML-задач

ML-платформа

Подготовленная инфраструктура для организации работы команд в сфере машинного обучения.

Виртуальная инфраструктура с GPU

Арендуйте серверы с мощными видеокартами для ускорения высоконагруженных вычислений и машинного обучения/

Объектное хранилище

Подходит для хранения датасетов для ML и аналитических данных. Мы обеспечим масштабирование для бизнеса любого масштаба.

Хабы: