Обновить
757.65

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Ваших соседей пошифровали! Прямой репортаж с места событий

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели26K

Такие истории редко оказываются публичными: мало кто любит хвастаться тем, как их пошифровали (даже если это хэппиэнд). Но пора признать — эти истории есть, они ближе, чем мы думаем, и их абсолютно точно в разы больше, чем все привыкли считать. Шифровальщики все еще остаются в топе угроз среди атак на организации. Одну из таких атак сумела запечатлеть система поведенческого анализа сетевого трафика PT Network Attack Discovery (PT NAD), которая в это время пилотировалась в компании. И если бы только оператор SOC обратил внимание на алерты в интерфейсе новой системы… но история не терпит сослагательного наклонения.

Подробнее

Яндексу здесь не место…

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели122K

Здравствуйте, уважаемые читатели!

Тема сегодняшней статьи будет несколько нестандартная, однако, безусловно связанная с информационными технологиями, нейросетями и технологическим гигантом нашего времени – компанией Яндекс.

Сразу хочу отметить – я отлично осознаю факт того, что Хабр не является площадкой для сведения счетов, размещения жалоб или ломания копий. И идея о том, чтобы написать свой отзыв об опыте общения с компанией Яндекс так и осталась бы идеей, лежащей где-то чуть ли не на дальней полочке в моем мозге, если бы буквально на днях, 18.01.2024 г., спустя 5 месяцев после того, как поступили со мной, я не увидел полностью аналогичный случай, о котором написали в сети. См. ссылку ниже:

https://journal.tinkoff.ru/kak-ia-pytalas-ustroitsia-na-rabotu-v-iandeks/

Прочитав пост, я понял, что эпопея “Яндекс-швырялово” длится уже около полугода и при этом все её организаторы чувствуют себя предельно комфортно, поэтому я был просто вынужден расчехлить перо.

Читать далее

Как сделать чат-бота лучше, нужен всего лишь простой советский… RAGAS

Время на прочтение8 мин
Охват и читатели13K

В вводной части обзора мы познакомились с концепцией Retrieval Augmented Generation (RAG) и её расширением через методологию RAGAS (Retrieval Augmented Generation Automated Scoring). Мы разобрались, как RAGAS подходит к процессу оценки эффективности и точности RAG-систем.

В этой части мы более подробно рассмотрим техническую сторону RAGAS. Как обычно, начнем с более простых и интуитивно понятных примеров, потом перейдем к более сложным сценариям.

Читать далее

Проанализируй меня если сможешь! Мета вопрос, или как я не перестал бояться и полюбил большие языковые модели

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели2.5K

Здравствуйте дорогие читатели хабра, сейчас утро воскресенья, пожалуй невероятно удачный момент для спонтанного написания статьи на хабре, надеюсь в этом вы согласитесь со мной :) что ж, here we are!

Найти вопрос на ответ...

Как deep learning помогает в разработке персонализированной терапии рака?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели2.2K

Специалистам в области технологий и медицинских инноваций посвящается новое слово в борьбе с раком – применение глубокого обучения, использованное исследовательской командой университета Джона Хопкинса для индивидуального анализа генетических данных пациентов. В мире, где онкология является неотъемлемой частью нашего здравоохранения, эта инновационная технология предлагает персонализированный подход к лечению, основанный на алгоритмах машинного обучения.

Он не просто борется с болезнью, а анализирует многочисленные факторы, связанные с онкологической патологией конкретного пациента. Это не просто лечение, это индивидуально настроенная стратегия, созданная благодаря силе глубокого обучения.

Моя статья направлена на то, чтобы донести до специалистов в области медицины и машинного обучения важность этого направления. Приглашаю вас изучить эту захватывающую технологию и присоединиться к обсуждению. 

Давайте вместе взглянем на возможность изменения стратегии борьбы с раком и наступления новой эры в медицинских исследованиях!

Читать далее

Методы работы со смещением и дисперсией в модельках машинного обучения

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели28K

В давние времена были вечные битвы с переобучением и недообучением в модельках машинного обучеиня. Вечная битва между смещением и дисперсией. Подходит ли модель к данным как идеальный ключик, или же она скорее ели пытается влезть туда...

Эта дилемма определяет, насколько хорошо модель будет работать на реальных данных.

Переобучение и недообучение – это Сцилла и Харибда в ML, между которыми нужно лавировать. С тех давних времен появилось множество методов для решения этой проблемы. Рассмотрим их кратко.

Читать далее

Следуй за человеком. Об ориентировании роботов в толпе

Время на прочтение12 мин
Охват и читатели3K

Минувшим летом я знакомил сына с Москвой, а также с моими московскими друзьями из разных времён. Мы даже успели заглянуть в офис Хабра в компании с @Boomburum Неудивительно, что нам довелось посетить разные уголки прекрасного московского метрополитена, считая светло‑синий Арбат, Смоленскую, ВДНХ, Сокол, Выхино, Некрасовку, Бауманскую и Окружную. Сын мне то и дело напоминал, что «нужно идти туда, куда больше людей идёт» — признаться, стратегия не лучшая, хотя и логичная. Развивая его идею, я предложил ему пофантазировать, как бы в московском метро ориентировался робот, на что бы он обращал внимание? На инфографики, сквозняки, расположение эскалаторов или, всё‑таки, на человеческие потоки? Постепенно я пришёл к выводу, что в многолюдном пространстве именно человеческие потоки были бы самым важным ориентиром для мобильного робота, и под катом попробую разобрать этот вопрос подробнее.

Наверняка я бы и не подумал обращаться к этой теме, если бы не бесценный опыт помощи с подготовкой научных статей, приобретённый мной в 2019–2021 годах в лаборатории автономных робототехнических систем (ЛАРС) в институте СПИИРАН, бессменным руководителем которой с тех и до сих пор является уважаемый Антон Савельев.

Читать далее

Какие ML-платформы нужны бизнесу, и кто их может сделать

Время на прочтение11 мин
Охват и читатели9K

Привет, Хабр! Меня зовут Виктор Кантор, я директор Big Data МТС. Около 14 лет я работаю с технологиями, связанными с Machine Learning, Big Data, Data Science. Но есть одна проблема, с которой я постоянно сталкиваюсь. Например, поставлена задача, которую нужно решить при помощи ML-моделей. А потом появляется новая, с аналогичным процессом разработки и кодом. А затем ещё одна, вторая, третья…

В итоге я решил всё это формализовать, структурировать, привести к состоянию платформ, которые можно использовать повторно. Зачем? Чтобы специалисты по ML, Data Science и из смежных отраслей не писали один и тот же код много раз. В статье об этом и поговорим. Если тема вас заинтересовала, прошу под кат.

Читать далее

Подручный для бизнеса

Время на прочтение10 мин
Охват и читатели3.1K

В статье рассказываем про разработку решения, которое помогает руководителям, продуктовым менеджерам и аналитикам искать точки роста и скрытые закономерности в продукте. Сервис принимает на вход описание продукта, бизнес-процесса или системы в табличном виде, а на выходе отдает набор гипотез — утверждений о данных, выраженных в виде текста и графиков. Конечная цель — создать полноценный помощник бизнесу.

Читать далее

Как мы победили в двух хакатонах Цифрового Прорыва. История вторая

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели1.4K

Всем привет! Это продолжение рассказа о том, как наша команда Ling Bizkit победила в двух хакатонах. В первый раз это было соревнование Северо-Западного региона в рамках Цифрового Прорыва, а во второй — уже всероссийский этап.

Читать далее

«Промышленный интеллект», или как мы создали нейросеть для контроля качества продукции машиностроительного завода

Время на прочтение4 мин
Охват и читатели7.9K

Я, Илья Померанцев, руководитель ML-направления в Globus IT. Хочу поделиться интересным кейсом по использованию нейросетей в промышленности.

Читать далее

ИИ, алкоголь и хирургия

Время на прочтение14 мин
Охват и читатели2.4K


Опасность скрывается повсюду. Любой вид деятельности человека, будь то работа или развлечение, может быть источником больших проблем или даже летальных последствий. Звучит вполне пугающе и крайне пессимистично. Если же бояться всего на свете, то жизнь теряет смысл, но никто не запрещает применять осторожность там, где она необходима. А в рамках употребления алкоголя осторожность просто неотъемлема. Ученые из Мичиганского университета (Анн-Арбор, Мичиган, США) провели исследование, в котором предполагается, что использование искусственного интеллекта для сканирования медицинских карт хирургических пациентов на наличие признаков рискованного употребления алкоголя может помочь выявить тех, у кого употребление алкоголя повышает риск возникновения проблем во время и после операции. Как был настроен ИИ, как проходила его работа, и что нового ИИ рассказал? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Семантический поиск и генерация текста на R. Часть 2

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели1.3K

В первой части говорили про использование поиска и генерации ответа с помощью языковых моделей. В этой части рассмотрим память и агентов.

Читать далее

Ближайшие события

Прокачиваем навыки в сфере ML — что изучать в 2024-м

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели19K

Бизнесу нужны технологии, способные обрабатывать огромные объемы данных, предоставлять релевантные рекомендации, оценивать финансовую надежность клиентов и обеспечивать эффективный поиск информации. Ключевым элементом для автоматизации рутинных задач и создании бизнес-решений на основе данных становится ML.

Ритейл, банки, технологические предприятия, компании-разработчики и все те, кто собирает большие массивы неструктурированных данных, для запуска сложных моделей могут использовать вычислительные ресурсы облака. Например, строить нейросети с помощью ML-платформы или использовать объектное хранилище для обработки Big Data.

Но чтобы грамотно использовать инструменты для работы с AI- и ML-задачами, нужно приобрести необходимо знания и навыки. Поможет разобраться в машинном обучении и инструментах для работы с ML-моделями подборка новых и высокооцененных специализированных курсов, книг и других тематических материалов.

Читать далее

Взгляд моего гуру на проблему AI alignment

Уровень сложностиСложный
Время на прочтение6 мин
Охват и читатели5.6K

Дисклеймер: в данной статье нет математического доказательства возможности или невозможности alignment. Приведены рассуждения гуру (см. фото выше) с его философских позиций:

В связи с недавними событиями в индустрии искусственного интеллекта, происходит очень много обсуждений о проблеме выравнивания (alignment). Лично мне кажется, что идея о том, что мы каким-то образом сможем контролировать сверхчеловеческий ИИ, когда он достигнет этой стадии, интересна, но нереалистична. Это все равно как если бы муравьи пытались заалайнить нас в соответствие со своими нуждами (хотя некоторые утверждают, что кошки успешно подчинили себе людей). Однако, кроме кошачьих, никто другой не смог провернуть такой трюк. Конечно, люди все равно будут пытаться это сделать, несмотря на тщетность подобных попыток. Уже написанно немало книг по этой теме, за авторством очень умных людей. По крайней мере это дает нам ложное чувство контроля. Достаточно почитать книги популярных теоретиков типа Ника Бострома, чтобы понять что они ни к чему не пришли.

Уже сейчас есть эксцессы с AI, напримр недавно машина AI стартапа Cruise сбила женщину в Сан Франциско. Печальная история, однако это лишь рябь на воде по сравнению с цунами что идет в нашу сторону.

Для начала давайте ответим на очень важный для многих вопрос - а зачем нам нужен ИИ? 42 не предлагать. Ответ настолько очевиден что его даже не сразу видно. ИИ нам ни для чего не нужен, но это ничего не меняет. Это все равно что спрашивать зачем нужна атомная энергия (и как следствие ядерное оружие)  - она есть вне зависимости от наших пожеланий, мы лишь используем этот феномен природы. ИИ будет несмотря на на что, просто потому что он возможет и такова траектория развития событий. Как только началась гонка в этой области, ее уже невозможно остановить, потому что Равновесие Нэша.

Читать далее

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

Время на прочтение10 мин
Охват и читатели9.1K


Сегодня Spark — отраслевой стандарт среди инструментов обработки данных. Его часто используют в связке с Hadoop, однако Hadoop не очень подходит для работы в облаке. Альтернативой может быть Kubernetes, однако самостоятельно его настраивать и конфигурировать очень сложно. Чтобы упростить ситуацию и помочь пользоваться всеми преимуществами технологий, не сталкиваясь с трудностями, мы сделали в VK Cloud Spark в Kubernetes. Для работы с ним не нужна глубокая экспертиза в K8s. 

Меня зовут Алексей Матюнин, я ведущий программист команды разработки ML Platform в компании VK Cloud. Расскажу, почему мы решили делать Spark в Kubernetes, с какими сложностями столкнулись и как их обходили, а также что получили в итоге.

Материал подготовлен по мотивам моего выступления на конференции VK Data Meetup.
Читать дальше →

Эмбеддинги для начинающих

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели111K

Привет, Хабр!

В широком смысле, эмбеддинг - это процесс преобразования каких-либо данных (чаще всего текста, но могут быть и изображения, звуки и т.д.) в набор чисел, векторы, которые машина может не только хранить, но и с которыми она может работать. Звучит очень интересно. Казалось бы, наша речь - это так просто, все связано и понятно. Но как это объяснить машине?

В этой статье мы рассмотрим, что такое эмбеддинги и какие они бывают.

Проще говоря эмбеддинг - это способ преобразования чего-то абстрактного, например слов или изображений в набор чисел и векторов. Эти числа не случайны; они стараются отражают суть или семантику нашего исходного объекта.

В NLP, например, эмбеддинги слов используются для того, чтобы компьютер мог понять, что слова «кошка» и «котенок» связаны между собой ближе, чем, скажем, «кошка» и «окошко». Это достигается путем присвоения словам векторов, которые отражают их значение и контекстное использование в языке.

Эмбеддинги не ограничиваются только словами. В компьютерном зрении, например, можно использовать их для преобразования изображений в вектора, чтобы машина могла понять и различать изображения.

Читать далее

Исследуем Скрытые Сокровища: Малоизвестные Библиотеки Python для Аналитики Данных

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели10K

Введение: Привет, Хабр! Сегодня мы исследуем мир менее известных, но чрезвычайно полезных библиотек Python, которые могут значительно обогатить ваш аналитический инструментарий.

? Подписывайтесь на мой телеграмм-канал DataTechCommunity для получения ежедневных обновлений о Python и аналитике данных!

Содержание:

Рассматриваем 5 малоизвестных, но полезных библиотек для аналитиков данных. Они помогут вам в машинном обучении, обработке больших данных и визуализации.

Читать далее

Как работают трансформеры: разбираем математику

Уровень сложностиСредний
Время на прочтение28 мин
Охват и читатели31K

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.

Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. Перед прочтением этой статьи я рекомендую прочитать пост Illustrated Transformer (или читать их параллельно) [перевод на Хабре]. Это отличный пост, объясняющий модель трансформера интуитивным (и наглядным!) образом, поэтому я не буду объяснять то, что уже объяснено в нём. Моя цель заключается в том, чтобы объяснить, как работает модель трансформера, а не что это такое. Если вы хотите углубиться в подробности, то изучите известную статью Attention is all you need [перевод на Хабре: первая и вторая части].

Читать далее

Делаем обучающие датасеты для больших языковых моделей

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели17K

Дообучение больших языковых моделей на кастомных датасетах делает модели гораздо сообразительнее. Есть история успеха датасета alpaca. Он творит чудеса с моделями, которые сначала если и умели что-то делать, то делали это очень плохо. Мы решили понять, как это делается, а главное - какие проблемы есть на этом пути и могут ли новички вроде нас разобраться в этом. История взлетов и падений - под катом.

Читать далее

Вклад авторов