Обновить
770.44

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Интуитивное понимание пространств и ядер в машинном обучении: Часть 1

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели18K

При изучении темы ядер (kernel) в ML/DS программы вузов, роадмэпы и видео на YouTube обычно рассматривают её через призму SVM, не говоря уже о всеми любимых курсах:). Казалось бы, это неплохо: вот тебе краткое объяснение и модель, которая использует ядра. Но, увы, в этих областях желательно понимать многие процессы интуитивно, так сказать — «тяжело в учении, легко в бою». К тому же, эта тема нечто большее, чем просто метод; она позволяет связать многие вещи в машинном обучении в единую картину через пространство, что я и хочу показать в этой статье.

Читать далее

Миграция пеликанов в облака: как реализовать сложный орнитологический проект на базе облачной платформы. Часть 1

Время на прочтение6 мин
Охват и читатели1.7K


ML-технологии помогают значительно сократить ручной труд, повысить точность и скорость расчетов. Но, чтобы использование ML было результативным, важно правильно выстроить весь пайплайн работы с данными и развернуть его в удобной для пользования среде. Последнее особенно важно, если конечный пользователь продукта — человек без глубокой экспертизы в ИТ. В этом на своем опыте убедилась команда проекта «Сохранение кудрявого и розового пеликанов».
Читать дальше →

Ансамблевое обучение для самых маленьких

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели7K

В прошлой статье мы лишь мельком затронули такую тему, как ансамблевое обучение, дав краткое определение парочке терминов. Сегодня в планах зарыться в это дело подробнее, рассмотрев некоторые из популярных методов. Поэтому предупреждаем сразу: букв будет много. А также концептов, терминов и примеров. Со своей стороны обещаем рассказать настолько простым языком, насколько это возможно в контексте машинного обучения. В любом случае располагайтесь поудобнее. Мы здесь надолго.

Читать далее

Магия перестала быть магией и превратилась в технологию

Время на прочтение6 мин
Охват и читатели2.5K

Всё, что сложно или невозможно объяснить, называют магией. Ещё в 1997 году суперкомпьютер Deep Blue обыграл чемпиона мира по шахматам. Шок, недоверие и теории заговора. В 2016 году другой суперкомпьютер AlphaGo обыграл топового игрока в самую сложную в мире игру Го. Восстание машин и разнообразные фобии. Сейчас нейросети уже снимают кино, пишут песни и сценарии, делают научные открытия и ловят мошенников. И уже мало кому кажется шуткой то, что скоро они заменят программистов. Но, несмотря на все достижения и перспективы — эти технологии всё ещё кажутся магией. А люди, которые в этом понимают — магами. Но магам, как и всем остальным, нужно делиться заклинаниями, новыми свитками и рецептами зелий. Поэтому в этом году откроется первая школа волшебства Прикладная техническая конференция по Data Science AiConf 2024.

Общение незаменимо даже в кругу магов. Кто, если ни другой маг, лучше всего расскажет про новых жучков-древоточцев, которые пожирают даже самые новые свитки. Или про то, каким маслом смазывать волшебный котёл перед тем, как варить зелье. Про CV, NLP, Automotive, AutoML, Predictive analytics, Reinforcement Learning, Artificial General Intelligence и другие заклинания. Это ли не лучший повод передать свой бесценный магический потенциал и опыт?

Готовьте мётлы и телепорты! Встречаемся 26 и 27 сентября 2024 года в Москве на Красном Октябре.

Читать далее

Достижение лучших результатов в бизнесе благодаря отладке виртуального ассистента в Rasa X

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели860

Если вам доводилось когда-нибудь заниматься разработкой виртуального ассистента на базе искусственного интеллекта, то я уверен, вы согласитесь, когда я скажу, что это очень сложно. Удивительно, но зачастую в качестве примера самого трудного этапа разработки ИИ-помощника приводят совсем не то, что ожидаешь услышать. Общаясь со множеством клиентов и пользователей Rasa на протяжении многих лет, мы часто слышим одно и то же: создание прототипа — это самая легкая часть. Настоящие проблемы возникают, когда нужно сделать из прототипа продукт, обеспечивающий лучший в своем классе опыт взаимодействия с компанией, который можно представить клиентам и пользователям.

Читать далее

LLM field landscape

Уровень сложностиСредний
Время на прочтение43 мин
Охват и читатели10K

Ради чего эта статья?

Сфера генеративных моделей сегодня кипит, булькает и шипит — каждый день выходят новые статьи, новые бенчмарки, новая модель вырывается вперёд на Arena, открывается очередной AI‑стартап… Только мы успеваем потрогать одну модель и сделать свои выводы, выходит другая, а Sam Altman в каждом интервью намекает, насколько GPT-5 будет умнее, лучше и круче, чем GPT-4.

В общем, за сферой LLM сегодня очень трудно уследить. Но уследить хочется. Хочется сделать снэпшот, в котором отразить максимально актуальное состояние области на текущий момент, насколько это возможно, чтоб было от чего отталкиваться потом. На самом деле, это задача для серьёзного научного review, но лучшее враг хорошего, поэтому начну я со статьи на Хабре.

Читать далее

Да, это не OpenAI — на Google I/O показали LLM Gemini Flash 1.5 с дешевым контекстом на 1 миллион токенов

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.6K
Google I/O, на удивление, не повезло. Крупнейшие анонсы от Google в сфере ИИ остались в тени конференции OpenAI, которая прошла 13 мая — на Хабре было сразу несколько постов о бьющей рекорды GPT-4o, в то время как о конференции Гугла была достаточно небольшая новость.

В общем, давайте вкратце расскажу, на что (предположительно) делает ставку Google, а также как я, как упоротый большой фанат LLM уже подключил Gemini Flash и GPT-4o в свой сервис VseGPT (доступ к нейросетям из России по API), и про то, как они ощущаются на русском языке.

Читать дальше →

Создаём свою стример-тян из зефира и палок

Уровень сложностиСредний
Время на прочтение127 мин
Охват и читатели58K

Наверняка вы слышали о нашумевшей в своё время ИИ стримерше NeuroSama. Однако мое внимание привлекало не само шоу и эти нашумевшие самые «крутейшие» моменты стримов, а сам факт того, что нейросеть реально может полностью автономно и полноценно вести стрим, удерживая внимание зрителей! Меня очень заинтересовала такая задумка, и я решился её повторить!

В этой статье я расскажу о попытке создать свою нейро-тян для русского сегмента, которая сможет автономно и без перерывов играть и вести трансляции на различных стриминг-платформах и буллить кожаных мешков конечно же развлекать зрителей и игроков, не получая баны! В результате получился самый настоящий гомункул киборг-убийца (мозгов) квадратных людей, поэтому запасайтесь бочкой кваса и ванной попкрона, как и в прошлый раз, приключение обещает быть жарким, но не только потому, что скоро лето, а ещё потому, что сейчас весна (и сопутствующее весеннее обострение), ведь мы с вами будем создавать настоящую (виртуальную) девушку-стримера!

Может, немного опоздал с трендом, но не пропадать же добру просто так! Кому-нибудь да пригодится (хотя бы для того, чтобы посмеяться или кринжануть с человека, который год занимался никому не нужной фигнёй).

Статья получилась без преувеличения огромной из-за совмещения просто ТУЧИ разных технологий и необходимости погружения в тонкости некоторых, так что отправьте ссылку себе на комп, расположитесь поудобнее и предупредите свою попу, что она рискует не отрываться от стула на протяжении целого часа!

Будет весело, сложно и очень интересно как опытному «бойцу», так и простому обывателю!

Читать далее →

Ходить как человек: генеративный ИИ и локомоция

Время на прочтение11 мин
Охват и читатели2.8K


Глядя на улицы города утром буднего дня, мы видим множество людей, каждый из которых торопливо или размеренно идет куда-то по своим делам, будь то на учебу или на работу. Скорость, особенности шага и общая картина локомоции человеческой ходьбы являются уникальными для каждого человека. При этом обстоятельства окружающей среды имеют немалое влияние на то как ходит человек. Говоря о роботах, мы уже давно научили их ходить, подобно человеку. Однако адаптация к динамическим условиям окружающей среды, особенно настройка скорости в реальном времени, остаются крайне сложной задачей. Ученые из Университета Тохоку (Япония) разработали новую методику обучения роботов, использовав возможности генеративного ИИ. Насколько данная методика была эффективной для обучения роботов, и насколько лучше стала их локомоция? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Внедрение AI: особенности, сложности, на что обратить внимание

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели3.8K

На связи команда «ДатаЛаб» ГК «Автомакон». Создаём рекомендательные системы, антифрод-системы, DWH-платформы и многое другое. Давно на «ты» с искусственным интеллектом, еще до того, как это стало мейнстримом.

Решили поднять волнующую многих специалистов и руководителей компаний тему — что мешает внедрению AI в бизнес-процессы. Рассмотрим вопрос с разных сторон: технических нюансов, сложностей и этики.

Читать далее

А зачем это бизнесу? Экономическое обоснование использования ML для прогнозирования спроса на ж/д

Время на прочтение7 мин
Охват и читатели1.9K

Привет, Хабр! Я Леонид Зверев, главный специалист по анализу данных и машинному обучению в Первой грузовой компании. Мы перевозим разные грузы по железной дороге, и чтобы спрогнозировать спрос на подвижной состав, используем модели машинного обучения.

Бизнес всегда хочет сократить затраты, и мы можем ему в этом помочь за счет прогнозирования спроса. Зная спрос на железной дороге, мы понимаем, где в ближайшем будущем будут основные точки возникновения грузопотоков, куда имеет смысл заадресовывать наши вагоны, чтобы сократить порожние пробеги (когда вагон едет пустым) и остаться в прибыли. Подробно об этом мы рассказали в первой статье цикла. Во второй части мы затронем рабочие подходы в прогнозировании спроса, приживлении результатов прогноза и экономические эффекты от хорошего прогноза. 

Читать далее

Неправильные ML-библиотеки, обфускация и кража аккаунтов Телеграм. Очищаем PyPI от вредоносных библиотек

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4.2K

Мы, команда Threat Intelligence экспертного центра безопасности Positive Technologies, в рамках недавнего автоматизированного аудита проектов, размещенных в главном репозитории Python-кода, нашли 28 вредоносных пакетов, которые уже много месяцев вредили пользователям. В совокупности они были скачаны 59 000 раз.

Отчет о перечисленных ниже проектах был передан команде Python Package Index (PyPI), благодаря чему проекты были удалены.

Посмотреть наши находки

GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

Время на прочтение4 мин
Охват и читатели58K

Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает интонации, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.

При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все‑все самые интересные пасхалки Альтмана...

Читать далее

Ближайшие события

OpenAI релизнула GPT-4o и мы её уже внедрили

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели50K

13 мая 2024 года запомнится как важная веха в мире искусственного интеллекта. OpenAI провела долгожданное обновление, представив GPT-4o и множество улучшений для ChatGPT. Эти новинки имеют все шансы изменить то, как мы взаимодействуем с ИИ в повседневной жизни. Мы уже успели внедрить новую модель и протестировали как она работает.

Читать далее

Дата-майнинг: процесс, типы методики и инструменты

Время на прочтение13 мин
Охват и читатели14K
Дата-майнинг, в основе которого лежат научные и технологические принципы — это стратегический процесс, предназначенный для выявления паттернов, корреляций и трендов, скрывающихся под поверхностью информации.

В этой статье мы расскажем о том, что такое дата-майнинг, о его методиках, инструментах, опыте использования и примерах.

Что такое дата-майнинг?


Дата-майнинг (data mining) — это процесс обработки данных для выявления паттернов, корреляций и аномалий в крупных датасетах. В нём применяются разнообразные методики статистического анализа и машинного обучения для извлечения из данных значимой информации и выводов. Компании могут использовать эти выводы для принятия обоснованных решений, прогнозирования трендов и совершенствования бизнес-стратегий.

Например, при помощи дата-майнинга туристическая компания может обнаружить, что путешественники-одиночки часто бронируют отели рядом с технологическими хабами или коворкинг-пространствами, даже если они расположены далеко от основных туристических достопримечательностей. Это может намекнуть о том, что существенный процент путешествующих в одиночестве объединяет поездки для работы и отдыха, предпочитая места, удовлетворяющие их профессиональным потребностям. Такой вывод может позволить компании сосредоточить свои маркетинговые кампании на отелях, находящихся поблизости от бизнес-районов или коворкингов.


Визуальное определение дата-майнинга

Этот процесс является неотъемлемой частью преобразования огромных объёмов сырых данных (структурированных, неструктурированных и частично структурированных) в ценные знания, на основании которых можно планировать свои действия.
Читать дальше →

ChatGPT как мутная ксерокопия Интернета

Время на прочтение13 мин
Охват и читатели28K

В 2013 году сотрудники одной немецкой строительной компании заметили кое-какую странность в работе корпоративного аппарата Xerox. Всякий раз, когда копировалась планировка этажа в стоящемся здании, копия отличалась от оригинала в одном тонком, но в очень важном аспекте. В оригинальной версии планировки в доме различались три комнаты, и у каждой из них в прямоугольнике была подписана площадь этой комнаты: 14,13, 21,11 и 17,42 квадратных метра соответственно. Но на ксерокопии было написано, что все три комнаты имеют площадь по 14,13 квадратных метра. Компания обратилась к информатику Давиду Кризелю с просьбой, почему получается такой, казалось бы, немыслимый результат. Здесь требовалась именно консультация информатика, так как в современных аппаратах не применяется физический ксерографический процесс, впервые популяризованный в 1960-е. Вместо этого аппарат создаёт цифровую копию документа, а затем распечатывает полученный файл (изображение). При этом учтём, что для экономии дискового пространства почти все цифровые файлы изображений подвергаются сжатию — и разгадка этого таинственного случая начинает напрашиваться сама собой.

Читать далее

Используем Gemini для просмотра лекции

Время на прочтение9 мин
Охват и читатели16K

В феврале Google мы познакомились с Gemini 1.5 Pro с контекстным окном в 1 миллион токенов. Больший размер контекста означает, что Gemini 1.5 Pro может обрабатывать огромные объемы информации за один раз — 1 час видео, 11 часов аудио, 30 000 строк кода или более 700 000 слов. Это делает его на голову выше других моделей.

Сегодня я бы хотела рассмотреть вопрос обработки видео, а именно просмотра часового видео и оценить, как хорошо модель будет извлекать информацию.

Приятного прочтения!

Читать далее

Методы оптимизации в машинном и глубоком обучении. От простого к сложному

Уровень сложностиСложный
Время на прочтение29 мин
Охват и читатели42K

В данной статье представлен обзор различных популярных (и не только) оптимизаторов, которые применяются в машинном и глубоком обучении, в частности для обучения нейронных сетей. Мы рассмотрим их основную идею и ключевые особенности, переходя от простых к более сложным концепциям. Помимо этого, в самом конце вы сможете найти большое количество дополнительных источников для более детального ознакомления с материалом.

Читать далее

Заставляем ChatGPT быть эгоистичным и решать дилемму заключенного, в которой есть котики

Время на прочтение10 мин
Охват и читатели8.9K

Успехи машинного обучения наталкивают на мысль, что ИИ, стоящий в развитии на пару ступеней выше человека, уже не за горами. Станет он нам новым лучшим другом или скорее чем-то вроде Скайнета? Мы не знаем будущего, но можем проверить, насколько железный мозг дружелюбен в настоящем.

Привет! Мы в Selectel часто используем ИИ и знаем, что это хороший помощник, которому можно доверить часть рутины. А как насчет человеческих качеств? Чтобы выяснить это, сыграем с ним в классическую математическую игру, с помощью которой ученые уже больше 70 лет исследуют альтруизм и эгоизм, способность к эмпатии и готовность предать — характеристики, присущие человеку.
Читать дальше →

Зачем компаниям ML? Разбираемся на примере Netflix

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.3K

Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix.
Читать дальше →

Вклад авторов