Как стать автором
Обновить
76.99
Open Data Science
Крупнейшее русскоязычное Data Science сообщество
Сначала показывать

Создай своего ИИ-ассистента с помощью ChatGPT и Streamlit

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 15K
Блог компании Open Data Science Python *API *Искусственный интеллект Будущее здесь
Туториал

Автор: Дмитрий Косаревский

Привет, Хабр! 👋

Меня зовут Дима Косаревский, я инженер данных (DE), увлеченный Data Science и всем, что связано с этим направлением.
Data Science позволяет извлекать ценную информацию из огромных объемов данных при помощи статистических и вычислительных методов.

В последнее время эти ИИ, вроде ChatGPT, врываются прямо во все сферы. И вот благодаря увлечению Data Science можно использовать этих ботов, чтобы помогать людям, да ещё и пообщаться с ними на разные темы. Здорово, правда?

ChatGPT действительно впечатляет. Он не только общается на разные темы, но еще и стихи сочинять умеет.
Вот один из примеров, которые я получил недавно:

Поехали 🚀
Всего голосов 31: ↑29 и ↓2 +27
Комментарии 14

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе

Уровень сложности Простой
Время на прочтение 21 мин
Количество просмотров 39K
Блог компании Open Data Science Машинное обучение *Искусственный интеллект Будущее здесь
Обзор

История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться – есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?

Читать далее
Всего голосов 129: ↑117 и ↓12 +105
Комментарии 174

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато

Уровень сложности Простой
Время на прочтение 23 мин
Количество просмотров 179K
Блог компании Open Data Science Машинное обучение *Искусственный интеллект Будущее здесь Natural Language Processing *
Обзор

В этой статье мы разберем новые удивительные способности последней языковой модели из семейства GPT (от понимания мемов до программирования), немного покопаемся у нее под капотом, а также попробуем понять – насколько близко искусственный интеллект подошел к черте его безопасного применения?

Поехали →
Всего голосов 208: ↑200 и ↓8 +192
Комментарии 336

Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда

Уровень сложности Простой
Время на прочтение 30 мин
Количество просмотров 194K
Блог компании Open Data Science Машинное обучение *Искусственный интеллект Будущее здесь Natural Language Processing *
Обзор

В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас без работы. При этом мало кто понимает — а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

Погнали →
Всего голосов 357: ↑350 и ↓7 +343
Комментарии 280

АБ-тесты — это не только ценный мех… Но еще и процессы

Время на прочтение 20 мин
Количество просмотров 3.3K
Блог компании Open Data Science Бизнес-модели *Статистика в IT

О математических нюансах АБ-тестирования есть много замечательной литературы, но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.

При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема. На практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.

В этой статье я поделюсь своим опытом и советами о том, как это сделать.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 2

Запуск Stable Diffusion локально и в облаке с помощью Diffusers и dstack

Время на прочтение 5 мин
Количество просмотров 8.4K
Блог компании Open Data Science Машинное обучение *
Туториал
Перевод

Вероятно, все уже слышали о Stable Diffusion - модели, способной создавать фотореалистичные изображения на основе текста. Благодаря библиотеке diffusers от HuggingFace, использование этой модели очень просто.

Однако организация проекта и зависимостей для его запуска независимо от среды (будь то локально или в облаке), все еще может быть сложной задачей.

В этой статье, я на простом примере расскажу о том, как решать эту проблему с помощью diffusers и dstack.

Читать далее
Всего голосов 27: ↑27 и ↓0 +27
Комментарии 6

Теория вероятностей в машинном обучении. Часть 2: модель классификации

Время на прочтение 14 мин
Количество просмотров 6.9K
Блог компании Open Data Science Математика *Машинное обучение *Статистика в IT Искусственный интеллект

В предыдущей части мы рассматривали вероятностную постановку задачи машинного обучения, статистические модели, модель регрессии как частный случай и ее обучение методом максимизации правдоподобия.

В данной части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax, как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Данная часть содержит много отсылок к формулам и понятиям, введенным в первой части, поэтому рекомендуется читать их последовательно.

В третьей части (статья планируется) перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей - рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

Читать далее
Всего голосов 29: ↑29 и ↓0 +29
Комментарии 1

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

Время на прочтение 28 мин
Количество просмотров 11K
Блог компании Open Data Science Математика *Машинное обучение *Статистика в IT Искусственный интеллект

В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.

В следующей части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax и как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Затем перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей - рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

Читать далее
Всего голосов 23: ↑23 и ↓0 +23
Комментарии 0

ChatGPT как инструмент для поиска: решаем основную проблему

Время на прочтение 40 мин
Количество просмотров 82K
Блог компании Open Data Science Python *Машинное обучение *Natural Language Processing *
Обзор

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а Microsoft планирует интеграцию в поисковик Bing - чем, кстати, безумно обеспокоен СЕО Alphabet (Google) Сундар Пичаи. Настолько обеспокоен, что в своём письме-обращении к сотрудникам объявляет "Code Red" ситуацию. В то же время Сэм Альтман, CEO OpenAI - компании, разработавшей эту модель - заявляет, что полагаться на ответы ChatGPT пока не стоит.

Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы, как может выглядеть новый интерфейс взаимодействия, и какие основные проблемы есть на пути интеграции? Могут ли модели сёрфить интернет бок о бок с традиционными поисковиками? На эти и многие другие вопросы постараемся ответить под катом.

Погрузиться с головой →
Всего голосов 96: ↑96 и ↓0 +96
Комментарии 51

Интерпретируемость ML-моделей: от инструментов до потребностей пользователя

Время на прочтение 7 мин
Количество просмотров 3.1K
Блог компании Open Data Science Big Data *Машинное обучение *Искусственный интеллект

Интерпретируемость ML-моделей - очень широкая концепция. То, насколько интерпретация хороша, зависит не только от инструментов и отчетов, которые мы предоставляем пользователю, но и от потребностей пользователя и особенностей задач, которые он решает.

В статье разберемся, как эффективно работать с интерпретируемостью ML-моделей в зависимости от потребностей ключевых пользователей.

Читать далее
Всего голосов 22: ↑22 и ↓0 +22
Комментарии 5

Как машинное обучение помогает проекту «ЗабастКом» анализировать новости и освещать трудовые конфликты

Уровень сложности Средний
Время на прочтение 16 мин
Количество просмотров 5.3K
Блог компании Open Data Science Алгоритмы *Искусственный интеллект DIY или Сделай сам IT-компании
Кейс


В посте расскажу о моем успешном взаимодействии с некоммерческим проектом ЗабастКом, который поддерживает наемных работников в отстаивании своих трудовых прав и интересов. Моя цель была реализовать что-то похожее на ML4SG проект, где волонтеры-специалисты по анализу данных направляют свою энергию на пользу обществу. Например, применяют алгоритмы искусственного интеллекта для спасения потерявшихся людей, для мониторинга качества воздуха или для анализа новостного потока.


Для Забасткома получилось улучшить систему автоматической обработки новостей с помощью алгоритмов машинного обучения. Это привело к увеличению охвата важных событий и уменьшению ручного труда редакторов. Добавлю, что работа с ребятами была похожа на мечту любого DS специалиста: "заказчик" легко шел на контакт; присутствовала заинтересованность и неплохое понимание ML алгоритмов; некоторая продакшн-система уже функционировала; данные для обучения алгоритмов легко собирались. А под катом — поделюсь подробностями и кодом.

Читать дальше →
Всего голосов 54: ↑54 и ↓0 +54
Комментарии 9

ИИ в играх в 2022 году

Время на прочтение 7 мин
Количество просмотров 2.5K
Блог компании Open Data Science Машинное обучение *Искусственный интеллект Игры и игровые консоли Логические игры
Обзор

Современная волна ИИ хайпа началась с вполне конкретного события: победы ИИ над чемпионом мира в игре в Го. Это вызвало шквал интереса к обучению с подкреплением и привело к запуску работ над созданием ИИ для других более сложных игр (Starcraft, Dota и.т.п.). Однако, с появлением трансформеров, фокус сместился на генеративные модели. Каждый месяц выходит новая модель вроде ChatGPT, поражающая своими возможностями и собирает на себе всё внимание. Однако, и в этих условиях, исследования ИИ с помощью игр продолжается. Каждая новая игра это упрощенная среда, все более сложная и близкая к реальному миру (обычно). В этой статье сделан обзор успехов и прогресса в этом направлении в 2022 году. С важным исключением, сюда включены только работы на настоящих играх (настольных и видеоиграх), но не на играх, созданных специально для тестирования ИИ агентов.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 2

Третья жизнь пет-проекта по распознаванию рукописных цифр

Время на прочтение 8 мин
Количество просмотров 3.9K
Блог компании Open Data Science Open source *Обработка изображений *Машинное обучение *Искусственный интеллект

В этом блогпосте я поделюсь историей о том, как я обновлял свой старенький пет-проект по распознаванию цифр, как делал разметку для него, и почему модель предсказывает 12 классов, хотя цифр всего 10.
Вот ссылка на само приложение, если хочется интерактива сразу.

Читать далее
Всего голосов 27: ↑27 и ↓0 +27
Комментарии 13

Трекинг множества объектов без разметки или как следить за пузырьками во время пенной флотации

Время на прочтение 10 мин
Количество просмотров 6.3K
Блог компании Open Data Science Обработка изображений *Машинное обучение *Научно-популярное Искусственный интеллект
✏️ Технотекст 2022


Привет, Хабр! Меня зовут Клоков Алексей, сегодня поговорим об алгоритмах компьютерного зрения, обработке видеопотока и методах трекинга множества объектов без разметки (unsupervised multiple object tracking) на примере пузырьков. Методичка будет полезна как опытным специалистам, перед которыми стоит похожая задача, так и начинающим энтузиастам. На основе черновика этого текста и экспериментов получилось опубликовать научную статью в Journal of Mineral and Material Science.


В тексте вы найдете:
— описание домена данных и технологического процесса флотации;
— подход к cегментации множества подобных объектов;
— существующие методы трекинга без разметки;
— подход к одновременному сопровождению множества подобных объектов;
— сравнение качества работы алгоритмов и много демонстраций

Читать дальше →
Всего голосов 60: ↑60 и ↓0 +60
Комментарии 8

13 хаков для перемены карьеры: как поменять карьеру в декрете и не сойти с ума

Время на прочтение 14 мин
Количество просмотров 4.6K
Блог компании Open Data Science Учебный процесс в IT Карьера в IT-индустрии Лайфхаки для гиков

Поворот карьеры – штука, в общем, банальная. Почти каждый меняет карьеру несколько раз за жизнь. Но первый раз такой тревожный, что часто вызывает море опасений. Здесь я расставила по полочкам свои приемы и ключевые изменения привычек, которые помогли мне поменять сферу.

Читать далее
Всего голосов 24: ↑18 и ↓6 +12
Комментарии 5

Что я бы хотел знать про ML System Design раньше

Время на прочтение 6 мин
Количество просмотров 8.5K
Блог компании Open Data Science Машинное обучение *Карьера в IT-индустрии

Около года назад я начал проходить собеседования в разные компании на позицию Machine Learning Engineer. Одним из этапов в каждой компании было проектирование ML системы. В данной статье я делюсь опытом и ресурсами, которые помогли мне пройти собеседования. В том числе в команду MLE Ленты, в которой сейчас тружусь.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 7

Практический Metric learning

Время на прочтение 8 мин
Количество просмотров 8K
Блог компании Open Data Science Data Mining *Машинное обучение *
Туториал

В этом посте мы поговорим о задаче metric learning, подходах к её решению, и разберём их на практике, используя open-source проект OpenMetricLearning. В качестве бонуса покажем, как с помощью простых эвристик можно догнать текущие SotA модели.

Читать далее
Всего голосов 18: ↑18 и ↓0 +18
Комментарии 4

Запуск ML скриптов в облаке с помощью dstack. Бонус – про запуск open-source проектов

Время на прочтение 6 мин
Количество просмотров 1.7K
Блог компании Open Data Science Open source *Машинное обучение *

Привет! На прошлой неделе мы выложили на GitHub утилиту для запуска ML скриптов в AWS. 

В этом посте я бы хотел рассказать, об этой утилите, а также с какими трудностями мы столкнулись при ее разработке. Во второй части статьи, я бы хотел поделиться нашим опытом запуска open-source проекта, и чему этот опыт научил.

Статья может быть интересна тем, кто имеет отношение к машинному обучению, тем кто разрабатывает собственные утилиты для разработчиков, и, наконец, тем, кто занимается разработкой open-source проектов.

Читать далее
Всего голосов 26: ↑25 и ↓1 +24
Комментарии 10

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Время на прочтение 12 мин
Количество просмотров 16K
Блог компании Open Data Science Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *
Туториал
⚒️ Cезон Data Mining

⚡ Градиент обреченный

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Попробовал ее large вариант на нескольких языках и расшифровал 30 выпусков "Своей игры". Результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16, ~10 000 часов — у 5 языков, включая русский.

Читать далее
Всего голосов 32: ↑30 и ↓2 +28
Комментарии 19

Новый запуск курса Natural Language Processing

Время на прочтение 2 мин
Количество просмотров 5.1K
Блог компании Open Data Science Машинное обучение *Искусственный интеллект Natural Language Processing *

Уже в среду мы делаем новый запуск курса по обработке естественного языка от ODS и Huawei. Ссылка на курс вот. В этом запуске дополнительно расскажу про то, как устроены Github Copilot и OpenAI Codex, ну и в целом про NLP4Code.

Читать далее
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 9

Информация

Сайт
ods.ai
Дата регистрации
Дата основания
Численность
5 001–10 000 человек
Местоположение
Россия