Пользователь

Профиль Публикации Комментарии 8Закладки 74

Leono 15 янв 2020 в 15:18

gRPC в качестве протокола межсервисного взаимодействия. Доклад Яндекса

16 мин

187K

Java*C++*Блог компании ЯндексAPI*Микросервисы*

gRPC — опенсорсный фреймворк для удаленного вызова процедур. В Яндекс.Маркете gRPC используется как более удобная альтернатива REST. Сергей Федосеенков, который руководит службой разработки инструментов для партнеров Маркета, поделился опытом использования gRPC в качестве протокола для построения интеграций между сервисами на Java и C++. Из доклада вы узнаете, как избежать частых проблем, если вы начинаете использовать gRPC после REST, как возвращать ошибки, реализовать трассировку, отлаживать запросы и тестировать вызовы клиентов. В конце есть неофициальная запись доклада.

— Сначала хотелось бы познакомить вас с некоторыми фактами про Яндекс.Маркет, они будут полезны в рамках доклада. Первый факт: мы пишем сервисы на разных языках. Это накладывает требования по наличию клиентов для сервисов.

Читать дальше →

+30

Takagi 7 сен 2023 в 12:11

Как (быстро) сделать русский локальный ChatGPT

Средний

7 мин

36K

Программирование*Машинное обучение*Искусственный интеллектNatural Language Processing*

Ретроспектива

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

+88

dimasklyarov 9 дек 2023 в 19:31

RAG (Retrieval Augmented Generation) — простое и понятное объяснение

Простой

8 мин

20K

Natural Language Processing*

Из песочницы

Краткое и понятное описание подхода RAG (Retrieval Augmented Generation) при работе с большими языковыми моделями.

gofixyourself 2 июн 2023 в 11:06

Ускоряем процесс разметки с помощью интерактивной сегментации

Средний

14 мин

5.4K

Обработка изображений*Машинное обучение*Искусственный интеллектБлог компании SberDevices

Обзор

Всем привет! Сегодня поговорим про задачу интерактивной сегментации на основе кликов (click-based) и как она может ускорить процесс разметки данных для различных типов сегментации. Сегментационные модели применяются в распознавании событий и объектов в видео (Video Understanding), анализе медицинских снимков и в управлении беспилотных автомобилей, а также с их помощью реализована замена фона в приложениях для видеозвонков, бьютификация и автоматическая ретушь фотографий. SberDevices тоже активно разрабатывают свои решения для семантической сегментации – недавно мы рассказывали про задачу замены фона и бьютификацию в нашей статье, в которой представили новый большой opensource датасет для Portrait Segmentation и Face Parsing вместе с набором предобученных моделей.

+13

murat_apishev 7 мар 2023 в 11:52

Как мы улучшаем выделение интентов в наших продуктах

Средний

13 мин

1.9K

Машинное обучение*Блог компании Just AIИскусственный интеллектNatural Language Processing*

Cезон machine learning

Привет, Хабр! На связи Мурат Апишев, руководитель направления NLP R&D в Just AI. Одним из ключевых направлений компании является разработка инструментов для создания голосовых и чат-ботов. Задача создания классификатора интентов в таких проектах является краеугольным камнем, и в этой статье я бы хотел поделиться некоторыми апдейтами наших продуктов в этом направлении. Речь пойдет о внедрении моделей классификации и парафраза на основе трансформеров. Приятного чтения!

ZlodeiBaal 15 июн 2020 в 11:03

Самая сложная задача в Computer Vision

13 мин

67K

Python*Обработка изображений*Блог компании RecognitorМашинное обучение*Искусственный интеллект

Туториал

Среди всего многообразия задач Computer Vision есть одна, которая стоит особняком. К ней обычно стараются лишний раз не притрагиваться. И, если не дай бог работает, — не ворошить.
У неё нет общего решения. Практически для каждого применения существующие алгоритмы надо тюнинговать, переобучать, или судорожно копаться в куче матриц и дебрях логики.

Статья о том как делать трекинг. Где он используется, какие есть разновидности. Как сделать стабильное решение.

+127

izakharkin 10 июл 2019 в 15:54

Вижу, значит существую: обзор Deep Learning в Computer Vision (часть 2)

18 мин

37K

Программирование*Обработка изображений*Блог компании Московский физико-технический институт (МФТИ)Машинное обучение*Искусственный интеллект

Продолжаем постигать современную магию (компьютерное зрение). Часть 2 не значит, что нужно сначала читать часть 1. Часть 2 значит, что теперь всё серьёзно — мы хотим понять всю мощь нейросетей в зрении. Детектирование, трекинг, сегментация, оценка позы, распознавание действий… Самые модные и крутые архитектуры, сотни слоёв и десятки гениальных идей уже ждут вас под катом!

Читать дальше →

+27

vsabadazh 16 июл 2014 в 23:50

Теория относительности в реальном мире: GPS

4 мин

133K

Глобальные системы позиционирования*Блог компании Ivideon

Перевод

Люди часто спрашивают меня: «Чем же так хороша теория относительности?». Обычно о ней думают как о некой абстрактной, мистической математической теории, никак не связанной с повседневной жизнью. На самом деле, это совсем не так.

Читать дальше →

+142

162

s_valuev 16 мар 2023 в 13:42

Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику

6 мин

4.3K

IT-инфраструктура*Блог компании SelectelBig Data*Машинное обучение*Data Engineering*

Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.

Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.

Читать дальше →

+44

Hydead 6 мар 2023 в 14:39

Как устроен виртуальный помощник для data-сервисов в «Магните»

6 мин

2.2K

Big Data*Хранилища данных*Блог компании Magnit Tech

Кейс

Привет! Меня зовут Александр, я главный системный аналитик в департаменте по работе с данными «Магнита». В этой статье рассказываю про виртуального помощника (чат‑бота), который помогает пользователям корпоративного хранилища данных (КХД) ориентироваться в данных и сервисах департамента и других подразделений, развивающих инструменты для аналитики.

Dr_Wut 27 фев 2023 в 15:38

VS Code, python, контейнеры — как обуздать эту триаду и разрабатывать внутри контейнера

Средний

16 мин

35K

Python*Программирование*Блог компании RUVDS.com

Туториал

Как пользоваться VS Code в полную силу

Это небольшой туториал о настройке VS Code для работы с python. Здесь вы не увидите каких-то божественных откровений — тут будет просто мой опыт о том, как сделать свою работу/хобби немного комфортнее и почему я пришел именно к такой конфигурации.

Читать дальше →

+55

Greiv656 27 фев 2023 в 05:21

Недорогие механические клавиатуры: 5 вариантов, на которые стоит обратить внимание в 2023 году

4 мин

38K

Блог компании SelectelГаджетыКомпьютерное железо

MSI Vigor GK50

Механические клавиатуры нравятся многим. При этом некоторые представители этого направления — настоящие произведения искусства, которые стоят весьма немало. Но есть и более-менее бюджетные варианты, которые и работают отлично, и стоят не очень много. Вот на них как раз и предлагаю обратить внимание.

Читать дальше →

+52

sterling239 20 фев 2023 в 16:09

Как я сделал синтез своего голоса

Простой

12 мин

29K

Машинное обучение*Искусственный интеллектЗвукГолосовые интерфейсы*Блог компании SberDevices

Кейс

Всем привет! Меня зовут Гриша Стерлинг, я занимаюсь синтезом речи в SberDevices. Недавно прошла конференция AI Journey, где я рассказал, как сделал синтез своего голоса. За 15 минут выступления я не успел рассказать все, поэтому решил написать большой пост с деталями. Он будет интересен датасаентистам, людям из бизнеса и ai‑энтузиастам. Приглашаю всех под кат.

+25

Anna_sokol22 20 фев 2023 в 14:00

Лучшая задача по программированию для собеседования

7 мин

62K

Программирование*Алгоритмы*Блог компании СлёрмКарьера в IT-индустрии

Перевод

Готовиться к собеседованию можно по-разному: смотреть ролики на YouTube, читать документацию, положиться на судьбу и тд. В большинстве случаев кандидатам предложат решить одну или несколько задач. В этой статье вас ждет подробный разбор реальной задачки, рекомендации к ее решению и объяснение ожиданий интервьюера от кандидатов.

+22

271

PatientZero 16 фев 2023 в 09:45

Пишем GPT в 60 строк NumPy (часть 1 из 2)

Средний

16 мин

71K

Python*Алгоритмы*Математика*Машинное обучение*Искусственный интеллект

Туториал

Перевод

В этом посте мы начнём реализацию с нуля GPT всего в 60 строках numpy. Во второй части статьи мы загрузим в нашу реализацию опубликованные OpenAI веса обученной модели GPT-2 и сгенерируем текст.

Читать дальше →

+92

MoZZes 14 июл 2018 в 10:35

Запускаем LDA в реальном мире. Подробное руководство

12 мин

34K

Python*Программирование*Data Mining*Машинное обучение*Искусственный интеллект

Туториал

Из песочницы

Предисловие

На просторах интернета имеется множество туториалов объясняющих принцип работы LDA(Latent Dirichlet Allocation — Латентное размещение Дирихле) и то, как применять его на практике. Примеры обучения LDA часто демонстрируются на "образцовых" датасетах, например "20 newsgroups dataset", который есть в sklearn.

Особенностью обучения на примере "образцовых" датасетов является то, что данные там всегда в порядке и удобно сложены в одном месте. При обучении продакшн моделей, на данных, полученных прямиком из реальных источников все обычно наоборот:

Много выбросов.
Неправильная разметка(если она есть).
Очень сильные дисбалансы классов и 'некрасивые' распределения каких-либо параметров датасета.
Для текстов, это: грамматические ошибки, огромное кол-во редких и уникальных слов, многоязычность.
Неудобный способ харнения данных(разные или редкие форматы, необходимость парсинга)

Исторически, я стараюсь учиться на примерах, максимально приближенных к реалиям продакшн-действительности потому, что именно таким образом можно наиболее полно прочувстовать проблемные места конкретного типа задач. Так было и с LDA и в этой статье я хочу поделиться своим опытом — как запускать LDA с нуля, на совершенно сырых данных. Некоторая часть статьи будет посвящена получению этих самых данных, для того, чтобы пример обрел вид полноценного 'инженерного кейса'.

Читать дальше →

+10

djunka 8 фев 2023 в 13:32

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

9 мин

7.7K

Open source*Data Mining*Машинное обучение*Искусственный интеллектБлог компании SberDevices

У нас в SberDevices очень сильная команда, разрабатывающая и развивающая решения в сфере речевых технологий. Раньше мы уже рассказывали о том, как обучить модель распознавания речи на открытых данных, и о том, как устроен наш синтез.

Однако, помимо распознавания и синтеза речи, мы развиваем технологии распознавания эмоций голоса для линейки наших умных устройств, а также для решений, позволяющих анализировать общение по телефону. Например, на этой технологии базируется наш новый продукт SaluteSpeech Insights, который автоматически оценивает эмоции клиента и оператора колл-центра по каждой произнесенной ими фразе, классифицирует все диалоги на позитивные, нейтральные и негативные, определяет более 300 различных речевых характеристик, а еще прогнозирует оценку CSI (Customer Satisfaction Index).

+17

virtual_explorer 5 фев 2023 в 16:29

Три уровня биохакинга. Как можно снова стать 18-летним за $2 млн в год

11 мин

82K

Блог компании FirstVDSЛайфхаки для гиковЗдоровье

Многие из нас хотели бы жить вечно. Или как минимум чувствовать себя здоровее. Но некоторые превращают это в цель своей жизни. Они тратят огромные деньги и усилия, чтобы изменить свою биологию, надеясь как-то оттянуть неизбежное, и вечно оставаться молодыми.

Понятно, что таким часто страдают спортсмены, для которых здоровье — это всё. Например, теннисист Новак Джокович, 35 лет, любит сидеть в камере под высоким давлением, чтобы обогатить свою кровь кислородом. Американский футболист Том Брэди в 45 лет принимает «антивозрастные» добавки, наносит на кожу увлажняющие порошки и катает по телу специальные вибрирующие шарики для улучшения гибкости мышц. А Криштиану Роналду выглядит моложе своих 38 лет за счет строгой диеты из яиц, батата и брокколи и регулярных «ванн» в своем личном кислородном резервуаре (гипербарическая оксигенотерапия).

Но среди наших братьев айтишников биохакинг в последние годы стал даже популярнее, чем среди спортсменов. Мол, научились взламывать игры и сайты, сможем взломать и свое тело! Чтобы начитить себе 140 лет жизни и чтоб никогда не болела спина!

Здесь, как обычно, есть три уровня: от начинающего хакера, впервые узнавшего, что такое root-доступ, и до бога-взломщика своего тела, на которого работает целый подпольный синдикат.

Давайте разберемся, на какие практические шаги пошли самые целеустремленные из нас, чтобы продлить свою жизнь. И сколько всё это стоит.

Осторожно, в посте много фото!

+42

257

edeshina 2 фев 2023 в 10:44

Типовое использование RabbitMQ

4 мин

31K

Высокая производительность*Системное администрирование*Программирование*IT-инфраструктура*Блог компании Слёрм

Обзор

Алексей Барабанов, IT-директор «Хлебница» и спикер курса «RabbitMQ для админов и разработчиков», подготовил конспект о типовых архитектурных паттернах RabbitMQ. Из него вы узнаете, как настроить пайплайны обработки и реализовать очереди повторных попыток (в том числе, через механизм dead letter exchange).

+37

SmartEngines 2 фев 2023 в 13:45

MIDV-2020: как мы создали крупнейший датасет документов, удостоверяющих личность

8 мин

3.8K

Алгоритмы*Обработка изображений*Машинное обучение*Блог компании Smart EnginesИскусственный интеллект

Ретроспектива

В этой статье мы хотим рассказать как мы создали крупнейший на данный момент набор искусственно созданных документов с большим разнообразием типов документов, их содержания и условий съемки. Каждый из документов имеет уникальные (хоть и выдуманные) значения текстовых полей, уникальную подпись и уникальные искусственно созданные лица.

2 3 4