Все потоки
Поиск
Написать публикацию
Обновить
763.1

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Время на прочтение6 мин
Количество просмотров2.7K

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.

Читать далее

Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров29K

Используя технику Retrieval-Augmented Generation ("Поисковая расширенная генерация"), мы настроим русскоязычного бота, который будет отвечать на вопросы потенциальных работников для выдуманного свечного завода в городе Градск.

Читать далее

Делаем 10-минутную задачу за 2 часа с помощью ChatGPT

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров73K

Все мы видели много статей, где с помощью AI-инструментов за минуты выполняется работа, на которую раньше мог легко уйти день. Особенно впечатляют примеры, где работа (успешно) идет вне зоны компетенции человека (т.е. когда AI позволяет делать то, что человек в принципе один сделать не мог бы). Но сегодня у меня получился несколько другой случай:

Читать далее

Как Data Science помогает разрабатывать лекарства

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров2.5K

На протяжении более чем десяти лет я профессионально занимаюсь анализом медицинских данных и участвую в разработке инновационных препаратов. Не скрою, меня приятно удивляет, что в данный момент наука о данных (Data Science) привлекает все больше внимания и захватывает умы максимально широкой аудитории. Тем не менее, меня как ученого несколько расстраивает тот факт, что воображение коллективного разума видит это направление как работу волшебных «black-box» алгоритмов, почти магическим образом заменяющих труд ученых и врачей в поисках панацеи. После моих докладов на различных мероприятиях я все чаще слышу вопросы: зачем все так усложнять? почему бы не накинуть нейросеточку на эти данные? Такие ситуации и подтолкнули меня написать эту статью о методах Data Science, которые действительно востребованы при разработке лекарственных препаратов.

Поиск виновных

Стоит сказать, что разработка инновационных препаратов – долгий, дорогой и очень сложный процесс. Так, из 10 000 молекул, предложенных химиками, для тестирования на людях отберут не более 10, из которых лишь одна дойдет до пациентов. Средняя стоимость разработки препарата составит более двух миллиардов долларов, а весь процесс займет не менее 15 лет. За это время накопится огромное количество разнородной информации, которую фармкомпании будут использовать для принятия самых разных решений. Давайте посмотрим, что это за информация, как и какие решения она помогает принимать, начиная с разработки фундаментальной идеи и вплоть до этапа реальной помощи пациенту.

Читать далее

Исследование рыночной корзины на основе данных розничной торговли в Стамбуле

Время на прочтение5 мин
Количество просмотров2.2K

Всем привет! Вот и я добралась до Хабра :).
Хочу поделиться своей проектной работой, которую написала в рамках курса OTUS "Machine Learning.Basic".

Итак, нас ждет путешествие в увлекательный мир шопинга в Стамбуле!

Целью работы было получить представление о тенденциях и моделях покупок в Стамбуле и определить наиболее оптимальную модель для анализа данных.
Языком разработки выступил Python, средой - Jupyter Notebook (anaconda3).

Для данной работы я использовала информацию о покупках в 10 различных торговых центрах в период с 2021 по 2023 год. Датасет содержит данные различных возрастных групп и полов, что дает комплексное представление о покупательских привычках в Стамбуле. Набор данных включает в себя важную информацию, такую ​​как номера счетов, идентификаторы клиентов, возраст, пол, способы оплаты, категории продуктов, количество, цена, даты заказа и расположение торговых центров.

Читать далее

Классификация текстов в spaCy: пошаговая инструкция

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.6K

Вы узнаете, как реализовать классификатор текстов при помощи библиотеки spaCy, а также несколько полезных лайфхаков, которые помогут ускорить обработку данных.

Читать далее

Как мы запустили автобиддер для управления рекламными кампаниями в Ozon?

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров8.7K

Привет! Меня зовут Артём, я руковожу командой эффективности рекламы в Ozon. Наша задача состоит не только в том, чтобы реклама приносила деньги компании, заказы рекламодателям и была релевантной для пользователей, но и в том, чтобы сделать запуск рекламных кампаний удобным и эффективным для рекламодателей. 

В статье я расскажу о том:

как мы пришли к идее автоматического управления ставками в рекламных кампаниях на платформе;

какие алгоритмы оптимизации и машинного обучения нам помогли;

как построена архитектура автобиддера;

как выкатить новый продукт в прод и измерять эффективность.

Читать далее

Приглашаем на Ozon Tech Community ML&DS Meetup

Время на прочтение2 мин
Количество просмотров1.4K

Всем привет, меня зовут Артём, я руководитель команды «Эффективность рекламы». Мы пока не предлагаем генеративные модели для пользователей, но мы делаем другие крутые вещи, связанные с ML&DS. И хотим о них рассказать.

Приглашаю на Ozon Tech Community ML&DS Meetup, где вас ждут сразу 4 темы от экспертов блока по продукту и технологиям «Поиск, Рекомендации и Реклама». На встрече мы рассмотрим, что такое поисковые подсказки в Ozon, как были внедрены нейросети в рекомендации, зачем нужен автобиддер в рекламе и как он влияет на эффективность, а также поговорим про ML-инфраструктуру и её отдельных компонентах.

Читать далее

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров25K

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!

Первое слово из нераспечатанного Геркуланумского папируса обнаружено 21-летним студентом факультета информатики

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров10K

Геркуланумские папирусы — древние свитки, хранившиеся в библиотеке частной виллы близ Помпеи — были погребены и обуглены в результате извержения Везувия в 79 году нашей эры. Почти 2 тыс. лет эта единственная сохранившаяся библиотека античности была погребена под 20-метровым слоем вулканической грязи. Их раскопали в XVIII веке, и хотя они в какой-то мере сохранились благодаря извержению, они были настолько хрупкими, что при неправильном обращении превращались в пыль. Как читать свиток, который нельзя открыть? Сотни лет этот вопрос оставался без ответа.

И только в августе этого года Люк Фарритор, участник конкурса «Везувий», стал первым за последние два тысячелетия человеком, увидевшим целое слово из нераспечатанного свитка. За это мы с радостью вручаем Люку приз в размере 40 000 долларов США — приз «Первые буквы», в рамках которого участники должны были найти не менее 10 букв на площади 4 см2 в свитке.

Читать далее

Построение ML модели для оценки текста языкового экзамена

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.9K

Путешествуя по просторам Kaggle, я встретила обычный, на первый взгляд, датасет с результатами письменной части языкового экзамена IELTS. Так как недавно я сама активно готовилась к сдаче подобного экзамена, тема меня чрезвычайно заинтересовала и я решила попробовать создать модель, способную предсказывать оценку на основе текста эссе.

Итак, сначала определимся с постановкой задачи. Результаты экзамена оцениваются по шкале от 0.0 до 9.0, с шагом 0.5, поэтому я рассматривала задачу как многоклассовую классификацию.

Читать далее

Разметка данных при помощи GPT-4

Время на прочтение9 мин
Количество просмотров8.5K

Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?

GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).
Читать дальше →

Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.8K

У нас в гостях специалист с 15-летним опытом в Machine Learning который совмещает пару высокоуровневых должностей в разных компаниях — Head of ML в Cherry Labs и CTO в Rembrain. За полтора часа мы обсудили: позабытые ML-фреймворки и перспективы Reinforcement Learning, выяснили, какие платы с NPU лучше подходят для pet-project и зачем норвежцам роборуки.

Читать далее

Ближайшие события

От A/B-тестирования к Causal Inference в офлайн ритейле

Уровень сложностиСредний
Время на прочтение31 мин
Количество просмотров21K

Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом. 

Читать далее

Поговорите с детьми об ИИ: шесть вопросов, которые стоит обсудить

Время на прочтение6 мин
Количество просмотров3.1K


ИИ, и в том числе ChatGPT, активно входит в нашу жизнь. Сейчас многие взрослые уже освоились с технологией, а школы решили исследовать, как использовать системы ИИ для обучения детей важному навыку — критическому мышлению. Но и в школе, и в жизни дети сталкиваются не только с чат-ботами. Искусственный интеллект проникает всюду: он рекомендует нам видео на Netflix, помогает Alexa отвечать на вопросы, управляет любимыми интерактивными фильтрами в Snapchat и способами разблокировки смартфона.

Команда VK Cloud перевела статью о том, почему детям важно знать об ИИ как можно больше и понимать принципы работы этих систем. В статье раскрывается, что важно рассказать об ИИ детям — хотя и взрослым это будет полезно.
Читать дальше →

9 лучших инструментов аннотирования изображений для Computer Vision

Время на прочтение9 мин
Количество просмотров4.4K

На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.

Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.

Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.
Читать дальше →

Как Guidance выводит ИИ на новый уровень: инструмент для эффективного управления моделями

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.4K

В последнее время наблюдается стремительный прогресс в сфере обработки естественного языка. Появление мощных языковых моделей вроде GPT и Bard действительно открыло новые возможности для создания интеллектуальных приложений. Однако вместе с тем мы столкнулись с необходимостью более совершенных инструментов для эффективной интеграции и управления такими моделями.

И вот недавно компания Microsoft представила Guidance - язык управления, предназначенный для контроля над большими языковыми моделями. По нашему мнению, этот инструмент может существенно изменить процесс разработки приложений на основе возможностей AI. 

В данной статье мы хотели бы поближе познакомиться с его особенностями и разобраться, что же это за "зверь". Надеемся, эта информация будет полезна для разработчиков, исследователей и организаций, которые активно работают над совершенствованием контроля поведения LLM.

Приглашаем к прочтению!

Читать далее

GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров26K

Обращаясь к мастерам научной фантастики, всё чаще удивляешься их проницательности. В рассказе Артура Кларка «Девять миллиардов имён Бога» компьютер воплотил пророчество тибетских монахов о наступлении конца света, а в повести Ника Горькавого «Астровитянка» ИИ был единственным другом маленькой девочки в течение десятка лет и помог ей выжить на чужой планете. Многие люди, включая специалистов, верят как в позитивный, так и в негативный путь развития искусственного интеллекта. К счастью, подобные системы являются лишь инструментом, который можно использовать себе во благо, или оставаться в стороне от этого. Уверен, что в течение нескольких лет ажиотаж вокруг нейросетей постепенно спадёт до такой степени, что мы будем относиться к ним как к ещё одному подарку технического прогресса.

А пока мы с вами находимся в настоящем и предвкушаем наступление новой технологической эры, предлагаю разобраться в основах машинного обучения и познакомиться с новой версией GigaChat'а. В ней нам удалось добиться качественного прорыва, обойти аналогичные по размеру языковые модели, а также расширить максимальную длину входного запроса модели и проделать множество других улучшений. Но обо всём по порядку.

Сначала освежим в памяти, что такое языковые модели и как они развивались до сегодняшних дней.

Читать далее

Как мы выбирали модель классификатора на основе международных научных практик для сервиса e-mail-рассылок

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров2.4K

Всем привет, на связи Елисеев Арсений. Сегодня расскажу, как разрабатывал модель классификатора для сервиса e-mail-рассылок Pochtaboy. Сам продукт находится еще в стадии тестирования, однако у него есть первые пользователи, на которых мы и проверим эффективность выбранной модели. 

Читать далее

Посторонись, Copilot: подборка разнообразных AI-инструментов для разработчиков

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров42K

За пределами всем известного GitHub Copilot лежит огромный мир полезных приложений для программистов, и каждую неделю в нем появляется что-нибудь новенькое. В этом посте мы расскажем об этих инструментах — как полноценных конкурентах продукта GitHub, так и более специфических плагинах, а также о нашей собственной разработке в этом направлении.

Читать далее

Вклад авторов