Как стать автором
Обновить
3
0

Пользователь

Отправить сообщение

Тестируем Pixtral12B и LLaMA 3.2 11B на народных Tesla P100 и P40

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров2.4K

Привет Хабр! С вами снова ServerFlow, и мы начинаем наш новый цикл статей о проектах связанных с GPU. В начале цикла мы хотим заняться непривычной для нас темой — нейросетями, а именно большими языковыми моделями LLM. В сентябре‑октябре, судя по новостям вышел особенно богатый урожай мультимодальных нейросетей в открытом доступе, в этом посте будем смотреть на Pixtral 12B и LLaMA 32 11B, а запускать их будем на двух народных и легко доступных на БУ‑рынке карточках для работы с нейросетями — Nvidia Tesla P100 и P40.

Читать далее
Всего голосов 11: ↑11 и ↓0+15
Комментарии17

Операции машинного обучения (MLOps) для начинающих: полное внедрение проекта

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров3.5K

Разработка, развёртывание и поддержка моделей машинного обучения в продакшене может быть сложной и трудоёмкой задачей. Здесь на помощь приходит Machine Learning Operations (MLOps) — набор практик, который автоматизирует управление ML-процессами и упрощает развёртывание моделей. В этой статье я расскажу о некоторых основных практиках и инструментах MLOps на примере реализации проекта от начала до конца. Это поможет вам эффективнее управлять ML-проектами, начиная с разработки и заканчивая мониторингом в продакшене.

Прочитав эту статью, вы узнаете, как:

— Использовать DVC для версионирования данных.
— Отслеживать логи, артефакты и регистрировать версии моделей с помощью MLflow.
— Развернуть модель с помощью FastAPI, Docker и AWS ECS.
— Отслеживать модель в продакшене с помощью Evidently AI.

Читать далее
Всего голосов 17: ↑17 и ↓0+22
Комментарии1

Как ускорить сборку Docker-образов в GitLab: стратегии кэширования с Docker Buildx

Уровень сложностиСложный
Время на прочтение16 мин
Количество просмотров6.7K

Скорость сборки Docker-образов играет важную роль в CI/CD, особенно для микросервисов, где частые обновления и тестирования требуют быстрой доставки изменений.

Одним из решений для оптимизации сборок является Docker Buildx — расширение к стандартной команде docker build. Docker Buildx предлагает дополнительные возможности, такие как кэширование слоев образов, что помогает значительно сократить время сборки за счет повторного использования неизменных слоев. В отличие от стандартного процесса сборки, Docker Buildx предоставляет более гибкое управление кэшем, поддерживает мультиархитектурные сборки и работу с несколькими платформами.

В этой статье мы сосредоточимся на том, как эффективно настроить и использовать кэширование с Docker Buildx в CI/CD пайплайнах на GitLab. Мы рассмотрим примеры, когда кэширование позволяет ускорить сборку, и ситуации, когда его лучше отключить для гарантии корректности итогового образа.

Читать дальше →
Всего голосов 14: ↑14 и ↓0+17
Комментарии6

Пацанский английский. Ленивый способ наконец выучить английский язык: без курсов, без зубрежки, бесплатно

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров160K

Привет, Хабр! Я не являюсь преподавателем английского языка, но, как и многие присутствующие, долгие годы хотел постигнуть его дебри. В школе я от всего сердца завидовал ребятам, которым он даётся налегке, без видимых трудностей. Я же зубрил, пытался понять, получал двойки… и люто ненавидел английский язык как школьный предмет. Мечтал владеть, но совсем не хотел учить. После школы и университета приступал к его изучению несколько раз, однако каждый мой всплеск быстро угасал.

Наконец случилось чудо. В одну из очередных попыток я нащупал способ, который позволил продолжать развиваться, делать успехи, осознавать их и разжигать мой огонь всё сильнее и сильнее. Сегодня мне сложно представить день, проведенный без английского языка. И мне не хочется говорить без “изучения”, поскольку не сказал бы, что я именно учу. Скорее — постепенно “прошиваюсь” английским, как это обычно происходит с новорожденным детьми, которые постепенно начинают говорить, слушая и наблюдая за своими родителями. В настоящее время мой словарный запас не такой большой: 9 — 12 тысяч слов (зависит от теста). Я свободно смотрю видео на Ютубе разнообразной тематики (видеоуроки, спорт, фитнес, музыка, путешествия, кулинария, обзоры и т.д.), читаю документацию, компьютерную и популярную литературу, публицистику.

Читать далее
Всего голосов 143: ↑134 и ↓9+142
Комментарии290

Обзор платформы Kaggle для начинающих: от состязаний до менторской программы

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров4K

В IT-среде название Kaggle часто ассоциируется только с соревнованиями. Но на самом деле это полноценная социальная сеть и база данных для специалистов в сфере Data Science и ML.

Подготовили обзор, чтобы помочь новичкам разобраться в Kaggle. Разбираем, что площадка предлагает джунам и опытным специалистам, как пользоваться ее функциями и с какими задачами она может помочь.

Читать далее
Всего голосов 5: ↑5 и ↓0+9
Комментарии0

Kafka Streams ч1: Привет, мир

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.2K

Привет, сообщество HABR! =)

Начав изучать Kafka Streams, я заметил, что для решения различных задач приходится искать информацию по разным источникам, поэтому со временем накопилось много собственных конспектов. Хочу поделиться ими в виде серии туториалов на Хабре.

Несмотря на обилие ресурсов по Kafka Streams и отличные статьи на Хабре [ноль, один, два], мне не хватало пошаговых руководств, которые детально раскрывают изъяны и преимущества этой технологии. Поэтому решил создать такой материал, чтобы помочь другим разобраться структурно и последовательно.

Читать далее
Всего голосов 2: ↑2 и ↓0+4
Комментарии3

Обучение GigaChat с контекстом в сотни тысяч токенов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3K

Помните фразу «640 килобайт памяти хватит всем»? Запросы человечества вечно растут, а индустрии надо поспевать.

Вот и с языковыми моделями так. Ещё недавно мы все удивлялись тому, на что они стали способны. А теперь нам этого мало: «ну хорошо, а может модель в диалоге учитывать то, что я сказал сотни реплик назад?»

Весной на нашей конференции I'ML Евгений Косарев (SberDevices) рассказал о том, как к увеличению контекста подошли при работе над GigaChat. А сейчас мы публикуем текстовую расшифровку его доклада. Ссылки на его видеозапись тоже прилагаем: YouTube, VK Видео.

Читать далее
Всего голосов 11: ↑11 и ↓0+18
Комментарии1

OpenCV: компьютерное зрение на Python

Время на прочтение6 мин
Количество просмотров6.4K

Компьютерное зрение — это перспективное направление развития технологий, позволяющее обучить компьютер навыкам распознавания изображений и видео. С помощью компьютерного зрения компьютеры могут не только анализировать и понимать визуальную информацию, такую как изображения и видео, но и принимать решения на основе увиденного. Так автопилот, управляющий автомобилем, может анализировать изображения, поступающие с камер и принимать решения на основании данной информации. Компьютерное зрение на производстве позволяет выявлять износ различных деталей до того, как это приведет к поломке.

В этой статье мы рассмотрим несколько примеров работы с компьютерным зрением с помощью бесплатной библиотеки OpenCV.

Читать далее
Всего голосов 10: ↑9 и ↓1+11
Комментарии5

Как мы ищем деградации на нодах в кластерах Kubernetes

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров7.4K

Привет, Хабр! Меня зовут Станислав Егоркин, я инженер юнита IaaS департамента разработки Infrastructure в Авито. В этой статье я расскажу про инструмент, который мы используем для обнаружения деградаций на нодах в кластерах Kubernetes, а также покажу дашборд, где мы наблюдаем за состоянием всех наших нод.

Читать далее
Всего голосов 21: ↑21 и ↓0+23
Комментарии6

Как выигрывать Kaggle соревнования: LLM-анализ выигрышных решений

Время на прочтение5 мин
Количество просмотров3.9K

Примерно год назад энтузиаст с Kaggle по имени Дарек Клечек провел интересный эксперимент: он собрал все доступные описания (writeups) побеждавших на Kaggle за последние годы решений, пропустил их через LLM и свел по ним общую статистику о том, какие механики и алгоритмы оказываются "наиболее победными". Отчет у парня получился достаточно объемный, интересный, а местами и непредсказуемый. Эта статья – свободный авторский пересказ его эссе. И пусть прологом к ней послужит цитата Дарека:

Читать далее
Всего голосов 7: ↑6 и ↓1+7
Комментарии3

Настройка кластера высокой доступности: PostgreSQL + (Patroni и etcd)

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров6.4K

Хабр, привет!

В этом материале будем настраивать кластер PostgreSQL с Patroni и etcd. Видели множество статей на эту тему, но наше отличие в том, что мы устанавливаем кластер в виртуальной среде, используя новые компоненты.

Немного теории. Patroni — это инструмент для управления высокодоступными кластерами PostgreSQL. Он упрощает настройку и управление репликацией благодаря автоматическому переключению на резервные узлы и восстановлению после сбоев.

В нашем материале мы рассмотрим настройку такого кластера с использованием etcd для координации, а еще будем использовать только пакеты для ручной установки. Потому что частенько в локальных репозиториях преобладают старые пакеты, в которых есть уязвимости. В таких случаях лучше устанавливать пакеты вручную.

Зачем мы это делаем?

Во-первых, интересно. Во-вторых, это нам позволит установить последние версии пакетов без открытого доступа в интернет с серверов. Во многих компаниях изолированная сетевая среда — поэтому вот вам памятка по такой задаче.:)

Итак, приступим.

Читать далее
Всего голосов 13: ↑12 и ↓1+19
Комментарии12

Настройка автовакуумирования в PostgreSQL

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.6K

Привет, Хабр!

Сегодня поговорим о том, как правильно настраивать автовакуумирование в PostgreSQL — одном из механизмов, который позволяет базе данных оставаться "в форме" и поддерживать производительность на должном уровне. Если неправильно подойти к настройке, можно столкнуться с деградацией скорости обработки запросов и внезапным ростом объема данных.

Читать далее
Всего голосов 16: ↑14 и ↓2+18
Комментарии12

Как мы заработали 100 000 рублей за 3 месяца, запустив простой конвертер картинок в США

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров62K

Что мы поняли, запустив простой конвертер картинок за 1 месяц в США. И как заработали 100 000 рублей за первые 3 месяца, хотя вокруг куча бесплатных аналогов.

Читать далее
Всего голосов 121: ↑109 и ↓12+116
Комментарии219

Kafka за 20 минут. Ментальная модель и как с ней работать

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров125K

Привет! Меня зовут Глеб Гончаров, и я руковожу подгруппой ИТ-инфраструктуры в СберМаркете. В работе мы широко используем Kafka как шину данных для микросервисов и не раз убедились на практике, что к инструменту важно подобрать правильный подход. Об этом сегодня и поговорим в двух частях — сначала обсудим основы, а в конце статьи будет ссылка на практические задания.

Читать далее
Всего голосов 41: ↑41 и ↓0+41
Комментарии15

Обучение в Stanford Online: Advanced Cybersecurity

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров9.1K

Привет! Меня зовут Николай, я работаю в сфере QA с 2010 года. Это моя первая статья на Хабре. На основе своего опыта прохождения сертификации Stanford Online в 2023 году я расскажу про процессы поступления и обучения, структуру программы Advanced Cybersecurity и платформу онлайн обучения, опишу особенности и в конце статьи поделюсь своим мнением.

Читать далее
Всего голосов 3: ↑3 и ↓0+5
Комментарии2

Системный аналитик. Краткий гайд по профессии. Часть 2. Сбор, анализ и документирование требований (UML, BPMN)

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров15K

Из этой статьи вы узнаете о типах требований и рассмотрите пример их оформления, познакомитесь с основными методами их сбора, рассмотрите основные типы диаграмм (Use Case, Sequence, State, Class, ER-diagram, BPMN) и инструменты, используемые при их документировании.

Предыдущая статья: Системный аналитик. Краткий гайд по профессии. Часть 1

Читать далее
Всего голосов 19: ↑15 и ↓4+12
Комментарии6

Kafka Connect на примере Debezium PostgresConnector

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров17K

В предыдущей статье про микросервисную архитектуру на основе событий с использованием Kafka Streams достаточно поверхностно был упомянут io.confluent.connect.jdbc.JdbcSourceConnector, который использовался для вычитания данных из SQLite и отправки их в топик Kafka. Сейчас я бы хотел более подробно разобрать технологию Kafka Connect на примере io.debezium.connector.postgresql.PostgresConnector. Как и в прошлый раз, я реализовал небольшой демо проект, код которого доступен на GitHub. В проекте кода совсем немного, однако чтобы понять все настройки, примененные в коннекторе, придется достаточно подробно пройтись по теоретической части. Итак, приступим.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии2

Prometheus: как Бог огня стал Богом мониторинга

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.2K

Одним из важных компонентов современной разработки программного обеспечения является мониторинг. Он позволяет непрерывно следить за состоянием приложений и инфраструктуры, что дает возможность активно обнаруживать проблемы, предотвращать возникновение аварий и оптимизировать работу системы.

Метрики собирает и анализирует Prometheus – гибкая система с открытым исходным кодом, являющаяся одним из самых распространенных инструментов для реализации мониторинга.

Цель данной статьи - рассмотреть процесс разработки сервиса мониторинга на основе Prometheus и оценить его значимость в контексте современной разработки программного обеспечения.

Читать далее
Всего голосов 16: ↑14 и ↓2+13
Комментарии14

Курс «PostgreSQL для начинающих»: #4 — Анализ запросов (ч.2 — узлы получения данных)

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров12K

Продолжаю публикацию расширенных транскриптов лекционного курса "PostgreSQL для начинающих", подготовленного мной в рамках "Школы backend-разработчика" в "Тензоре".

В первой части лекции мы узнали, что такое план выполнения запроса, как и зачем его читать (и почему это совсем непросто), и о каких проблемах с производительностью базы он может сигнализировать. В этой - разберем, что такое Seq ScanBitmap Heap ScanIndex Scan и почему Index Only Scan бывает нехорош.

Как обычно, для предпочитающих смотреть и слушать, а не читать - доступна видеозапись (часть 1часть 2) и слайды.

Читать далее
Всего голосов 18: ↑18 и ↓0+23
Комментарии6

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 5: Поведенческое интервью + Бонусы

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.9K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к дизайну систем машинного обучения.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к поведенческому интервью, а также ресурсы, которые не подошли по тематике ни к одной из предыдущих статей.

Читать далее
Всего голосов 9: ↑3 и ↓6+1
Комментарии0
1
23 ...

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность