Этот материал начинает серию из трех постов о том, как объяснить проблемы дата-сайентистов сотрудникам вашей компании, которые ничего не понимают в data science. В первой части я доступно расскажу о нынешнем положении специалистов, их проблемах и типичных запросах, с которыми они сталкиваются.
User
Пожалуйста, чаще спрашивайте кандидата на собеседовании: «Зачем? Для чего?»
Поделюсь своими мыслями о том, как проходят интервью и что на них обсуждается. Подчеркну, что я буду рассуждать в проекции веб‑разработки, но, вероятно, это можно применить на любую область.
Оговорюсь сразу — у меня нет огромного опыта прохождения интервью: всего довелось присутствовать на 7–10. К этому добавляются интервью знакомых, которыми они поделились, а также те, что лежат на просторах интернета (например, на YouTube).
Четыре способа написать Hello world, или инструменты для создания GUI на Python
После написания программы ее можно модифицировать и добавить графический интерфейс — с Python это проще, чем кажется. Для программирования красивого и функционального GUI иногда достаточно простого знания html и css.
Под катом — подборка некоторых инструментов для создания интерфейсов на Python. Сохраняйте статью в закладки и предлагайте свои варианты в комментариях!
Как избежать конкуренции на глобальном рынке и не только
Если наши клиенты получают новый опыт — симуляция, мы объясняем, почему наше предложение другое — новая категория и даем атрибуты, которые поддерживают наше предложение — доказательство новой категории, то избегаем конкуренции, расширяем рыночное предложение и забираем большую часть новой категории себе.
«Я больше не могу найти работу» — истории карьерных неуспехов
Этим летом мы запустили цикл статей с анонимными историями карьерных неуспехов. Это уже четвертая публикация, и истории продолжают приходить, а выбирать их становится все сложнее: кажется, что важные все.
Нам хочется помочь их авторам получить поддержку, найти выход из тупика и просто осознать, что да, трудности случаются.
Под катом — четыре новые истории. Если после прочтения у вас появится идея, как помочь авторам или вы просто узнаете в них себя — ждем вас в комментах. А если вы тоже были в ситуации, когда всё пошло не так — поделитесь с нами, и мы, может быть, заберем вашу историю в следующую статью.
Как создавать качественные ML-системы. Часть 2: приручаем хаос
Команда VK Cloud перевела вторую статью из серии о создании ML-систем. Первую читайте по ссылке. Здесь поговорим о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.
Почему разоряются все салатные фермы, управляемые ИИ
У идеи вертикального земледелия было всё, чтобы привлечь современный венчурный капитал. Новая технология, использующая роботов, дроны и искусственный интеллект. Обещания огромной экономии воды и отсутствие необходимости в нормальной почве (так что, очевидно, это наше будущее на Марсе или просто на неплодородной Земле). Плюс — продовольственная безопасность для всех стран и защита окружающей среды. А еще, конечно же, миллионные прибыли, поскольку люди, живущие в пустынях или засушливых регионах (а их 2,1 млрд), заплатят любые деньги за салат или капусту прямо с грядки, не правда ли?
Всё это звучало прекрасно. И за предыдущие пять лет инвесторы вложили в такие стартапы «вертикального земледелия» миллиарды долларов. Эти стартапы заключали соглашения с Nokia, IKEA, Amazon и Microsoft, фондами Дубая и Абу-Даби. Некоторые стали единорогами, их оценки поднялись в стратосферу. Но сейчас эта новая отрасль столкнулась с суровой реальностью. Финансирование иссякает, прибыли почему-то всё нет, а кредиторы уже рядом и скрежещут зубами.
Обнаружение границ с использованием градиентов
Всем привет. Сегодня поговорим про обнаружение границ с использованием градиентов.
Мы рассмотрим, как найти границы между двумя объектами или двумя частями объекта на изображении с помощью OpenCV. Очень важно найти очертания фигур, чтобы в конечном итоге создать сложную программу, например программу для распознавания лиц.
Книги для начинающих разработчиков: от «Чистой архитектуры» до «Паттернов проектирования»
Книги — отличный источник знаний, это верно. Но как определить, где хорошая книга, а где не очень? Лучше всего воспользоваться рекомендательными сервисами либо же посмотреть обзоры на разные книги в сети. Именно поэтому сегодня публикуем подборку хороших изданий, которые в основном пригодятся начинающим разработчикам. Но, вероятно, они будут полезны и более опытным коллегам. Под катом — самое интересное!
Тестирование ML-моделей. От «пробирки» до мониторинга боевых данных
Из этой статьи вы узнаете, почему важно проводить «лабораторные испытания» ML-моделей, и зачем в тестировании наработок «ученых по данным» должны участвовать эксперты из предметной области, а также — как выглядят тесты после того, как модель покинула датасайнтистскую лабораторию (и это не только мониторинг качества данных).
На первый взгляд кажется, что тестирование ML-моделей должно проходить по классическим ИТ-сценариям. Моделируем процесс, присылаем сценарии тестерам, и начинается магия — невозможные значения входных данных, попытки сломать логику системы и т. д. В некотором смысле все работает именно так: процесс разработки ML-сервисов включает и этот этап. Но только в некотором смысле — ведь у науки о данных есть масса особенностей.
Путь инженера: как эффективно пройти его от джуна до сеньора
Мы все пришли в IT разными путями. Кто-то шёл по этому пути с самого детства, другие начали свой путь с выбора института и computer science в качестве основной дисциплины. Есть и те, кто свернул на эту дорогу, уже имея другую профессию и опыт работы совсем в другой сфере.
Сегодня поговорим не о том, как мы начинали карьеру, а о том, как мы двигаемся по этому пути и как сделать это движение максимально эффективным. Мы посмотрим на те компетенции, которые нужны для перехода между разными грейдами. Обсудим, с какими проблемами можно столкнуться и как их преодолеть.
«Поляризация» машинному зрению вместо свёрточных нейросетей и чем отличается мой генератор карт от алгоритма Брезенхема
Данная публикация служит пояснительным материалом к предыдущей, а так-же самостоятельной для тех, кто читает по данной теме мои публикации впервые.
Сначала о том, каким алгоритмом я планирую заменить в своих работах свёрточные нейросети. Чтобы это работало быстро - нужны карты трассировок. Линии трассировок на карте расположены параллельно под определённым углом на каждой карте - так и происходит условная поляризация. Генератор карт работает быстро и генерирует он карты трассировок направленных прямыми линиями, обрыв каждой линии он отмечает в данных. То-есть сначала запускатеся генератор карт и генерирует картинку, данная анимация существенно отличается от работы генератора и показывает только его ТЗ - в каждом пикселе карты записать координаты следующего пиксела и обозначить в данных окончание каждой линии. Изображения я взял небольшие, но тем не менее файлы анимации достаточно увесистые. Допустим что обрабатываемые изображения будет 7*7 пикселов, а карт трассировок всего четыре, тогда ТЗ генератора примерно будет выглядеть так, но на самом деле его алгоритм намного сложнее и работает на много быстрее - он ничего практически не считает и выдает большие объёмы данных автоматически, но об этом позже, а пока так чисто визуально
Собеседования по алгоритмам: максимальная конкатенация
Чему равно самое большое число, которое можно составить из этих пяти карточек? И как написать программу, которая быстро найдёт ответ, получив на вход сто таких карточек?
CI/CD в Data Science, MLOps в финтехе и тенденции в потоковой передаче данных
Звание текста с лучшими мемами получила статья про антисоветы для работы с ML-экспериментами.
Привет, Хабр! Это уже четвертый выпуск дайджеста по ML и работе с данными для тех, кто тащит эти направления в своих компаниях. Сегодня в программе — антисоветы для работы с ML-экспериментами, обзор библиотеки для Pandas с примесью ChatGPT, очень сложная статья про Ray и многое другое. Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Используйте навигацию, если не хотите читать текст полностью:
→ Теория
→ Практика
→ Мнение
→ Инструменты
→ Видео
Как использовать науку, чтобы меньше стрессовать в IT
Привет! Меня зовут Олег Федоткин, и я руковожу IT-платформой в СберМаркете. А ещё я соведущий подкаста «Для tech и этих» и веду телеграмм-канал «Инженер и менеджер» о том, как балансировать между этими профессиями. Хочу поговорить о том, как работает стресс и как с ним бороться с научной точки зрения. Поделюсь примерами, как мы боремся со стрессом в СберМаркете. К вашим услугам — информация из научпопа и статей с ResearchGate, а еще мои личные советы.
10 книг по Python: как для новичков, так и для профи
Книг по Python довольно много, среди них есть отличные издания, которые будут полезны разработчику любого уровня. Собственно, эту подборку мы и подготовили в расчёте на специалистов с разным опытом и багажом знаний. Книги постарались упорядочить по возрастанию уровня сложности, с указанием плюсов и минусов (если они есть). Итак, поехали!
Разработка нейросети, делающей любое изображение более красивым
Красота страшная сила.
Попытка разработки генеративной нейросети делающей любое изображение более красивым.
Что под капотом у нейронной сети. Нейросеть c точки зрения математики и программирования
Цель данной публикации – комплексное рассмотрение строения искусственных нейронных сетей c точки зрения и математики и программного кода. В данной работе нейронная сеть реализуется на языке Python с использованием библиотеки tensorflow.keras. Статья сосредоточена в основном на строении и функционировании искусственной нейронной сети, поэтому такие этапы как обучение и т.д. в ней не затрагиваются.
Заметки про увеличение картинок нейронными сетями
TLDR — это не готовое решение, это попытка самостоятельно разобраться, подобрать архитектуру и обучить генеративно-состязательную модель (GAN) для увеличения картинок в 2 или 4 раза. Я не претендую на то, что моя модель или путь рассуждений лучше каких-то других. Кроме того, относительно недавно стали популярны трансформеры и diffusion модели — заметки не про них.
С заметками не получилось линейной структуры повествования — есть отступления "в сторону" и уточнения. Можно пропускать нерелевантные заметки. Например, описание подготовки данных нужно, если вы хотите воспроизвести эксперименты — а в остальных случаях можно пропустить. Я написал каждую отдельную заметку по-возможности цельной и независимой от других.
Я уже был знаком со свёрточными сетками, но мне хотелось попробовать генеративно-состязательные сети. Понять, почему используют те или иные подходы. Попробовать свои идеи. Посмотреть, насколько быстро можно научить модель и насколько хорошо она будет работать.
Для обучения оказалось достаточно возможностей моего ПК. Какие-то простые эксперименты занимали десятки минут или несколько часов, самый длинный с обучением финальной большой модели — трое суток.
Подходит ли Nvidia RTX A4000 ADA для машинного обучения?
В апреле компания NVIDIA выпустила на рынок новый продукт — графический процессор малого форм-фактора RTX A4000 ADA, предназначенный для применения в рабочих станциях. Этот процессор пришел на смену A2000 и может быть использован для выполнения сложных задач, в том числе для научно-исследовательских и инженерных расчетов и для визуализации данных.
RTX A4000 ADA оснащена 6144 ядрами CUDA, 192 тензорами и 48 ядрами RT, оперативной памятью GDDR6 ECC VRAM объемом 20 Гб. Одно из ключевых преимуществ нового графического процессора — его энергоэффективность: RTX A4000 ADA потребляет всего 70 Вт, что снижает затраты на электроэнергию и уменьшает тепловыделение в системе. Графический процессор также позволяет управлять несколькими дисплеями благодаря подключению 4x Mini-DisplayPort 1.4a.
Information
- Rating
- Does not participate
- Location
- Санкт-Петербург, Санкт-Петербург и область, Россия
- Date of birth
- Registered
- Activity