Pull to refresh
61
82.8
Send message

Искусство аугментации: как улучшить модели компьютерного зрения без сбора новых данных

Level of difficultyMedium
Reading time22 min
Views5.3K

Представьте, что вы разрабатываете модель компьютерного зрения для распознавания кошек на фотографиях. Чем больше разных фото кошек вы покажете модели, тем лучше она будет справляться с задачей. Но что делать, если у вас не хватает фотографий? Вы же не пойдете делать 10000 фотографий вашего питомца? На такой случай существует решение — метод аугментации данных.

Сегодня подробно разберемся в том, как работает аугментация: рассмотрим ее влияние на точность моделей, разберем основные методы и инструменты для ее реализации, обсудим лучшие практики и типичные ошибки при работе с этим методом. Надеемся, что наш материал будет полезен как начинающим специалистам, так и опытным практикам машинного обучения и компьютерного зрения.

Читать далее

Методология баг-баунти: гайд для охотников за багами

Level of difficultyMedium
Reading time18 min
Views11K

Ирландский full-time багхантер Monke делится советами по осознанному хакингу и подборкой инструментов, упрощающих поиск уязвимостей. Бонусом — список полезных ресурсов для тех, кто интересуется темой баг-баунти.

Читать далее

«А можно быстрее?»: практические советы по ускорению обучения нейросетей

Level of difficultyMedium
Reading time12 min
Views5.5K

Мы продолжаем изучать, как ускоряют обучение нейросетей. В прошлой статье мы погрузились в теоретические аспекты этой проблемы. Сегодня перейдем к практике. 

Мы разберем несколько интересных исследований, которые демонстрируют эффективность различных подходов к ускорению нейросетей на разнообразных задачах и датасетах. Затем обсудим практические рекомендации по выбору и комбинированию методов оптимизации и расскажем, какие инструменты лучше использовать для профилирования и мониторинга процесса обучения. В довершение рассмотрим полезные библиотеки для быстрой и эффективной разработки.

Читать далее

Можно ли доверять GPT-4o конфиденциальные данные?

Level of difficultyMedium
Reading time6 min
Views15K

Разбираемся в политике конфиденциальности Open AI и выясняем, почему эксперты окрестили GPT-4o «турбопылесосом данных».

Читать далее

Как сделать так, чтобы ваши открытые данные были никому не интересны

Level of difficultyEasy
Reading time5 min
Views17K

Публикация открытых данных — благородное занятие, которое стимулирует исследования, инновации и прозрачность. В то же время заниматься этим бывает утомительно, а пользователи могут делать с вашими данными все, что им угодно. Такая утеря контроля над данными может быть нежелательной, но в некоторых случаях закон обязывает публиковать их именно под открытой лицензией. 

Лучший выход из подобной ситуации — опубликовать формально открытые данные, но сделать так, чтобы они никому не были интересны. Специально для таких сценариев я составил перечень стратегий, которые помогут избежать нежеланного внимания пользователей, заинтересованных в работе с вашими данными. 

Читать далее

Лучшие практики продаж в кибербезе, или OSINT в помощь продажнику

Level of difficultyEasy
Reading time8 min
Views2.7K

Продажи в кибербезе имеют свою специфику: даже этапы сделки в этой сфере отличаются от классической последовательности, которая описана в маркетинговой литературе. А еще продажнику в ИБ сложно обойтись без использования OSINT. Да, сбор информации о цели в открытых источниках пригождается не только в пентестах и хакинге. 

Если вы не ждете, что бог торговли Гермес прилетит в своих крылатых сандалиях и поможет выполнить годовой план на 110%, предлагаем ознакомиться с best practices в продажах ИБ-услуг, которыми поделился наш BDM Иван Куракин. Передаем ему слово. 

Читать далее

«А можно быстрее?»: разбираем методы ускорения обучения нейронных сетей

Level of difficultyMedium
Reading time21 min
Views6.6K

Современные нейросетевые архитектуры достигают впечатляющих результатов в сложных задачах ИИ благодаря росту объемов данных и вычислительных мощностей. Однако обратной стороной медали стала высокая ресурсоемкость обучения.

Например, последняя версия GPT-4 от OpenAI обучалась на большом GPU-кластере. По некоторым данным, она содержит около 1,8 триллиона параметров, а ее обучение обошлось более чем в 100 млн долларов. А модель Llama 3.1 405B, вроде бы оптимизированная под ограниченные ресурсы, все равно требовала более 15 триллионов токенов и свыше 16 тысяч GPU NVIDIA H100.

И хотя нынешнее качество работы LLM уже можно действительно назвать выдающимся, на практике они подкидывают разработчикам широкий ряд проблем производительности: от запредельных объемов данных до оптимизации гиперпараметров. Все это приводит к потребности в ускорении обучения.

Мы подготовили серию материалов, которые помогут разобраться в ускорении обучения нейросетей. В этой статье рассмотрим различные теоретические аспекты от аппаратного ускорения до правильной организации самого обучения, в следующей — поговорим о практике. В общем, нас ждет глубокое погружение в тему. Приятного прочтения! 

Читать далее

Как удерживать пользователей в мобильных играх

Level of difficultyEasy
Reading time16 min
Views2.9K

Игры успешно конкурируют за внимание пользователей с соцсетями, новостями и кино. Борьба жесткая — лучшие проекты зарабатывают больше, чем фильмы-блокбастеры. Еще в 2018 году интернет взорвала новость о том, что GTA V заработала более $6 млрд. Для сравнения: фильм «Аватар», самый кассовый за всю историю кино, собрал $2,8 млрд. Сегодня рост игровой индустрии сместился в мобильный гейминг, а смартфоны в период с 2021 по 2026 год станут самой быстрорастущей категорией устройств.

Среди мобильных игр конкуренция не менее жесткая: в одном только Google Play доступно около 370 тысяч проектов. И даже очень талантливо сделанные игры могут легко остаться без внимания, если не увлекут пользователя с первых минут. Этот показатель — удержание игроков — оказывает значительное воздействие на рентабельность инвестиций в разработку и напрямую влияет на успех проекта. Но как удержать пользователей в мобильной игре? И можно ли здесь переборщить? Чтобы получить ответы на эти вопросы, мы расспросили наших партнеров, разработчиков из компании PRISMA.

Читать далее

Секреты переговорщика с хакерами

Level of difficultyEasy
Reading time18 min
Views16K

Когда хакерские группировки из даркнета приходят за выкупом, большинство компаний впадает в панику. Этот человек обводит злоумышленников вокруг пальца.

Читать далее

Уроки, извлеченные из масштабирования до многотерабайтных датасетов

Level of difficultyMedium
Reading time9 min
Views2.4K

В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить.

Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.

Читать далее
2

Information

Rating
113-th
Registered
Activity

Specialization

Редактор