Pull to refresh
karantir @karantirread⁠-⁠only

User

Send message

Burp Suite: швейцарский армейский нож для тестирования веб-приложений

Reading time6 min
Views108K

 
Burp Suite – это мультитул для проведения аудита безопасности веб-приложений. Содержит инструменты для составления карты веб-приложения, поиска файлов и папок, модификации запросов, фаззинга, подбора паролей и многое другое. Также существует магазин дополнений BApp store, содержащий дополнительные расширения, увеличивающие функционал приложения. Стоит отметить и появление в последнем релизе мобильного помощника для исследования безопасности мобильных приложений — MobileAssistant для платформы iOS.
Читать дальше →
Total votes 32: ↑28 and ↓4+24
Comments2

AutoML на практике — как делать автоматизацию, а не её иллюзию

Level of difficultyMedium
Reading time15 min
Views11K

Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработать с нуля собственный AutoML в Альфа-Банке

Когда количество ML-моделей в компании исчисляется сотнями, процессы десятками, а фичи тысячами, вопрос «а нужен ли нам AutoML?» уже не стоит. Стоит другой вопрос - как сделать AutoML так, чтобы он был действительно полезен и им реально хотелось пользоваться? 

В этом посте я подробно освещу путь создания нашего AutoML-сервиса: расскажу обо всех препятствиях, которые мы преодолели, и поделюсь инсайтами, полученными в ходе работы. Вместе мы пройдем полный путь практического AutoML - начиная от его первоначальной идеи и мотивации, и заканчивая текущими успехами и планами на будущее.

Читать далее
Total votes 30: ↑29 and ↓1+32
Comments14

Фича стор, CLTV и как построить много моделей в короткий срок

Level of difficultyMedium
Reading time10 min
Views2.2K

Условия задачи: дано число клиентов банка N, число банковских продуктов М, горизонт времени прогноза Т. Нужно посчитать ( Pij ).

Привет, меня зовут Игорь Дойников, в Альфе я CDS — Chief Data Scientist в Розничном Бизнесе. Моя команда строит модели машинного обучения для розничного бизнеса Альфа-Банка. В статье я расскажу как, собственно, эту задачу решать и зачем. Сначала пройдёмся по CLTV, как бизнес постановки задачи мы перешли к задаче машинного обучения, какие при этом возникали проблемы и как мы их решали. А главное — что такое Feature Store и как этот инструмент помогает нам решать задачи СLTV.

Читать далее
Total votes 16: ↑16 and ↓0+18
Comments1

Как ускорить вывод ML-моделей в 4 раза, или Как может выглядеть экосистема МLOps в банке

Level of difficultyEasy
Reading time10 min
Views6.5K

Привет, я Андрей Качетов, Head of ML Operations в Альфа-Банке. Отвечаю за опромышливание всех ML-моделей в банке, строю новую платформу MLOps, а также формирую единый подход для работы с модельными данными (Feature Store).

В статье, без картинок с «бесконечностями» Ops’ов, расскажу, как может выглядеть полноценный конвейер MLOps, что умеет и немного о том, как мы пришли к максимальной автоматизации процесса вывода моделей в промышленную эксплуатацию.

Читать далее
Total votes 24: ↑24 and ↓0+24
Comments4

На практике пробуем KAN – принципиально новую архитектуру нейросетей

Level of difficultyMedium
Reading time5 min
Views34K

На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения.

Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты.

Читать далее
Total votes 56: ↑56 and ↓0+76
Comments15

Где именно лежит граница между зарплатными грейдами: как это устроено у нас

Reading time9 min
Views23K


Сколько в компании разработчиков, столько примерно и мнений. Например, где именно проходит граница между мидлом и синьором? Нам нужен был справедливый инструмент оценки, который помогает понять, не получает ли наш специалист зарплату меньше, чем должен был бы. И, самое главное, что нужно делать для того, чтобы развиваться.

В итоге мы сделали опросник из 14 пунктов, по которому за несколько минут можно оценить себя. То же самое делает про вас тимлид, и если оценки совпадают, то всё отлично, есть грейд и зарплата в нём (у нас по три уровня внутри каждого грейда, например, джун-джун, опытный джун и джун 80-го уровня). Если оценки не совпадают — начинается процесс переговоров с приведением примеров для синхронизации по части оценки и ожиданий, чтобы потом на следующей итерации они всё-таки совпали.

Пока мы попробовали этот подход на 120 разработчиках. Выглядит многообещающе. Но я хотел бы показать вам сам опросник, детали системы и обсудить, насколько прозрачной получилась такая система. Дальше в посте — предпосылки её создания, разбор каждого из параметров и ссылка на форму, которая показывает результат по нашей системе грейдов.
Читать дальше →
Total votes 36: ↑31 and ↓5+31
Comments40

Практические применения генеративных моделей: как мы делали суммаризатор текстов

Reading time9 min
Views12K


В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Мы выводим в открытый доступ два новых сервиса: Рерайтер и Суммаризатор. Модель «Рерайтер» способна переписать любой текст другими словами с сохранением смысла вне зависимости от длины и формата — от новостей и художественной литературы до постов в социальных сетях. Модель «Суммаризатор» позволяет создать сжатое изложение исходного текста, сохраняющее его главные тезисы. Эта модель может быть полезна для экономии времени читателя, а также выделения главных мыслей объёмных документов, научной или бизнес-литературы. В частности, использовать сервис можно для подготовки обзоров научных работ на заданную тему, создания новостных дайджестов, выделения наиболее важных событий в лентах информагентств для аналитики. 
Читать дальше →
Total votes 13: ↑12 and ↓1+14
Comments1

ABBYY FastML: новый подход к машинному обучению на стороне клиента для обработки большого потока документов

Reading time10 min
Views7.5K

Привет, Хабр!

Нашим заказчикам часто приходится работать с большим потоком документов, многие из которых очень похожи друг на друга, но не одинаковы. Поскольку обрабатывать такое количество информации с каждым годом становилось все сложнее, мы придумали технологическое решение, которое способно автоматизировать эту задачу с высокой точностью.

Например, представим, что на обработку поступают десятки тысяч инвойсов от сотен разных контрагентов. Раньше, чтобы автоматизировать их классификацию и извлечение информации, требовалось наработать базу поставщиков, а для каждого из типов документов — создать вручную гибкое описание (задать информацию о линейных отношениях полей относительно друг друга). Внедрение такого решения у клиента длилось от 3 до 6 месяцев.

Чтобы упростить и ускорить эту задачу и в целом облегчить работу нашим заказчикам, мы создали новый механизм кластеризации и разработали технологию FastML, а затем объединили их работу.

В нашем решении кластеризация избавляет от необходимости вести базу данных вендоров, а FastML способен работать, основываясь на пользовательском обучении: технология делит поток документов на определенные группы, на каждой из которых учит свою модель поиска. В результате новое решение лучше адаптируется к внешним отличиям документов и работает в несколько раз быстрее.

Но обо всем по порядку.

Читать далее
Total votes 11: ↑10 and ↓1+14
Comments0

Файл-сервер на Raspberry Pi как домашний NAS

Reading time5 min
Views62K

Одноплатные мини-компьютеры подходят для совершенно разных полезных применений: блокировки рекламы во всём трафике (Pi-hole), управления умным домом или печати на стареньком принтере в кладовке по Wi-Fi. Но практически идеальный вариант использования — в качестве файл-сервера с подключением внешнего SSD или HDD. Это может быть и домашний хостинг, и даже колокейшн в настоящем дата-центре.

Мы уже рассказывали про создание собственного веб-сервера на Andoid, а также про хостинг файлов в ДНК.

Теперь посмотрим, какие есть разработки под Linux:
Читать дальше →
Total votes 19: ↑16 and ↓3+20
Comments28

Пять книг, которые научат вас учиться

Reading time5 min
Views24K

Выбрал пять мощнейших книг, которые прокачают память, научат работать с большими объемами информации, расскажут о принципах работы мозга и многое другое.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments8

Seeed XIAO RP2040: микроконтроллер с отличными возможностями за $5

Reading time3 min
Views19K
image

На первый взгляд Seeed XIAO RP2040 не выглядит многообещающим. Но это обманчивое впечатление. Возможностей у него много. Благо, у компании есть опыт разработки подобных систем, ведь это не первый микроконтроллер от Seeed. Более того, ранее компания выпускала устройство на базе Seeeduino XIAO, которое выглядит близнецом XIAO RP2040, да и стоит столько же — $5.40.

Но у XIAO RP2040 другой чип — здесь мы имеем дело с RP2040 SoC, так что этот микроконтроллер гораздо более мощный, чем предыдущая система. Причем доплачивать не нужно — стоимость та же. Стоит ли новинка пяти долларов? Забегая наперед, скажу — да, стоит.
Читать дальше →
Total votes 46: ↑37 and ↓9+40
Comments18

Самогонный аппарат — полный автомат. Часть 3. Заключительная

Reading time15 min
Views26K
Прошло +100500 лет с момента первой и второй публикаций. Настала пора поставить точку в этом многолетнем вопросе.

Я добил его. На самом деле закончил и проверил работу аппарата еще в 2019 году, но опубликовать и описать — руки дошли только сейчас. Работает. Пусть — с костылями, через пень-колоду, но — как часы, потому что — это и есть часы (или мультиварка, стиральная машина — кому как больше нравится — принцип действия схожий).


КДПВ. Точь-в-точь — мой аппарат
Поехали? Нет! Погнали!
Total votes 51: ↑50 and ↓1+62
Comments22

XSS: атака и защита с точки зрения C# программирования

Reading time10 min
Views17K

XSS, или межсайтовый скриптинг, является одной из самых часто встречающихся уязвимостей в веб-приложениях. Она уже долгое время входит в OWASP Top 10 – список самых критичных угроз безопасности веб-приложений. Давайте вместе разберемся, как в вашем браузере может выполниться скрипт, полученный со стороннего сайта, и к чему это может привести (спойлер: например, к краже cookie). Заодно поговорим о том, что необходимо предпринять, чтобы обезопаситься от XSS.

Читать далее
Total votes 7: ↑5 and ↓2+5
Comments10

Как организовать разметку данных для машинного обучения: методики и инструменты

Reading time17 min
Views9.5K

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
Читать дальше →
Total votes 7: ↑7 and ↓0+7
Comments3

Как сделать alter table в высоконагруженной таблице

Reading time3 min
Views16K

Ещё лет 5 назад на собеседованиях с backend-разработчиками был популярен вопрос: как переименовать колонку в высоконагруженной таблице (возможны вариации: как сделать любой другой alter table)?

Вопрос всё ещё часто звучит на собесах. И актуальность его выросла, так как за последние 5 лет стало намного больше масштабных проектов с высокой нагрузкой.

Читать далее
Total votes 20: ↑18 and ↓2+23
Comments29

Интеграция устройства в экосистему Samsung SmartThings на примере «Умного чайника»

Reading time27 min
Views7.6K

Допустим, вы сделали свое собственное устройство «Умного дома» и хотите интегрировать его в платформу домашней автоматизации Samsung SmartThings. Тогда вы сможете включить его в общую экосистему, поддерживающую множество устройств от разных производителей. Пользователи вашего устройства смогут инициализировать его удобным образом, задавать сценарии автоматизации, взаимодействовать с ним через мобильное приложение.

Я покажу, как это сделать, на примере самодельного устройства «Умный чайник». На функциональном уровне оно повторяет существующие на рынке устройства такого типа. Конечно, сам «чайник» мы собирать не будем, сделаем только очень простой прототип. Мой пример будет иллюстрировать в основном программный уровень. На железном уровне, я обошелся минимумом периферийных устройств, а часть из них реализовал как “заглушки”. Чтобы вы могли повторить все описанные в статье шаги самостоятельно, в качестве целевой платформы я выбрал плату микроконтроллера ESP8266 - одну из самых доступных и популярных на рынке. Данный пример я сделал в качестве стажировки в Исследовательском центре Samsung, и он будет полезен всем, кто еще только начинает заниматься разработкой умных устройств.

Читать далее
Total votes 14: ↑14 and ↓0+14
Comments14

22 интересные фичи, которые стоит добавить в Telegram

Reading time7 min
Views60K


13 августа 2013 вышел первый официальный клиент Telegram. С тех пор он стремительно развивается и увеличивает аудиторию. На это повлияли отличия от других мессенджеров, а также частые большие нововведения от разработчиков: видеозвонки, групповые голосовые чаты, встроенная система продажи товаров, кастомизация дизайна интерфейса. Но в этой статье мы рассмотрим то, чего пока нет в мессенджере, но, возможно, появится в будущем, так как такие фичи улучшат опыт использования Telegram.

Читать дальше →
Total votes 11: ↑8 and ↓3+6
Comments108

Управление продуктом на примере фотоконструктора Mozabrick: от идеи до выхода на рынок

Reading time6 min
Views3.4K
image

Привет, Хабр. Меня зовут Шпигоцкий Иван, я один из создателей бесконечного фотоконструктора Mozabrick. Пару недель назад здесь появилась статья о нем. Эта статья была о самом фотоконструкторе, а сейчас хотелось бы рассказать о том, как этот продукт выводили на рынок — от появления идеи до старта продаж и чуть дальше.

Возможно, наш опыт поможет кому-то реализовать и собственную идею или хотя бы даст пищу для размышлений. Все самое интересное — под катом.
Читать дальше →
Total votes 7: ↑5 and ↓2+4
Comments5

КПД разработчика. Как успевать жить, работать и эволюционировать. Часть 1

Reading time11 min
Views14K

Каждый из нас по-своему находит тот самый work-life balance. Или не находит. В серии статей мы спрашиваем разработчиков со впечатляющим бэкграундом, как они успевали и успевают жить, работать и эволюционировать.

Первое интервью — с Денисом Аникиным из Райффайзен привело к неожиданным выводам. Читайте историю о том, что успешный разработчик не всегда проходит правильный путь: ВУЗ-стажировка-джун-мидл-сеньор/тимлид. Посмотрите, какие принципы помогают соблюдать баланс техдолга и разработки. И узнайте, каким вопросом не стоит себя истощать, если хотите быть счастливым человеком.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments13

Есть ли сознание у нейронной сети?

Reading time14 min
Views20K

В последние несколько лет произошел скачкообразный рост индустрии машинного обучения - нейронные сети теперь занимаются всем: накладывают на лица маски котиков, обыгрывают людей в го, ищут кариес на снимках зубов, следят за урожаем пшеницы и водят автомобили. Постоянно появляются и совершенствуются новые технологии вроде глубокого обучения и рекуррентных сетей. Возможно, в недалеком будущем даже тостеры будут продаваться исключительно со встроенным искусственным интеллектом. Не стоит на месте и наука о самом сложном и мощном из известных нам типов нейронных сетей - человеческом мозге. Исследования по нейрофизиологии каждый год приоткрывают завесу тайны с принципов его функционирования.

Но несмотря на имеющиеся успехи мы всё ещё страшно далеки от понимания самого загадочного феномена Вселенной - нашего сознания. Вопросы о природе сознания мучают лучшие умы человечества уже на протяжении двух с половиной тысяч лет, а современный прогресс в машинном обучении и построении искусственных нейронных сетей только добавляет новые: например, возникает ли сознание в компьютерных нейросетях? Чтобы ответить на этот и другие непростые вопросы, нужно для начала понять, а что это вообще такое - это самое сознание.

Мой опыт разговоров с моими знакомыми на эту тему показывает, что некоторым людям почему-то очень тяжело понять, что же такое сознание. Возможно, причина такого непонимания кроется в том, что сознание - настолько основополагающая и неотделимая часть нас самих, что факт его существования оказывается абсолютно неочевидным. Многие путают сознание с интеллектом, хотя это совершенно не одно и то же. Легче всего придти к пониманию данного феномена можно с помощью следующего примера.

Читать далее
Total votes 32: ↑24 and ↓8+27
Comments144
1
23 ...

Information

Rating
Does not participate
Registered
Activity