Articles / Bookmarks / Profile of karantir / Habr

karantir @karantir^{read⁠-⁠only}

User

Profile Comments 12Bookmarks 151

LukaSafonov May 11 2017 at 13:37

Burp Suite: швейцарский армейский нож для тестирования веб-приложений

6 min

108K

Information Security*

Burp Suite – это мультитул для проведения аудита безопасности веб-приложений. Содержит инструменты для составления карты веб-приложения, поиска файлов и папок, модификации запросов, фаззинга, подбора паролей и многое другое. Также существует магазин дополнений BApp store, содержащий дополнительные расширения, увеличивающие функционал приложения. Стоит отметить и появление в последнем релизе мобильного помощника для исследования безопасности мобильных приложений — MobileAssistant для платформы iOS.

Читать дальше →

+24

alexrzntsv Apr 3 at 10:00

AutoML на практике — как делать автоматизацию, а не её иллюзию

Medium

15 min

11K

Альфа-Банк corporate blogProgramming*Big Data*Machine learning*

Case

Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработать с нуля собственный AutoML в Альфа-Банке.

Когда количество ML-моделей в компании исчисляется сотнями, процессы десятками, а фичи тысячами, вопрос «а нужен ли нам AutoML?» уже не стоит. Стоит другой вопрос - как сделать AutoML так, чтобы он был действительно полезен и им реально хотелось пользоваться?

В этом посте я подробно освещу путь создания нашего AutoML-сервиса: расскажу обо всех препятствиях, которые мы преодолели, и поделюсь инсайтами, полученными в ходе работы. Вместе мы пройдем полный путь практического AutoML - начиная от его первоначальной идеи и мотивации, и заканчивая текущими успехами и планами на будущее.

+32

Sentient85 Apr 19 at 11:01

Фича стор, CLTV и как построить много моделей в короткий срок

Medium

10 min

2.2K

Альфа-Банк corporate blogMachine learning*Finance in ITData Engineering*

Case

Условия задачи: дано число клиентов банка N, число банковских продуктов М, горизонт времени прогноза Т. Нужно посчитать ( Pij ).

Привет, меня зовут Игорь Дойников, в Альфе я CDS — Chief Data Scientist в Розничном Бизнесе. Моя команда строит модели машинного обучения для розничного бизнеса Альфа-Банка. В статье я расскажу как, собственно, эту задачу решать и зачем. Сначала пройдёмся по CLTV, как бизнес постановки задачи мы перешли к задаче машинного обучения, какие при этом возникали проблемы и как мы их решали. А главное — что такое Feature Store и как этот инструмент помогает нам решать задачи СLTV.

+18

kachetov Jun 5 2023 at 16:15

Как ускорить вывод ML-моделей в 4 раза, или Как может выглядеть экосистема МLOps в банке

Easy

10 min

6.5K

Альфа-Банк corporate blogBig Data*Machine learning*Artificial Intelligence

Roadmap

Привет, я Андрей Качетов, Head of ML Operations в Альфа-Банке. Отвечаю за опромышливание всех ML-моделей в банке, строю новую платформу MLOps, а также формирую единый подход для работы с модельными данными (Feature Store).

В статье, без картинок с «бесконечностями» Ops’ов, расскажу, как может выглядеть полноценный конвейер MLOps, что умеет и немного о том, как мы пришли к максимальной автоматизации процесса вывода моделей в промышленную эксплуатацию.

+24

DataSecrets May 3 at 18:14

На практике пробуем KAN – принципиально новую архитектуру нейросетей

Medium

5 min

34K

Python*Big Data*Machine learning*Artificial Intelligence

Review

На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения.

Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты.

+76

dmkuznetsov May 26 2022 at 10:01

Где именно лежит граница между зарплатными грейдами: как это устроено у нас

9 min

23K

Skyeng corporate blogProject management*Personnel Management*IT career

Сколько в компании разработчиков, столько примерно и мнений. Например, где именно проходит граница между мидлом и синьором? Нам нужен был справедливый инструмент оценки, который помогает понять, не получает ли наш специалист зарплату меньше, чем должен был бы. И, самое главное, что нужно делать для того, чтобы развиваться.

В итоге мы сделали опросник из 14 пунктов, по которому за несколько минут можно оценить себя. То же самое делает про вас тимлид, и если оценки совпадают, то всё отлично, есть грейд и зарплата в нём (у нас по три уровня внутри каждого грейда, например, джун-джун, опытный джун и джун 80-го уровня). Если оценки не совпадают — начинается процесс переговоров с приведением примеров для синхронизации по части оценки и ожиданий, чтобы потом на следующей итерации они всё-таки совпали.

Пока мы попробовали этот подход на 120 разработчиках. Выглядит многообещающе. Но я хотел бы показать вам сам опросник, детали системы и обсудить, насколько прозрачной получилась такая система. Дальше в посте — предпосылки её создания, разбор каждого из параметров и ссылка на форму, которая показывает результат по нашей системе грейдов.

Читать дальше →

+31

Colindonolwe May 19 2022 at 12:43

Практические применения генеративных моделей: как мы делали суммаризатор текстов

9 min

12K

SberDevices corporate blogPython*Machine learning*Artificial IntelligenceNatural Language Processing*

В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Мы выводим в открытый доступ два новых сервиса: Рерайтер и Суммаризатор. Модель «Рерайтер» способна переписать любой текст другими словами с сохранением смысла вне зависимости от длины и формата — от новостей и художественной литературы до постов в социальных сетях. Модель «Суммаризатор» позволяет создать сжатое изложение исходного текста, сохраняющее его главные тезисы. Эта модель может быть полезна для экономии времени читателя, а также выделения главных мыслей объёмных документов, научной или бизнес-литературы. В частности, использовать сервис можно для подготовки обзоров научных работ на заданную тему, создания новостных дайджестов, выделения наиболее важных событий в лентах информагентств для аналитики.

Читать дальше →

+14

ContentAI_Team Jan 12 2022 at 10:40

ABBYY FastML: новый подход к машинному обучению на стороне клиента для обработки большого потока документов

10 min

7.5K

Content AI corporate blogImage processing*Machine learning*Artificial Intelligence

Привет, Хабр!

Нашим заказчикам часто приходится работать с большим потоком документов, многие из которых очень похожи друг на друга, но не одинаковы. Поскольку обрабатывать такое количество информации с каждым годом становилось все сложнее, мы придумали технологическое решение, которое способно автоматизировать эту задачу с высокой точностью.

Например, представим, что на обработку поступают десятки тысяч инвойсов от сотен разных контрагентов. Раньше, чтобы автоматизировать их классификацию и извлечение информации, требовалось наработать базу поставщиков, а для каждого из типов документов — создать вручную гибкое описание (задать информацию о линейных отношениях полей относительно друг друга). Внедрение такого решения у клиента длилось от 3 до 6 месяцев.

Чтобы упростить и ускорить эту задачу и в целом облегчить работу нашим заказчикам, мы создали новый механизм кластеризации и разработали технологию FastML, а затем объединили их работу.

В нашем решении кластеризация избавляет от необходимости вести базу данных вендоров, а FastML способен работать, основываясь на пользовательском обучении: технология делит поток документов на определенные группы, на каждой из которых учит свою модель поиска. В результате новое решение лучше адаптируется к внешним отличиям документов и работает в несколько раз быстрее.

Но обо всем по порядку.

+14

kot_review Dec 8 2021 at 11:00

Файл-сервер на Raspberry Pi как домашний NAS

5 min

62K

FirstVDS corporate blogOpen source*Server Administration*Development for Linux*

Одноплатные мини-компьютеры подходят для совершенно разных полезных применений: блокировки рекламы во всём трафике (Pi-hole), управления умным домом или печати на стареньком принтере в кладовке по Wi-Fi. Но практически идеальный вариант использования — в качестве файл-сервера с подключением внешнего SSD или HDD. Это может быть и домашний хостинг, и даже колокейшн в настоящем дата-центре.

Мы уже рассказывали про создание собственного веб-сервера на Andoid, а также про хостинг файлов в ДНК.

Теперь посмотрим, какие есть разработки под Linux:

Читать дальше →

+20

makeright Oct 11 2021 at 10:41

Пять книг, которые научат вас учиться

5 min

24K

Professional literature*Reading room

Выбрал пять мощнейших книг, которые прокачают память, научат работать с большими объемами информации, расскажут о принципах работы мозга и многое другое.

Deluar Sep 28 2021 at 02:58

Seeed XIAO RP2040: микроконтроллер с отличными возможностями за $5

3 min

19K

Selectel corporate blogProgramming microcontrollers*GadgetsDIYElectronics for beginners

Translation

На первый взгляд Seeed XIAO RP2040 не выглядит многообещающим. Но это обманчивое впечатление. Возможностей у него много. Благо, у компании есть опыт разработки подобных систем, ведь это не первый микроконтроллер от Seeed. Более того, ранее компания выпускала устройство на базе Seeeduino XIAO, которое выглядит близнецом XIAO RP2040, да и стоит столько же — $5.40.

Но у XIAO RP2040 другой чип — здесь мы имеем дело с RP2040 SoC, так что этот микроконтроллер гораздо более мощный, чем предыдущая система. Причем доплачивать не нужно — стоимость та же. Стоит ли новинка пяти долларов? Забегая наперед, скажу — да, стоит.

Читать дальше →

+40

RusakovMxL Aug 27 2021 at 00:08

Самогонный аппарат — полный автомат. Часть 3. Заключительная

15 min

26K

Programming microcontrollers*DIY

Technotext 2021

Прошло +100500 лет с момента первой и второй публикаций. Настала пора поставить точку в этом многолетнем вопросе.

Я добил его. На самом деле закончил и проверил работу аппарата еще в 2019 году, но опубликовать и описать — руки дошли только сейчас. Работает. Пусть — с костылями, через пень-колоду, но — как часы, потому что — это и есть часы (или мультиварка, стиральная машина — кому как больше нравится — принцип действия схожий).

КДПВ. Точь-в-точь — мой аппарат

Поехали? Нет! Погнали!

+62

ValeryKomarov Aug 24 2021 at 17:16

XSS: атака и защита с точки зрения C# программирования

10 min

17K

PVS-Studio corporate blogInformation Security*Programming*.NET*C#*

XSS, или межсайтовый скриптинг, является одной из самых часто встречающихся уязвимостей в веб-приложениях. Она уже долгое время входит в OWASP Top 10 – список самых критичных угроз безопасности веб-приложений. Давайте вместе разберемся, как в вашем браузере может выполниться скрипт, полученный со стороннего сайта, и к чему это может привести (спойлер: например, к краже cookie). Заодно поговорим о том, что необходимо предпринять, чтобы обезопаситься от XSS.

kucev Aug 13 2021 at 11:30

Как организовать разметку данных для машинного обучения: методики и инструменты

17 min

9.5K

Data Mining*Image processing*Big Data*Machine learning*Crowdsourcing

Translation

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.

Читать дальше →

slava-a Aug 18 2021 at 11:23

Как сделать alter table в высоконагруженной таблице

3 min

16K

Karuna corporate blogPostgreSQL*Programming*Go*Microservices*

Ещё лет 5 назад на собеседованиях с backend-разработчиками был популярен вопрос: как переименовать колонку в высоконагруженной таблице (возможны вариации: как сделать любой другой alter table)?

Вопрос всё ещё часто звучит на собесах. И актуальность его выросла, так как за последние 5 лет стало намного больше масштабных проектов с высокой нагрузкой.

+23

flisoch Aug 18 2021 at 14:10

Интеграция устройства в экосистему Samsung SmartThings на примере «Умного чайника»

27 min

7.6K

Samsung corporate blogProgramming microcontrollers*Smart HouseIOTDIY

Tutorial

Допустим, вы сделали свое собственное устройство «Умного дома» и хотите интегрировать его в платформу домашней автоматизации Samsung SmartThings. Тогда вы сможете включить его в общую экосистему, поддерживающую множество устройств от разных производителей. Пользователи вашего устройства смогут инициализировать его удобным образом, задавать сценарии автоматизации, взаимодействовать с ним через мобильное приложение.

Я покажу, как это сделать, на примере самодельного устройства «Умный чайник». На функциональном уровне оно повторяет существующие на рынке устройства такого типа. Конечно, сам «чайник» мы собирать не будем, сделаем только очень простой прототип. Мой пример будет иллюстрировать в основном программный уровень. На железном уровне, я обошелся минимумом периферийных устройств, а часть из них реализовал как “заглушки”. Чтобы вы могли повторить все описанные в статье шаги самостоятельно, в качестве целевой платформы я выбрал плату микроконтроллера ESP8266 - одну из самых доступных и популярных на рынке. Данный пример я сделал в качестве стажировки в Исследовательском центре Samsung, и он будет полезен всем, кто еще только начинает заниматься разработкой умных устройств.

+14

otter18 Aug 18 2021 at 13:21

22 интересные фичи, которые стоит добавить в Telegram

7 min

60K

Timeweb Cloud corporate blogInstant Messaging*Programming*Reading roomIT-companies

13 августа 2013 вышел первый официальный клиент Telegram. С тех пор он стремительно развивается и увеличивает аудиторию. На это повлияли отличия от других мессенджеров, а также частые большие нововведения от разработчиков: видеозвонки, групповые голосовые чаты, встроенная система продажи товаров, кастомизация дизайна интерфейса. Но в этой статье мы рассмотрим то, чего пока нет в мессенджере, но, возможно, появится в будущем, так как такие фичи улучшат опыт использования Telegram.

Читать дальше →

108

Enigmat Aug 10 2021 at 10:56

Управление продуктом на примере фотоконструктора Mozabrick: от идеи до выхода на рынок

6 min

3.4K

Product Management*Finance in IT

Привет, Хабр. Меня зовут Шпигоцкий Иван, я один из создателей бесконечного фотоконструктора Mozabrick. Пару недель назад здесь появилась статья о нем. Эта статья была о самом фотоконструкторе, а сейчас хотелось бы рассказать о том, как этот продукт выводили на рынок — от появления идеи до старта продаж и чуть дальше.

Возможно, наш опыт поможет кому-то реализовать и собственную идею или хотя бы даст пищу для размышлений. Все самое интересное — под катом.

Читать дальше →

kate_shlyakhova Aug 10 2021 at 10:20

КПД разработчика. Как успевать жить, работать и эволюционировать. Часть 1

11 min

14K

IT-People corporate blogPython*Interview

Каждый из нас по-своему находит тот самый work-life balance. Или не находит. В серии статей мы спрашиваем разработчиков со впечатляющим бэкграундом, как они успевали и успевают жить, работать и эволюционировать.

Первое интервью — с Денисом Аникиным из Райффайзен привело к неожиданным выводам. Читайте историю о том, что успешный разработчик не всегда проходит правильный путь: ВУЗ-стажировка-джун-мидл-сеньор/тимлид. Посмотрите, какие принципы помогают соблюдать баланс техдолга и разработки. И узнайте, каким вопросом не стоит себя истощать, если хотите быть счастливым человеком.

SergioShpadi Aug 9 2021 at 19:04

Есть ли сознание у нейронной сети?

14 min

20K

Reading roomPopular science

В последние несколько лет произошел скачкообразный рост индустрии машинного обучения - нейронные сети теперь занимаются всем: накладывают на лица маски котиков, обыгрывают людей в го, ищут кариес на снимках зубов, следят за урожаем пшеницы и водят автомобили. Постоянно появляются и совершенствуются новые технологии вроде глубокого обучения и рекуррентных сетей. Возможно, в недалеком будущем даже тостеры будут продаваться исключительно со встроенным искусственным интеллектом. Не стоит на месте и наука о самом сложном и мощном из известных нам типов нейронных сетей - человеческом мозге. Исследования по нейрофизиологии каждый год приоткрывают завесу тайны с принципов его функционирования.

Но несмотря на имеющиеся успехи мы всё ещё страшно далеки от понимания самого загадочного феномена Вселенной - нашего сознания. Вопросы о природе сознания мучают лучшие умы человечества уже на протяжении двух с половиной тысяч лет, а современный прогресс в машинном обучении и построении искусственных нейронных сетей только добавляет новые: например, возникает ли сознание в компьютерных нейросетях? Чтобы ответить на этот и другие непростые вопросы, нужно для начала понять, а что это вообще такое - это самое сознание.

Мой опыт разговоров с моими знакомыми на эту тему показывает, что некоторым людям почему-то очень тяжело понять, что же такое сознание. Возможно, причина такого непонимания кроется в том, что сознание - настолько основополагающая и неотделимая часть нас самих, что факт его существования оказывается абсолютно неочевидным. Многие путают сознание с интеллектом, хотя это совершенно не одно и то же. Легче всего придти к пониманию данного феномена можно с помощью следующего примера.

+27

144

2 3 ...

7 8