Articles / Bookmarks / Profile of snackTate / Habr

How to become an author

Глеб @snackTate

User

Profile Publications Comments 3Bookmarks 196

patapum_gg Jun 4 at 13:47

ML в OCR: зачем и как

Easy

5 min

2K

Image processing*Machine learning*SL Soft corporate blog

Привет, меня зовут Георгий Гончаров, я инженер‑консультант OCR‑платформы SOICA, предназначенной для распознавания и обработки текстовых и графических данных. Поскольку это собственная разработка, то мы постоянно внедряем новые фичи. Недавно появилась еще одна — мы назвали ее ML‑локатор. В статье расскажу, почему и как мы реализовали эту функциональность и каких результатов удалось достичь.

Читать далее

+4

ProductStarMain May 29 at 13:42

Собственные проекты, углубленная практика алгоритмов и другое: поднимаем навыки программирования на новый уровень

Easy

7 min

5.1K

Ruby*Programming*Perfect code*Algorithms*ProductStar corporate blog

Analytics

Recovery Mode

Неважно, новичок ли вы, отлаживающий вашу первую программу «Hello World», или опытный инженер, — у каждого из нас всегда есть возможность улучшить свои навыки. Александр Шелютин, Data Architect в KarmaHQ, расскажет о разнице между тем, как просто заставить что-то работать, и написанием действительно хорошего кода.

Читать далее

+3

V_Sukhov May 31 at 08:02

Разработка системы отчётности и BI: вопросы производительности

22 min

2.8K

System Analysis and Design*Big Data*Data visualization*Data Engineering*Magnit Tech corporate blog

Мы в компании «Магнит» много лет строим и эксплуатируем корпоративное хранилище данных и занимаемся различными задачами, связанными с этим. В частности, разрабатываем инструмент для конечного пользователя — систему отчётности и BI.

В статье рассмотрим вопросы оптимизации производительности системы.

Читать далее

+10

shpringer Jul 25 2023 at 11:42

Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана

7 min

6.4K

VK corporate blogBig Data*Machine learning*

Translation

Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта, проектной документации, ценности для бизнеса и требованиях. О том, как начинать с малого и быстро отказываться от слабых идей. Руководство пригодится дата-сайентистам, специалистам по машинному обучению, руководителям отделов, техническим руководителям или тем, кто хочет дорасти до этого уровня.

Читать дальше →

+15

boomb0om May 31 at 10:14

Как мы собираем данные для обучения Kandinsky

Hard

14 min

2.4K

Сбер corporate blogImage processing*Machine learning*SberDevices corporate blog

Case

Всем привет! Наша команда в Sber AI занимается генеративными моделями и сегодня мы расскажем про очень важный этап разработки моделей для генерации фотореалистичных изображений и видео — процесс сбора и фильтрации данных. Про этот этап очень редко подробно рассказывают разработчики и исследователи таких известных генеративных моделей как DALL-E 3, Stable Diffusion, MidJourney или SORA. Генеративные модели уже многих впечатлили своими возможностями создавать максимально реалистичные изображения и видеоролики, а качественные данные — далеко не последняя причина, по которой такого качества генераций удалось достичь.

Читать далее

+20

qlever May 22 at 12:58

Как правильно визуализировать данные, чтобы принимать эффективные решения?

10 min

13K

Data visualization*

Для того чтобы данные были понятны даже для неподготовленного человека, их можно представить в виде визуализаций: графиков, диаграмм, таблиц, карт.

В статье рассказываем, как создавать эффективные визуализации, которые раскроют природу данных и помогут выявить скрытые в них закономерности.

Читать далее

+14

GilbertHall May 24 at 14:31

Ультимативный Гайд По Эффективному Обучению (для влёта в IT с двух ног)

Easy

10 min

49K

Website development*Python*Programming*Studying in ITIT career

Постараюсь ужать многолетний опыт изучения навыков в одну малюсенькую статейку. Расскажу, как на практике освоить набор навыков любого размера, включая все необходимое, чтобы получить первую работу в IT. Объясню пошагово, как создать и придерживаться очень практичного и эффективного индивидуального плана обучения, по которому я сам занимался, в результате чего из полного чайника без диплома и платных курсов за пол года смог влететь в разработку на высококонкурентном рынке с 1000+ откликов на вакансию во времена массовых увольнений сразу в топовую IT‑компанию без связей, накрутки опыта и ментора и даже успешно пройти там испыталку, ведь план обучения позволил накопить багаж полезных знаний.

Правильный план обучения — это 70% получения работы. По этому плану ты сможешь освоить программирование без покупки курсов, то есть стать программистом бесплатно. Да и любой другой скилл или профессию тоже сможешь быстро и бесплатно получить, что сейчас особенно актуально с этим ИИ. Гарантирую, что по этому плану за короткий срок ты добьёшься больших результатов, а это автоматически значит, что потребуется тяжелая работа с твоей стороны. В конце статьи также будет секретный ингредиент, о котором никто не говорит и который может сделать процесс твоего обучения чуть ли не вдвое более эффективным. Ещё я приведу пример реального плана обучения и объясню, почему каждый его пункт настолько логичен, что ты просто не сможешь ему не придерживаться. Цель плана — получить максимальный результат при минимальных затратах времени и сил.

Читать далее

+64

Hanamime May 20 at 12:35

Скрайбинг в ИТ. Лучше один раз увидеть

Easy

5 min

4.8K

Сбер corporate blogData visualization*Development Management*Prototyping*Project management*

Opinion

Скрайбинг — это метод визуализации идей, процессов и другой информации через рисунки, символы и текст. Но это не просто рисунки, а целенаправленное создание визуальных записей, которые способствуют лучшему пониманию, запоминанию и обобщению сложных концепций. Скрайбинг делает информацию более доступной, превращая абстрактные идеи в конкретные, легко воспринимаемые визуальные образы.

Скрайбинг применяют в разных сферах, начиная от повседневных заметок и заканчивая стратегическими сессиями в крупных компаниях. В статье мы поговорим о применении скрайбинга в ИТ. В мире, где сложность проектов постоянно растёт, а команды становятся всё более мультидисциплинарными, скрайбинг становится незаменимым инструментом для планирования, разработки и коммуникации. Он позволяет структурировать требования проекта, визуализировать архитектуру систем, проектировать пользовательские интерфейсы и сценарии использования продукта. Благодаря скрайбингу сложные технические идеи становятся понятными не только для специалистов, но и для клиентов, что значительно улучшает взаимопонимание и облегчает процесс разработки.

Читать далее

+16

BosonBeard Oct 10 2020 at 23:05

«Велосипедный набор» или о создании самодельных датасетов для анализа и машинного обучения

6 min

5.1K

Open data*Machine learning*

Несколько лет назад я ненадолго увлекся машинным обучением и анализом данных, даже написал небольшой цикл о моем погружении в этот удивительный мир, с точки зрения полного новичка.

Как часто бывает при изучении чего-то нового, мне очень хотелось сделать свой «велосипед». К сожалению, в математике и программировании я разбираюсь плохо, поэтому кандидатом на роль «велосипеда» стал собственный датасет.

С того момента прошло уже больше двух лет и вот у меня дошли руки поделится с вами своим небольшим опытом.

В статье мы рассмотрим несколько потенциальных источников для самостоятельного сбора данных (в том числе не очень популярных), а также попробуем найти в этом процессе хоть какую-то пользу.

Читать дальше →

+6

sahsAGU Aug 26 2021 at 10:00

Создание приложения для анализа данных машинного обучения

4 min

4.9K

Python*Microsoft corporate blogMachine learning*Development for Windows*Artificial Intelligence

Нейронные сети очень мощны для выполнения предиктивного анализа и решения аналитических задач. Они широко используются для классификации данных, чтобы обнаруживать закономерности и делать прогнозы. Бизнес-кейсы варьируются от классификации и защиты данных клиентов до классификации текста, поведения потребителей и многих других задач.

Чтобы показать, как создать приложение для выполнения анализа данных для решения задач классификации, команда Windows ML создала руководство «Анализ данных с помощью Pytorch и машинного обучения Windows». В этом руководстве показано, как обучить модель нейронной сети на основе табличного набора данных с помощью библиотеки PyTorch и как развернуть эту модель в приложении машинного обучения Windows, которое может работать на любом устройстве Windows.

Хотя в этом руководстве используется набор данных в форматах Excel или csv, описанный в нем процесс работает для любого табличного набора данных и научит вас, как выполнять прогнозы и использовать возможности Windows ML для вашего собственного уникального бизнес-кейса.

Читать далее

0

Efaldgent Apr 26 2022 at 14:00

Причинно-следственный анализ в машинном обучении

15 min

24K

Big Data*Machine learning*Open Data Science corporate blogPopular scienceArtificial Intelligence

Что появилось первым: курица или яйцо?
Статистики давно уже нашли ответ на этот вопрос.
Причем несколько раз.
И каждый раз ответ был разным.

А если серьезно, то для машинного обучения становятся все более актуальными вопросы причинно-следственного анализа (causal inference) - когда главной целью моделирования является не прогноз и его качество, а то, как мы можем принимать решения на основе нашего алгоритма. И как это повлияет на мир, в котором эта модель будет действовать. Сделает ли модель его лучше, чем он был? Или наоборот.

Под катом я расскажу о причинно-следственном анализе, его ключевых методах и применении в машинном обучении. В следующей статье побеседуем о ключевых трендах в развитии методов причинно-следственного анализа в машинном обучении в 2020-2021 гг.

Читать далее

+24

kucev May 23 at 17:22

Машинное обучение: мост между бизнесом и Data Science

16 min

4.3K

Data Mining*Big Data*Machine learning*Artificial IntelligenceData Engineering*

Translation

Если последние несколько лет вы не жили на далёком острове без электричества и связи, то, вероятно, слышали о машинном обучении. Этот тренд было сложно не заметить. Каждый раз, когда мы говорим о беспилотных автомобилях, чат-ботах, AlphaGo или предиктивной аналитике, упоминается та или иная реализация машинного обучения. Хотя недостатка в историях и евангелистах нет, машинное обучение пока не стало в глазах бизнеса абсолютной необходимостью. В общественном восприятии применяемые в ML алгоритмы близки к научной фантастике, а подготовка конкретного плана внедрения ML по-прежнему остаётся высоким барьером.

Цель этой статьи — практические ответы, а не подготовка видения или продвижение тренда. Мы поговорим о зонтичном термине data science, о взаимосвязи его отраслей, основных задачах, которые может решать машинное обучение, а также о том, как эти задачи можно перевести на язык бизнеса. Также мы обсудим основные решения, которые нужно принять при найме специалистов, и выделим сложности, которые нужно учесть заранее

Читать дальше →

+3

kucev May 22 at 10:00

Распознавание именованных сущностей: механизм, методики, сценарии использования и реализация

13 min

1.9K

Data Mining*Big Data*Machine learning*Artificial IntelligenceData Engineering*

Translation

Естественные языки сложны. А когда на горизонте появляется контекст, они становятся ещё сложнее. Возьмём для примера фамилию Линкольн. Некоторые сразу подумают о шестнадцатом президенте США, выдающейся исторической фигуре. Однако для других это производитель автомобилей с тем же названием. Одно простое слово имеет разные значения.

Мы, люди, без проблем различаем значения и категории. Это свидетельствует о нашем интуитивном понимании окружающего мира. Но когда дело касается компьютеров, эта, казалось бы, простая задача превращается в неоднозначную проблему. Подобные трудности подчёркивают необходимость надёжного распознавания именованных сущностей (named entity recognition, NER) — механизма, при помощи которого мы учим машины понимать различные лингвистические нюансы.

В этой статье мы расскажем о том, что такое NER, о его принципах работы и о том, как оно используется в реальной жизни. Также в ней мы прольём свет на различные методики NER и способы реализации модели NER.

Читать дальше →

+4

univers_al May 20 at 16:20

Apache Superset 2024. Лучшие практики

Easy

5 min

5.2K

Apache*ОТП Банк corporate blog

Tutorial

Привет, Хабр! Меня зовут Антон, я работаю аналитиком в отделе бизнес-аналитики и анализа доходности в ОТП Банке. В нашей новой статье мы погрузимся в мир Apache Superset 2024 и откроем вам лучшие практики и продвинутые методы работы с этим мощным инструментом. После прочтения вы научитесь мастерски кастомизировать Pivot-таблицы, создавать уникальные цветовые палитры для дашбордов, эффективно настраивать систему алертов и использовать удобные CSS/HTML-шпаргалки для ускорения работы. Эти знания помогут значительно повысить эффективность использования Apache Superset, делая вашу аналитическую работу не только производительной, но и визуально привлекательной. Итак, поехали.

Читать далее

+22

vasilymat May 18 at 16:16

Решаем простую статистическую задачу пятью способами

Medium

11 min

5.3K

Data Mining*Data Engineering*

Вот тут ув. @dimview на пальцах и Си объясняет за бутстрап решая несложную задачу. И в статистике существует 100500 разных тестов для (не)подтверждения нулевой гипотезы.

Давайте используем ряд самых распространеных и посмотрим на результаты. В конце сравним с бутстрапом. Изложение будет сопровождаться кратким выводом и объяснением основных тестов, их "ручной" реализацией и сравнением результата с готовыми тестами из пакета scipy.stats. В этом плане, мне кажется, повторение лишним не будет, т.к. позволит лучше понять и уяснить принцип и особенности тестов.

Сама задача звучит как: "И вот свежие результаты — в тестовой группе из 893 пришедших у нас что-то купили 34, а в контрольной группе из 923 пришедших что-то купили 28. Возникает вопрос — идти к начальству и говорить «в тестовой группе конверсия 3.81%, в контрольной группе 3.03%, налицо улучшение на 26%, где моя премия?» или продолжать сбор данных, потому что разница в 6 человек — ещё не статистика?"

Читать далее

+8

Guest11 May 19 at 00:40

А/В эксперименты. Ускорение вычислений с помощью бакетизации

Easy

5 min

2.7K

Python*Data Mining*Big Data*

В данной статье мы рассмотрим, как бакетизация может существенно ускорить вычисления и представим график зависимости отношения времени на расчеты p-value без бакетизации к времени на расчеты с бакетизацией.

Время – деньги!

+2

Flokis_guy May 17 at 14:20

Интуитивное понимание пространств и ядер в машинном обучении: Часть 1

Hard

9 min

7.7K

Data Mining*Mathematics*Machine learning*Artificial Intelligence

Tutorial

При изучении темы ядер (kernel) в ML/DS программы вузов, роадмэпы и видео на YouTube обычно рассматривают её через призму SVM, не говоря уже о всеми любимых курсах:). Казалось бы, это неплохо: вот тебе краткое объяснение и модель, которая использует ядра. Но, увы, в этих областях желательно понимать многие процессы интуитивно, так сказать — «тяжело в учении, легко в бою». К тому же, эта тема нечто большее, чем просто метод; она позволяет связать многие вещи в машинном обучении в единую картину через пространство, что я и хочу показать в этой статье.

Читать далее

+20

badcasedaily1 May 13 at 13:47

Веб-скрапинг с Scrapy на Python

Easy

5 min

5.4K

Python*Programming*OTUS corporate blog

Review

Сегодня мы поговорим о хорошем инструменте для веб-скрапинга, который зарекомендовал себя, библиотеке Scrapy для Python.

Читать далее

+14

egaoharu_kensei May 10 at 21:29

Методы оптимизации в машинном и глубоком обучении. От простого к сложному

Hard

29 min

10K

Python*Data Mining*Mathematics*Machine learning*Artificial Intelligence

Tutorial

В данной статье представлен обзор различных популярных (и не только) оптимизаторов, которые применяются в машинном и глубоком обучении, в частности для обучения нейронных сетей. Мы рассмотрим их основную идею и ключевые особенности, переходя от простых к более сложным концепциям. Помимо этого, в самом конце вы сможете найти большое количество дополнительных источников для более детального ознакомления с материалом.

Читать далее

+29

AntonSoroka May 7 at 09:40

CADE — интересный способ поиска аномалий в многомерных данных

Easy

8 min

1.8K

Python*Data Mining*Machine learning*Statistics in IT

CADE () - метод для приближения плотности вероятности, который можно эффективно использовать для поиска аномалий в данных. В этой статье я расскажу про этот метод, а также предоставлю пример реализации CADE на Python.

Читать далее

+2

1

2 3 ...