Как стать автором
Поиск
Написать публикацию
Обновить
32.38

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Аннотирование текста для машинного обучения

Время на прочтение7 мин
Количество просмотров6.9K

Несмотря на масштабный переход к цифровым технологиям, часть наиболее сложных данных по-прежнему хранится в виде текста в статьях или официальных документах. В условиях изобилия публично доступной информации возникают трудности с управлением неструктурированными сырыми данными и их преобразования в понятный для машин вид. С текстом это сделать сложнее, чем с изображениями и видео. Возьмём для примера простое предложение: «They nailed it!». Люди бы поняли его как выражение одобрения, подбадривания или признания заслуг, однако традиционная модель обработки естественного языка (Natural Language Processing, NLP), скорее всего, воспримет только поверхностное понимание слова, упустив смысл. А именно, она бы ассоциировала слово «nail» с забиванием гвоздей молотком. Точные аннотации текста помогают моделям лучше понимать передаваемые им данные, что приводит к безошибочной интерпретации текста.
Читать дальше →

Один человек ответил на 85+ тысяч вопросов на Stack Overflow (24,1 ответа в день)

Время на прочтение2 мин
Количество просмотров18K

В среднем 24,1 ответа в день (если все 365 дней в году считать рабочими) на протяжении почти 10 лет.

Несколько дней назад на некоторых англоязычных ресурсах началось обсуждение одного очень необычного пользователя Stack Overflow. Его зовут Гордон Линофф (Gordon Linoff), он из Нью-Йорка, и за 9 лет и 8 месяцев своего присутствия на платформе он дал 85,201 ответов на различные вопросы, в основном связанные с SQL и дата-майнингом (цифра актуальна на 27.09.2021).

Что это за маг?

Читать далее

Что же не так с любыми электронными голосованиями?

Время на прочтение7 мин
Количество просмотров45K

Данная публикация написана по мотивам поста «Что же не так с ДЭГ в Москве?». Его автор описывает, как можно выгрузить и расшифровать данные по электронному голосованию, а также приводит целый список замечаний к его текущей системе.

Статья хорошая, её выводы и замечания я полностью поддерживаю, но мне захотелось дополнить её в обеих частях. Первая — с анализом того, как в процессе голосования менялись отданные за различных кандидатов голоса (и обнаруженные в этом аномалии); вторая — моя позиция о фундаментальных недостатках любого электронного голосования, которые неустранимы на практике (особенно в современной России).

UPD: Добавил также графики по партийным спискам + отметил некоторые странности в соотношении выданных/полученных транзакций в самом начале (возможно, это объяснимо техническими проблемами).

Читать далее

Как спарсить любой сайт?

Время на прочтение6 мин
Количество просмотров228K

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность и масштабируемость.

Узнать как

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Время на прочтение5 мин
Количество просмотров9.6K

Мы постоянно находимся в поиске лучших платформ аннотирования, обеспечивающих широкую функциональность, имеющих инструменты управления проектами и оптимизацию процесса аннотирования (когда нужно аннотировать 50 тысяч изображений, важна экономия даже одной секунды на каждом).

На основании своего опыта работы с каждой из платформ мы делимся своими честными обзорами, надеясь, что они будут полезны дата-саентистам, которым необходимо вручную размечать свои данные.

Мы используем следующие критерии:

  1. Цена
  2. Разнообразие функций, инструментов и форматов
  3. Управление проектами и простота использования
Читать дальше →

process mining: 100 строк кода и генератор логов у нас в руках

Время на прочтение9 мин
Количество просмотров3.3K


Продакт-менеджерам посвящается...


Заступая на территорию proccess mining, каждый участник рано или поздно будет нуждаться в наборе логов событий, отражающих те или иные специфические моменты в процессах. Эти логи нужны как на этапе демонстрации решения, подсвечивания определенных вопросов, так и для отработки алгоритмов или же тестов на производительность. Оба рекомендуемых сценария «взять с продуктивных систем» или «взять из интернета» терпят фиаско. Как правило, это очень
малые датасеты, слабо удовлетворяющие потребностям как по наполнению, так и по объему.


Остается вариант — написать генератор правдоподобных логов самостоятельно. Тут тоже есть два варианта.


  • Вариант первый — превратить эту задачу в универсальный монстроподобный продукт, содержащий визуальный конструктор в нотации BPMN 2.0, всевозможные визуальные конструкторы формул и атрибутов, полноценную имитационную машину под капотом. Годы работы, миллионы на ветер, на выходе — файл с логами. КПД близок к нулю.
  • Вариант второй — отнестись к этой задаче как к вспомогательной и создать инструментами data science стека упрощенный генератор в 100 строк кода.

Остановимся далее на втором варианте.


Является продолжением серии предыдущих публикаций.

Читать дальше →

Как определить самый авторитетный фильм всех времен и народов

Время на прочтение31 мин
Количество просмотров5.9K

Какое произведение киноискусства оставило самый большой отпечаток в современной поп культуре? Предлагаю подумать над этим вопросом некоторое время. Может быть это Апокалипсис сегодня? Или Крестный отец? А вдруг главный фильм всех времен и народов это шедевр отечественного кинематографа - фильм Викинг?

К счастью, это можно посчитать.

Читать далее

Какой софт использует ЦРУ и АНБ для дата-майнинга

Время на прочтение6 мин
Количество просмотров16K


После утечки данных от Сноудена стало понятно, что АНБ собирает данные на всех граждан до совершения преступлений, а не на конкретных подозреваемых после преступления.

Аналогичную практику сбора разведданных на всех граждан до совершения преступления начали практиковать и в других странах, в том числе России. Речь идёт о длительном хранении интернет-трафика, сведений о перемещении, звонков, записей видеонаблюдения и т.д. Это очень удобно, ведь в случае необходимости найдутся улики практически на любого человека.

Разумеется, для быстрого поиска в таком огромном массиве данных требуется специальный софт.
Читать дальше →

Дата Кампус: можно ли освоить машинное обучение за 10 дней?

Время на прочтение7 мин
Количество просмотров3.2K

Всем привет. В этой статье хотим поделиться нашим опытом организации и проведения “Дата Кампуса” - буткемпа по Data Science, который проводится для старшеклассников в разных регионах России.

Читать далее

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Время на прочтение6 мин
Количество просмотров5.2K

В 2018 году мы опубликовали обзор лучших инструментов аннотирования, которыми регулярно пользуемся. Статью с энтузиазмом восприняли и профессионалы в сфере ИИ, и неспециалисты.

С нами даже связались несколько новых платформ, попросив провести бета-тестирование их инструментов и написать отзывы об UX и UI на основе нашего личного опыта управления крупномасштабными проектами разметки для ИИ.

С 2018 года произошёл большой прогресс в сфере платформ разметки, в том числе успешный фандрайзинг Labelbox, упрочивший его ведущую позицию в этой области, а также заявления о потрясающих новых функциях нашего любимого Supervise.ly, который мы продолжаем использовать в большинстве проектов.

Мы решили, что настало подходящее время для рассказа о самых потрясающих новых инструментах, появившихся за последнее время. В предыдущей статье мы оценивали продукты по следующим параметрам:

  • Цена
  • Функции
  • Управление проектами

Но решили, что стоит добавить ещё один:

  • Автоматизация

Ведь каждый из этих новых инструментов имеет отличные новые способы оптимизации ручного процесса аннотирования.
Читать дальше →

Смещение в датасетах

Время на прочтение11 мин
Количество просмотров4.4K

Эта статья – дистиллят моих разведочных исследований о смещении в датасетах. В ней я расскажу, что такое смещение и как оно влияет на работу модели. А еще – о том, как мы воспринимаем результаты работы модели и какие есть подходы для борьбы со смещением. Детальнее расскажу о двух способах избавления от него.

Смещение в датасетах (артефакты) – нежелательные взаимосвязи между входными и выходными данными, в частности, между признаками и метками, которые могут эксплуатироваться моделями машинного обучения в качестве опоры при предсказании. Часто они возникают там, где совсем не ожидаешь.

Простой пример смещения можно представить следующим образом: нам нужно определить оскорбительные посты в социальной сети. Высока вероятность, что оскорбительные посты будут содержать нецензурные слова и модель будет опираться на них при принятии решения. Некоторые пользователи могут использовать нецензурные слова и в обычных, нейтральных постах. Те же нецензурные слова могут быть использованы и для выражения позитивных эмоций. В результате, модель, обученная на датасете, в котором мало других примеров: нейтральных или позитивных, будет считать пост оскорбительным, когда в нем есть нецензурные слова. Если тестирование модели провести на похожей тестовой выборке, где нецензурные слова представлены только в оскорбительных постах, то тест подтвердит высокое качество модели. При реальном использовании эта модель будет давать ложно положительные срабатывания. Из-за смещения складывается ложное чувство, что модель работает хорошо, но это происходит ровно до того, как она начинает использоваться в реальности.

Читать далее

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Время на прочтение9 мин
Количество просмотров6.5K

Мы уже долгое время занимались регулярной публикацией обзоров лучших инструментов аннотирования на рынке. Радостно видеть, что экосистема всегда динамична, а у платформ аннотирования появляются всё более мощные функции.

Все наши обзоры совершенно честны и основаны на личном опыте аннотирования тысяч изображений и видео для различных проектов и областей применения.

В этом году мы хотим поделиться списком лучших инструментов для разметки и аннотирования в 2021 году (вне какого-либо порядка).

Как и в предыдущих списках, мы оценивали инструменты по следующим параметрам:

  • Функции
  • Автоматизация
  • Управление проектами
Читать дальше →

Как мы в SIGIR-соревновании участвовали

Время на прочтение10 мин
Количество просмотров2.9K

Летом этого года на конференции SIGIR проводился Workshop On eCommerce, посвященный прогнозам намерений и рекомендаций. По традиции к воркшопу приурочили небольшое соревнование, посвященное использованию последних наработок в области RecSys. Мы в Tinkoff.AI решили немного развеяться и поучаствовать.

Если вам интересно, как решали поставленные задачи мы и другие участники, добро пожаловать под кат.

Читать далее

Ближайшие события

6 правил по обеспечению качества данных для машинного обучения

Время на прочтение6 мин
Количество просмотров5K
«Качество — это не действие, а привычка», — сказал великий древнегреческий философ Аристотель. Эта идея справедлива сегодня так же, как и более двух тысяч лет назад. Однако качества добиться не так легко, особенно когда дело касается данных и технологий наподобие искусственного интеллекта (ИИ) и машинного обучения.

В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.

Читать дальше →

5 этапов, гарантирующих успешную разметку данных

Время на прочтение6 мин
Количество просмотров1.9K

Формирование бюджета, создание и масштабирование операций по разметке данных


Недооценка труда, необходимого для разметки данных — это распространённая ошибка, признаваемая даже тяжеловесами отрасли разработки ИИ. Большинство распространённых трудностей, с которыми AI/ML-компании сталкиваются в процессе разметки данных, сводится к неадекватному планированию. Эта проблема может принимать различные формы, например:

  • Почему мы потратили 100 тысяч долларов на этот набор данных?
  • Где набор данных, на создание которого у нас ушло пять месяцев?
  • Почему наш data scientist тратит по 40 часов в неделю на разметку данных?

К счастью, все эти трудности можно решить адекватным планированием. В этой статье мы вкратце изложим ключевые элементы хорошего планирования и прогнозирования. Их можно разбить на пять категорий:

  1. Установка целей
  2. Планирование проекта
  3. Оценка времени и затрат
  4. Оценка партнёров
  5. Назначение менеджера проекта

Читать дальше →

Как мы внедрили BI-платформу и начали развивать self-service аналитику

Время на прочтение7 мин
Количество просмотров7.8K

Всем привет! Меня зовут Дима. Я BI Engineering Manager в inDriver. В компанию я пришел в марте 2020 года развивать направление Business Intelligence. О том, как это происходило и происходит сейчас, с какими вызовами приходится сталкиваться и какие у нас планы на будущее по этому направлению, читайте далее в этой статье.

Читать далее

Как повысить конверсию клиентов для рефинансирования ипотеки с помощью моделирования данных

Время на прочтение5 мин
Количество просмотров1.7K

 Привет, Хабр!

В этой статье речь пойдет о больших данных в финансовых сервисах, а точнее, о том, насколько легко – или сложно – повысить конверсию клиентов при проведении маркетинговых кампаний по специфичным банковским продуктам, с помощью BigData и умных моделей. Другими словами, как, основываясь на наших знаниях о клиентах, выбрать именно тех из них, для которых  предлагаемые продукты будут наиболее интересны.

Читать далее

5 трендов в аннотировании данных в 2021 году

Время на прочтение3 мин
Количество просмотров2.2K

Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.
Читать дальше →

Аналитики данных в Авито: ожидания и спектр задач

Время на прочтение10 мин
Количество просмотров27K

Привет, я Дина Симкина, директор по аналитике Авито. Я отвечаю за то, чтобы аналитика помогала бизнесу принимать правильные решения. В статье я расскажу, кого мы в компании называем аналитиками данных и чего от них ждём в зависимости от профессионального уровня.

Читать далее

ETL в анализе данных без перерывов на кофе и курилку

Время на прочтение18 мин
Количество просмотров7.8K


Кадр из фильма «Индиана Джонс: В поисках утраченного ковчега» (1981)


Наблюдаемая все чаще и чаще картина в задаче анализа данных вызывает удручающее впечатление. Intel, AMD и другие производители непрерывно наращивают вычислительную мощность. Гениальные математики-программисты пишут суперэффективные библиотеки и алгоритмы. И вся эта мощь гасится и распыляется рядовыми аналитиками и разработчиками. Причем начинается это все с нулевого этапа — этап подготовки и загрузки данных для анализа. Многочисленные вопросы и диалоги показывают, что в нынешних программах обучения зияют огромные дыры. Людям просто незнакомы многие концепции и инструменты, уже давно придуманные для этих задач. Для тех, кто хочет увеличить свою продуктивность, далее тезисно будут рассмотрены ряд таких подходов и инструментов в частичной привязке к реальным задачам.


В первую очередь, материал ориентирован на аналитиков, которые манипулируют разумными объемами данных, необходимых для решения практических задач. ETL из Бигдаты в котором перекачиваются сотни Тб ежесуточно живет своей отдельной жизнью.


Является продолжением серии предыдущих публикаций.

Читать дальше →