Участвуем в соревновании по Data Science. Первый опыт / Comments / Habr

AlexanderPetrenko Nov 30 2020 at 21:29

Не успело пройти и 10 минут, а знатоки уже нашли ошибку :)
Мы сначала перевели текст в нижний регистр, а потом начали удалять слова типа ПАО ЗАО…
По результатам всех замечаний и иных инициатив, по завершению соревнования, на гитхаб выложу поправленное решение. Посмотрим какой будет скор.

vilka14 Dec 1 2020 at 06:02

Еще замечание с дивана — старайтесь не использовать в статьях конструкций вроде «плохой код», «написан наспех», «мне лень» и т.д.

AlexanderPetrenko Dec 1 2020 at 06:08

Согласен, просто было жизнерадостное настроение и много эмоций. Надеюсь они Вам не сильно испортили впечатление от статьи :)

UFO landed and left these words here

AlexanderPetrenko Dec 2 2020 at 08:18

Смотрите, в начале статьи говорится, что для понимания материала, читатель должен иметь минимальный опыт в data science (хотя бы пройти первые два курса специализации «Машинное обучение и анализ данных» или что-то сопоставимое). То есть, читатель должен уметь решать задачи бинарной классификации, предсказывать вероятность отнесения объекта к тому или иному классу. Если понимание как это нужно делать есть, то остальное относительно просто.

Скажу по себе, первые несколько часов, я совсем не понимал как подступиться к решению задачи. В голову приходили какие-то большие матрицы слов и было не ясно как их использовать. В общем полная каша. Судорожное чтение статей по работе с текстом тоже не принесли результата. А потом, как будто по щелчку появилась первая рабочая мысль, совершенно несвязанная с data science, примерно следующего содержания. Раз нам нужно из пары названий компаний определить зависимы ли они или может вообще это одна и та же компания просто написанная с ошибкой или на другом языке, то значит надо просто найти общее между названиями компаний. Именно эта мысль сдвинула меня с места. Дальше стало понятно, что нужно как-то перевести в цифры схожесть и различие слов в названии компаний из каждой пары датасета. Сначала я просто искал в каждой паре повторяющиеся слова в названиях компаний и фиксировал их количество, а также количество разных слов. Понятно, что чем больше совпадений слов, тем больше вероятность, что речь идет об одной и той же компании. Однако, очень быстро стало понятно, что в названиях компаний могут быть названия стран (например 'total usa' и 'daewoo usa'), городов, форм собственности (ООО, ЗАО, ltd и т.д.) и это приводит к тому, что повторяющиеся слова есть, а компании совсем разные. Значит нужно исключить часто повторяющиеся слова. А дальше я нашел файл от организаторов конкурса, в нем было базовое решение, которое содержало еще одну интересную фичу — дистанцию Левенштейна. Такими шажками и получился план исследования. Как можете заметить здесь data science не так и много: только дистанция Левенштейна и модель обучения — одно решающее дерево.

Надеюсь как то помог Вам :)

doctorelizarov Dec 9 2020 at 09:24

Александр, привет, подскажи, где можно скачать датасэты, что бы потренироваться на практике вашим решениям)

AlexanderPetrenko Dec 9 2020 at 09:29

У меня ни гитхабе или на платформе соревнования конечно :) ссылки есть в конце статьи. Могу продублировать
Гитхаб — github.com/AlexanderPetrenko83/Articles/tree/master/20201130_SIBUR_CHALLENGE
Платформа — sibur.ai-community.com/competitions/4/tasks/12

Через неделю, может раньше я выложу свое окончательное решение по этой задаче на гитхаб

doctorelizarov Dec 9 2020 at 11:55

Спасибо, я не заметил. Приятно читать ваши статьи.

Megamort001 Dec 29 2020 at 05:23

ну и как это можно использовать в цифровой трансформации бизнес-процессов на отдельно взять сельхозпредприятии, например, растениеводческого профиля? пусть будет зерновое. Есть ли у вас гипотезы о конкретных бизнесовых кейсах такого рода?

AlexanderPetrenko Dec 29 2020 at 05:28

собственно анализ текстов это самостоятельный процесс, который может применяться как в сельском хозяйстве, так и в нефтянке… применительно к этому случаю все еще проще — если предприятию нужно делать рассылку писем и при этом, например из 5-ти зависимых организаций рассылку нужно сделать только в одну, то вот пожалуйста :)