Articles / Bookmarks / Profile of and50 / Habr

How to become an author

Андрей @and50

User

Profile Publications Comments 62Bookmarks 489

info_habr Oct 27 2021 at 13:23

Методы детоксификации текстов для русского языка

9 min

9.9K

МТС corporate blogIT Infrastructure*Natural Language Processing*Algorithms*Artificial Intelligence

ВНИМАНИЕ! В статье есть примеры текстов, содержащие мат и грубые выражения. Мы ни в коем случае не хотим оскорбить наших читателей, все подобные тексты приведены лишь в научных целях в качестве примеров токсичности в реальных текстах из Интернета.

Всем привет! Меня зовут Дарина Дементьева, я являюсь аспиранткой в Сколковской лаборатории обработки естественного языка (Skoltech NLP), где занимаюсь исследовательскими проектами совместной лаборатории Skoltech NLP и MTS AI. В рамках работы в совместной лаборатории мы провели серию исследований, посвященных важной социальной проблеме – борьбе с токсичной речью в Интернете или детоксификации текстов.

В этой статье мы расскажем про результаты исследований методов детоксификаций для русского языка. Эта работа была опубликована и презентована на конференции Диалог, а также принята в журнал MDPI. Результаты экспериментов на английском языке приняли для презентации на одной из ведущих конференций в области обработки естественного языка EMNLP. Мы представляем вам краткую выжимку с описанием моделей, постановкой и результатами экспериментов, а в конце вы сможете самостоятельно ̶п̶о̶м̶а̶т̶е̶р̶и̶т̶ь̶с̶я̶ ̶в̶ ̶ч̶а̶т̶е̶ протестировать модели в бою. Теперь – добро пожаловать под кат!

Читать дальше →

+13

count Mar 15 2016 at 12:34

Что читать о e-commerce

2 min

17K

Project management*E-commerce management*Sales management*

Продвигая в поисковиках интернет-магазины, мы изучаем материалы не только по интернет-маркетингу, но и об электронной торговле в целом. Составили список, что читать владельцам и сотрудникам интернет-магазинов, заинтересованные в их развитии.

Читать дальше →

+6

Ogier Oct 28 2014 at 16:44

Проектируем информационную архитектуру для e-commerce. Часть 2

14 min

24K

AstoundCommerce corporate blogUsability*

Продолжим наше изучение информационной архитектуры и ее значение для электронной коммерции. В первой главе мы вкратце ознакомились с понятием информационной архитектуры (далее — ИА), значением и подходами к работе над ней в рамках проектирования взаимодействия.
Теперь от вопроса «Зачем проектировать информационную архитектуру» перейдем к вопросу «Какие есть особенности ее проектирования?»

Итак: особенности работы с ИА в e-commerce и три аспекта ее проектирования:

Принципы построения качественной ИА. Их применение в e-commerce;
Шаблонные схемы ИА. Какие шаблоны лучше использовать;
Процесс исследований ИА в e-commerce и их рентабельность.

Как водится, краткие итоги главы в конце поста.

Читать дальше →

+8

Ogier Oct 10 2014 at 13:51

Проектируем информационную архитектуру для e-commerce. Часть 1

10 min

40K

AstoundCommerce corporate blogInterfaces*Usability*

Пришла пора подумать о роли информации в проектировании взаимодействия и ее архитектуре, особенностях и о том, как над ней работать.
Большую часть времени мы проектируем интерфейсы и исследуем их восприятие пользователями. Но при этом приходится учитывать, что большинство интерфейсов – не самоцель, а всего лишь посредники во взаимодействии между человеком и информацией. Поэтому самой информации, ее архитектуре, и восприятии человеком информации справедливо уделять существенное внимание. Сегодня мы поговорим об информационной архитектуре (далее — ИА).

Читать дальше →

+10

BarakAdama Jun 10 2021 at 11:00

Как Яндекс применил генеративные нейросети для поиска ответов

11 min

70K

Яндекс corporate blogSearch engines*Machine learning*Algorithms*Natural Language Processing*

Только что мы представили новую версию поиска Y1. Она включает в себя комплекс технологических изменений. В том числе улучшения в ранжировании за счёт более глубокого применения трансформеров. Подробнее об этом направлении мой коллега Саша Готманов уже рассказывал в нашем блоге. В новой версии модель стала мощнее: количество параметров возросло в 4 раза. Но сегодня мы поговорим о других изменениях.

Когда человек вводит запрос в поисковик, он ищет информацию или способ решения своей задачи. Наша глобальная цель — помогать находить такие ответы, причём сразу в наиболее ёмком виде, чтобы сэкономить людям время. Этот тренд на ускорение решения пользовательских задач особенно заметен в последние годы. К примеру, теперь многие пользователи задают свои вопросы не текстом в поиске, а голосовому помощнику. И тут нам на помощь пришли огромные генеративные нейросети, которые способны перерабатывать, суммаризировать и представлять в ёмком виде тексты на естественном языке. Пожалуй, самой неожиданной особенностью таких сетей стала возможность быстро обучаться на всё новые задачи без необходимости собирать большие датасеты.

Сегодня мы поделимся опытом создания и внедрения технологии YaLM (Yet another Language Model), которая теперь готовит ответы для Поиска и Алисы. В этом мне помогут её создатели — Алексей Петров petrovlesha и Николай Зинов nzinov. Эта история основана на их докладе с Data Fest 2021 и описывает опыт внедрения модели в реальные продукты, поэтому будет полезна и другим специалистам в области NLP. Передаю слово Алексею и Николаю.

+66

ruvds Apr 1 2021 at 16:50

Аудит доступа к персональным данным (согласно GDPR) в базе данных и его последствия для администратора безопасности

5 min

5.4K

RUVDS.com corporate blogInformation Security*

Аудит доступа к персональным данным (согласно GDPR) в базе данных и его последствия для администратора безопасности

Три года назад в Европе прогремел GDPR – новый закон о защите персональных данных. Озвучен он был заранее и готовились к нему основательно, благо что после принятия до вступления в силу оставалось целых два года. Многие компании успели заложить бюджет для приведения информационных систем в соответствие с новым законодательством.

Сейчас, по прошествии трех лет, некоторые проекты уже реализованы и можно сделать небольшие наброски стандартного аудиторского проекта по GDPR, а также последующего приведения системы в соответствие с нормами аудита. Под катом:

Персональные данные в базе данных
Что требует GDPR (доступ, хранение, удаление)
А поговорить? (Интервью с бизнесом)
Маскировка данных в DEV и ACC
И напоследок

Читать дальше →

+25

Kirill_Kazakov Feb 12 2021 at 17:57

Карта дизайна организационных систем и бизнес-процессов

3 min

8.7K

Business Models*Data visualization*DesignPopular science

Приветствую, уважаемые хабровчане. Это мой первый пост на этой площадке, хотя в качестве читателя с вами уже, наверное, 10 лет. Я не являюсь специалистом в IT, хотя имел отношение к запуску небольшого количества стартапов. Можете называть меня практикующим теоретиком – запускаю продукты, занимаюсь управлением проектами, помогаю компаниям улучшать процессы, внедрять всякие гибкие управленческие штуки, немного преподаю в ВШЭ. Но всё это делаю не столько, чтобы заработать денег, а чтобы удовлетворить собственное любопытство в том, как устроены системы и держать голову в тонусе.

Этот пост был написан пару лет назад на vc.ru, в правилах сообщества не запрещено, публиковать контент с других площадок. С вашего позволения, здесь опубликую его снова, но с небольшими корректировками. Надеюсь, найдёте материал и инструмент, о котором пойдёт речь, полезными.

Читать далее

+11

host_m Nov 18 2020 at 11:30

Как оптимизировали экономику СССР и что из этого вышло

11 min

67K

VDSina.ru corporate blogMathematics*Popular scienceReading room

Translation

Я работаю специалистом по обработке и анализу данных (data scientist), поэтому большая часть моей работы включает в себя подбор оптимизируемых метрик и размышления о том, как выполнять процессы с максимальной эффективностью. Недавно я обнаружил совершенно удивительную книгу об экономических проблемах в СССР и о коллективе экономистов и компьютерных учёных, стремившихся решить их на основе данных. Книга называется Red Plenty. На самом деле она написана в жанре романа, что странно, однако представляет собой точную экономическую историю СССР. Автор активно заимствует информацию из книги 1973 года под названием Planning Problems in the USSR, которую я тоже приобрёл. При чтении этих книг я не мог не обратить внимания на параллели с планированием в любой современной организации. Факт, который покажется сегодня знакомым каждому data scientist: во второй книге есть цитата исследователя, жалующегося на то, что 90% своего времени он потратил на очистку данных, и только 10% — на само моделирование!

Кроме проведения интересных параллелей с современными data science и методами исследований технологических операций, эти книги помогли мне многое понять об интересных аспектах, о которых ранее я почти ничего не знал, например, о линейном программировании, ценовом равновесии и истории Советского Союза. В этом посте я расскажу о том, что узнал.

Читать дальше →

+131

vpedak Nov 4 2020 at 22:27

Сравнение 3 бесплатных решений для управления информацией о товарах (PIM систем)

11 min

12K

Open source*E-commerce management*Sales management*Product Management*

На рынке доступно множество коммерческих решений для управления информацией о товарах (PIM). И есть 3 бесплатных решения с открытым исходным кодом: Akeneo, Pimcore и OpenPIM, которые вы можете использовать для внедрения системы PIM в своей компании. Я собираюсь сравнить эти 3 решения друг с другом.

Читать дальше →

+8

romas1982 Nov 5 2020 at 11:53

Модель Белбина для IT: сила и слабость разных команд

16 min

20K

Конференции Олега Бунина (Онтико) corporate blogPersonnel Management*Project management*Development Management*

В работе с некоторыми командами бывают ситуации, когда что-то работает само, и об этом не надо думать. Сами доделываются задачи, сама развёртывается Continuous Integration — есть люди, которые этим занимаются, и за рабочими процессами не нужно специально следить. Но в других командах это само не происходит.

Почему? Проще всего сказать, что все люди разные, поэтому и команды разные. Но, если тимлид будет рассматривать команду как систему, то сможет увидеть закономерности: поймёт, где за командой надо обязательно следить, а в каких случаях всё произойдёт как будто само собой. Опираясь на такой подход мы сможем привести команду к балансу и поможем ей выиграть (довести проект до конца). Описать командное взаимодействие как систему позволяет ролевая модель команд Белбина.

Максим Цепков — IT-архитектор и бизнес-аналитик, навигатор и эксперт по миру Agile, работающий с самыми разнообразными системами — от бирюзовых организаций до Спиральной динамики. О моделях Белбина Максим рассказывает часто (смотрите семинар, доклад на SPMconf и на COMAQA, а также статью о ролях).

Сегодня мы публикуем расшифровку доклада, посвященного модели команд по Белбину, с которым Максим выступил на конференции TeamLead Conf 2020.

Читать дальше →

+17

voskanov Jul 30 2020 at 09:32

Project Management: Управление изменениями, часть 1

6 min

28K

Acronis corporate blogPersonnel Management*Product Management*Project management*

Привет, Хабр! Этот пост родился в ходе подготовки лекции по курсу Project Management от Acronis, который мы читали в МФТИ — “Создание продукта и управление его развитием”. Полностью весь курс можно посмотреть на нашем Youtube-канале, а сегодня мне хотелось бы поделиться подходами к контролю изменений и внедрению изменений в компаниях разного масштаба. Мы поговорим о психологических особенностях сопротивления изменениям и человеческой реакции на нововведения. Материал будет полезен руководителям, менеджерам проектов, а также тем, кто внедряет изменения, и тем кто испытывает изменения на себе и размышляет, что с этим делать.

Читать дальше →

+23

VladFX Jul 23 2020 at 12:08

Аномалии голосования по поправкам к Конституции России. Часть 1

5 min

67K

Big Data*Data Mining*Data visualization*Open data*

Общероссийское голосование по вопросу одобрения изменений, вносимых в Конституцию Российской Федерации, проводилось с 25 июня по 1 июля 2020 года (wikipedia).

Основная цель данной заметки — это продемонстрировать как можно быстро начать работать с данными голосования и показать наличие определенного вида аномалий в них.

Все вычисления, визуализации и парсинг данных приведены в Google Colab, который доступен по этой ссылке Google Colab.

Читать дальше →

+146

AloneCoder May 29 2020 at 18:15

Руководство по моделированию угроз для разработчиков

22 min

12K

VK corporate blogAgile*Information Security*Website development*Development Management*

Tutorial

Translation

В этой статье описаны простые и понятные шаги по внедрению моделирования угроз — подхода к проектированию защищённых систем на основе оценки рисков. В основе подхода лежит определение угроз, чтобы разработчики могли к ним подготовиться. С ростом киберугроз и желания компаний сохранить свои средства командам разработчиков требуются эффективные способы защиты ПО. К сожалению, внедрение моделирования угроз часто проходит с трудом. Многие методологии требуют сложного и исчерпывающего предварительного анализа, который не совместим с работой современных команд. Поэтому вместо того, чтобы всё останавливать ради создания идеальной модели угроз, я рекомендую начинать с малого и постепенно расширять.

+27

m1rko Jan 29 2020 at 18:01

Нормализация девиантности. Как неправильные практики становятся нормой в нашей отрасли

17 min

22K

Development Management*Project management*Personnel Management*Information Security*IT-companies

Translation

У вас когда-нибудь бывало такое, что вы говорите нечто совершенно нормальное для вас, но все остальные очень удивлены? Со мной такое случается постоянно, когда я описываю то, что считали нормальным в фирме, где я работал. По какой-то причине лицо собеседника постепенно переходит из приятной улыбки в гримасу крайнего изумления. Вот несколько характерных примеров.

Есть одна очень хорошая компания, одно из самых приятных мест, где я когда-либо работал, сочетание всех вкусностей Valve и Netflix. Люди здесь удивительные, а вам дают почти полную свободу делать всё, что вы хотите. Но как побочный эффект такой культуры, в первый год от них уходит примерно 50% новых сотрудников, некоторые добровольно, а некоторые нет. Абсолютно нормально, да?

Есть компания, которая невероятно скрытно относится к своей инфраструктуре. Например, боится сообщать о багах поставщику оборудования, потому что тогда ошибки будут исправлены, а конкуренты смогут использовать исправления. Этого нельзя допустить. Решение: запросить прошивку и исправить баги самостоятельно! Нормально.

Читать дальше →

+62

e_finkel Dec 25 2019 at 12:44

Метрики — индикаторы здоровья проекта

15 min

29K

Конференции Олега Бунина (Онтико) corporate blogDevelopment Management*Web services testing*IT systems testing*System Analysis and Design*

В IT здоровый проект — это система или сервис, который, с одной стороны, качественный, то есть соответствует требованиям и нравится пользователям. С другой стороны, приносит прибыль, потому что бизнес всегда на самом деле хочет зарабатывать деньги. Без связки качества и бизнеса ничего путного не выйдет.

Под катом Руслан Остропольский (RusOstropolsky) расскажет всё о метриках, которые являются индикаторами здоровья IT-систем. Разберет, какие бывают метрики, как они меняются по мере развития проекта, какие в каком проекте лучше применять. Объяснит, как качество и бизнес помогают друг другу с точки зрения метрик и зачем нужна эта коллаборация.

+26

AndyKy Feb 12 2019 at 11:01

Мечтают ли андроиды об электропанке? Как я учил нейросеть писать музыку

11 min

13K

ГК ЛАНИТ corporate blogArtificial IntelligenceMachine learning*

На курсах по машинному обучению в Artezio я познакомился с учебной моделью, способной создавать музыку. Музыка – существенная часть моей жизни, я много лет играл в группах (панк-рок, регги, хип-хоп, рок и т. д.) и являюсь фанатичным слушателем.

К сожалению, многие группы, большим поклонником которых я был в юности, распались по разным причинам. Или не распались, но то, что они теперь записывают… в общем, лучше бы они распались.

Мне стало любопытно, существует ли сейчас готовая модель, способная обучиться на треках одной из моих любимых групп и создать похожие композиции. Раз у самих музыкантов уже не очень получается, может, нейросеть справится за них?

Источник

+81

alinatestova Jul 7 2017 at 11:45

Рынок систем детекции и распознавания: Эмоции и «эмоциональные вычисления»

9 min

9.3K

Neurodata Lab corporate blogProgramming*Image processing*Machine learning*Algorithms*

В наши дни технологии по распознаванию перестают быть недосягаемыми. Распознавание эмоций и «эмоциональные вычисления» являются частью большого пласта науки, также включающего такие основополагающие понятия, как распознавание образов и обработка визуальной информации. Этим постом мы хотим открыть наш блог на Хабре и провести небольшой обзор решений, представленных на рынке систем распознавания эмоций — взглянем, какие компании работают в этом сегменте и чем конкретно они занимаются.

Читать дальше →

+11

crazyhatter May 17 2017 at 13:47

CRISP-DM: проверенная методология для Data Scientist-ов

16 min

75K

ГК ЛАНИТ corporate blogData Mining*Algorithms*Machine learning*

Постановка задач машинного обучения математически очень проста. Любая задача классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.

* Crisp (англ.) — хрустящий картофель, чипсы

Читать дальше →

+51

mephistopheies Apr 5 2017 at 14:23

Байесовские многорукие бандиты против A/B тестов

20 min

65K

Open Data Science corporate blogWeb services testing*Machine learning*Mathematics*Python*

Здравствуйте, коллеги. Рассмотрим обычный онлайн-эксперимент в некоторой компании «Усы и когти». У неё есть веб-сайт, на котором есть красная кнопка в форме прямоугольника с закругленными краями. Если пользователь нажимает на эту кнопку, то где-то в мире мурлычет от радости один котенок. Задача компании — максимизация мурлыкания. Также есть отдел маркетинга, который усердно исследует формы кнопок и то, как они влияют на конверсию показов в клико-мурлыкания. Потратив почти весь бюджет компании на уникальные исследования, отдел маркетинга разделился на четыре противоборствующие группировоки. У каждой группировки есть своя гениальная идея того, как должна выглядеть кнопка. В целом никто не против формы кнопки, но красный цвет раздражает всех маркетологов, и в итоге было предложено четыре альтернативных варианта. На самом деле, даже не так важно, какие именно это варианты, нас интересует тот вариант, который максимизирует мурлыкания. Маркетинг предлагает провести A/B/n-тест, но мы не согласны: и так на эти сомнительные исследования спущено денег немерено. Попробуем осчастливить как можно больше котят и сэкономить на трафике. Для оптимизации трафика, пущенного на тесты, мы будем использовать шайку многоруких байесовских бандитов (bayesian multi-armed bandits). Вперед.

Читать дальше →

+63

VanSuede Apr 21 2017 at 13:23

Предсказываем популярность статьи на TJ

10 min

11K

Data Mining*Python*Machine learning*

Однажды томным вечером, сидя напротив мелькающей ленты tjournal и попивая ромашковый чай, внезапно обнаружил себя за чтением статьи про советскую лампочку, которая освещала чей-то подъезд уже 80 лет. Да, весьма интересно, но все же я предпочитаю статьи про ~~политику~~ достижения ИИ в игре дум, приключения ракет SpaceX и, в конце концов, — с наибольшим кол-вом просмотров. А какие вообще статьи набирают внушительные рейтинги? Посты размером с твит про какую-то политическую акцию или же талмуды с детальным анализом российской киноиндустрии? Ну что же, тогда самое время расчехлять свой Jupyter notebook и выводить формулу идеальной статьи.

Читать дальше →

+19

1

2 3 ...