Articles / Bookmarks / Profile of bigbadmutuh / Habr

@bigbadmutuh

User

Profile Articles Posts News Comments 28

dmitriizolotov Aug 9 2022 at 18:23

Ищем скрытые смыслы. Графовые нейронные сети на основе Spektral

5 min

4.4K

OTUS corporate blogPython*Open data*TensorFlow*

Развитие методов глубокого машинного обучения привело к росту популярности нейронных сетей в задачах распознавания образов, машинного перевода, генерации изображений и текстов и многих других. С 2009 года нейронные сети попытались применить напрямую в задачах обработки графов (к которым могут относиться системы веб-страниц, связанных ссылками, словари с определенными отношениями между словами, граф социальных связей и другие) и среди возможных задач можно определить поиск кластеров узлов, создание новых графов на основе имеющейся информации о структуре графа, расширение графа и предсказание новых связей и другие. Сейчас выделяют несколько типов нейронных сетей на основе графов - сверточные графовые сети (Convolutional Graph Network), графовые изоморные сети (Graph Isomorphism Network) и многие другие и они часто используются для анализа цитирования статей, исследования текста (представление предложения как графа с указанием типов отношений между словами), изучения взаимосвязанных структур (например, исследования белковых молекул, в частности сеть Alphafold использует модель GNN) и т.д. В статье мы рассмотрим некоторые общие вопросы создания и обучения графовых сетей на основе библиотеки Python Spektral.

WhiteBlackGoose Sep 18 2019 at 12:01

Элементарная симуляция кастомного физического взаимодействия на python + matplotlib

10 min

22K

Matlab*Python*Mathematics*Physics

Привет!

Тут мы опишем работу некоторого поля а затем сделаем пару красивых фичей (тут все ОЧЕНЬ просто).

Что будет в этой статье.

Общий случай:

Опишем базу, а именно работу с векторами (велосипед для тех, у кого нет под рукой numpy)
Опишем материальную точку и поле взаимодействия

Частный случай (на основе общего):

Сделаем визуализацию векторного поля напряженности электромагнитного поля (первая и третья картинки)
Сделаем визуализацию движения частиц в электромагнитном поле

Встретимся под катом!

Читать дальше →

+27

Ilona_Nozhenko Jun 29 2022 at 17:53

Что делать агентам изменений, когда культура компании каждый день норовит съесть их на завтрак?

13 min

3.1K

ВТБ corporate blogAgile*Product Management*Personnel Management*Business Models*

Друзья, рада, что вы решили уделить внимание моей немного гастрономической теме. Хочу поделиться с вами своими примерно четырехлетними наблюдениями о том, как агентам изменений работается в крупных компаниях, что я общего я наблюдала в их моделях поведения и что помогает не стать тем самым сытным завтраком для корпоративной культуры.

Меня зовут Илона Ноженко и так сложилось, что я любитель поработать в энтерпрайзах — тех самых неповоротливых или, как их порой величают, кровавых. У меня за плечами инхаус-работа в четырех крупных компаниях, сегодня я работаю в банке «Открытие». Что еще интересного могу рассказать о себе? Много вкладываюсь в развитие бизнеса и продактов, правда, для этого мне пришлось пройти путь запуска своих идей на рынок.

Как вообще я стала собирать истории про взаимоотношения агентов изменений и корпкультуры? Где-то в 2018 году знакомые и коллеги зачастили ко мне с вопросами типа «как, ты еще держишься?». Я немного напряглась — не от того, что вопрос сам по себе сложный, а от того, почему у людей вообще появляется такая мысль. Ведь тут явно сквозит какой-то не очень позитивный контекст и им явно от чего-то больно. Вот это «от чего-то» я и стала изучать.

Эта статья — не про то, как бороться с выгоранием от работы или как трансформировать культуру (это огромные темы для отдельных выступлений, хотя косвенно сегодня они будут затрагиваться). Мне хочется осветить тему с такой стороны: как мы, агенты изменений, можем провоцировать систему и корпкультуру на то, что они начинают давать сдачи и съедают нас с потрохами.

Читать далее мою немного гастрономию

+10

aarmaageedoon Jun 28 2022 at 13:52

Ныряем со Сноркелем в море данных. Туториал по фреймворку для программирования датасетов

18 min

2.5K

MTS AI corporate blogData Mining*Machine learning*Natural Language Processing*

Tutorial

Привет. Я Игорь Буянов, старший разработчик группы разметки данных MTS AI. Я люблю датасеты и все методы, которые помогают их делать быстро и качественно. Недавно рассказывал о том, как делать иерархически датасет из Википедии. В этом посте хочу рассказать вам о Сноркеле - фреймворке для программирования данных (data programming). Познакомился я с ним случайно несколько лет назад, и меня поразил этот подход, который заключается в использовании разных эвристик и априорных знаний для автоматической разметки датасетов. Проект стартовал в Стэнфорде как инструмент для помощи в разметке датасетов для задачи information extraction, а сейчас разработчики делают платформу для пользования внешними заказчиками.

Сноркель может существенно сократить время на проверку какой-либо идеи, когда данных мало или их нет совсем, или увеличить эффективность процесса создания качественного датасета, как это потребовалось в проекте медицинского чат-бота, про который почитать можно здесь.

В этом посте я подготовил туториал, который наглядно покажет, как работать со Сноркелем, а также кратко объясню теоретические аспекты его работы.

MichaelEk Jun 23 2022 at 10:59

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

10 min

121K

Яндекс corporate blogMachine learning*Algorithms*Open source*Natural Language Processing*

Technotext 2022

^{Больше примеров — в конце поста}

В последние годы большие языковые модели на архитектуре трансформеров стали вершиной развития нейросетей в задачах NLP. С каждым месяцем они становятся всё больше и сложнее. Чтобы обучить подобные модели, уже сейчас требуются миллионы долларов, лучшие специалисты и годы разработки. В результате доступ к современным технологиям остался лишь у крупнейших IT-компаний. При этом у исследователей и разработчиков со всего мира есть потребность в доступе к таким решениям. Без новых исследований развитие технологий неизбежно снизит темпы. Единственный способ избежать этого — делиться с сообществом своими наработками.

Год назад мы впервые рассказали Хабру о семействе языковых моделей YaLM и их применении в Алисе и Поиске. Сегодня мы выложили в свободный доступ нашу самую большую модель YaLM на 100 млрд параметров. Она обучалась 65 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100. Модель и дополнительные материалы опубликованы на Гитхабе под лицензией Apache 2.0, которая допускает применение как в исследовательских, так и в коммерческих проектах. Сейчас это самая большая в мире GPT-подобная нейросеть в свободном доступе как для английского, так и для русского языков.

В этой статье мы поделимся не только моделью, но и нашим опытом её обучения. Может показаться, что если у вас уже есть суперкомпьютер, то с обучением больших моделей никаких проблем не возникнет. К сожалению, это заблуждение. Под катом мы расскажем о том, как смогли обучить языковую модель такого размера. Вы узнаете, как удалось добиться стабильности обучения и при этом ускорить его в два раза. Кстати, многое из того, что будет описано ниже, может быть полезно при обучении нейросетей любого размера.

Читать дальше →

+164

139

Ekaterina_Podolina Jun 18 2022 at 23:24

Деревья и пожары: растим деревья на данных и тушим пожар риск-мониторинга

7 min

5.4K

InfographicsData visualization*System Analysis and Design*

Представьте, что вы работаете в контролирующей организации, и вам нужно проверить большое количество объектов. Как охватить одним взглядом все данные? Сколько контрактов у проверяемой организации? Допущены ли в них нарушения, как часто они встречаются? Как провести массовую проверку 10 тысяч контрактов за один месяц, выбирая наиболее проблемные из них?

С такими вопросами я столкнулась, работая аналитиком в заказной разработке информационной системы (ИС) для контрольного управления в крупном городе Х (с большим бюджетом). Моей задачей было написать постановку на блок «Плановые проверки» в модуле «Проверки».

Сначала моему руководству и Заказчику задача виделась простой, так как ранее был запущен блок «Внеплановые проверки». Но когда я проанализировала ситуацию, то пришла к тому, что нужна не только оптимизация, а капитальный реинжиниринг бизнес-процесса ввиду большого объёма данных и нехватки человеческих ресурсов. Также я предложила визуализацию большого массива данных в виде дерева для повышения прозрачности и управляемости процесса проведения масштабных проверок.

В статье я расскажу про своё решение, что меня вдохновило на его создание, как оно решило проблему и как оно может применяться в других проектах. Вы можете взять его за основу, если нужно создать «паспорт/профиль организации и риски, с ней связанные». Такой подход поможет разрешить конфликт интересов: исполнитель — руководитель исполнителя — главный руководитель. Ситуация станет понятной, прозрачной и управляемой для каждого участника процесса.

Что за дерево такое

rucola-team May 24 2022 at 12:02

Насколько естественен естественный язык? Представляем датасет RuCoLA

7 min

8.1K

Machine learning*Research and forecasts in IT*Open source*Natural Language Processing*GitHub*

В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.

Читать дальше →

+35

VadimLjovkin May 22 2022 at 22:33

Нужен бесплатный SSL-сертификат? Легко

3 min

188K

HostingInformation Security*Website development*Network technologies*

Technotext 2022

Если вам нужен SSL-сертификат, но вы не являетесь специалистом в веб-технологиях, то эта заметка для вас. Описан простой способ выпуска базового SSL-сертификата Let’s Encrypt в ручном режиме, на локальном компьютере с Windows, с помощью приложения Certbot. Этот способ позволяет получить файлы SSL-сертификата в папку на своём локальном компьютере, после чего можно установить сертификат на свой хостинг.

Потребность в SSL-сертификатах возникла у меня в связи с тем, что срок старых истёк, а создать новые оказалось невозможным из-за возникших ограничений на доменные зоны RU и РФ. Если у вас такая же проблема или вам просто надоело искать веб-сервис для выпуска SSL-сертификатов, то эта заметка вам поможет.

Поскольку я пока не знаю наилучшего пути, то ниже просто опишу ту последовательность действий, которую сам выполнил и которая позволила мне создать SSL-сертификаты для десяти своих доменов (в том числе в зонах RU и РФ), а значит и вам этот способ может помочь.

+14

MagisterLudi May 13 2022 at 12:20

OSINT по спутниковым изображениям

3 min

48K

Timeweb Cloud corporate blogGeoinformation services*Information Security*Astronautics

Мы живем в такое время, когда снимок со спутника можно получить в один клик. В оптическом, в инфракрасном и в радиодиапазоне. А еще историю изменений в определенной координате за несколько лет.

Зеленый Кот нашел разбившуюся советскую исследовательскую станцию «Марс-3» по снимкам со спутника, тысячи экологов следят за лесами Амазонки и состоянием береговой линии, школьники делают учебные проекты по слежке за популяцией моржей, репортеры проводят расследования, освобождают рабов, мониторят лагеря беженцев.

Предлагаю вам подборку бесплатных ресурсов и проектов со спутниковыми данными, программами обработки этих данных и полезные статьи.

Читать дальше →

+52

MagisterLudi May 17 2022 at 15:16

Инструменты OSINT для геолокации: моря, горы, улицы

4 min

18K

Timeweb Cloud corporate blogGeoinformation services*Information Security*Machine learning*Image processing*

Помимо доступа к спутниковому OSINT в один клик, появляется всё больше и больше инструментов для выяснения точного местоположения, откуда был сделан фото- или видео-снимок. Любая деталь — дорожный знак, вывеска, линии электропередач, рельеф гор на заднем плане и даже длина тени от столба может быть подсказкой для исследователей. Предлагаем вашему вниманию подборку инструментов по геолокации от ведущих OSINT-исследователей.

Geolocation Estimaton

Платформа, которая оценивает местоположение изображения с помощью глубокого обучения/ИИ.

Тут можно смотреть на чужие фотки и вручную вбивать их местоположение, учить систему, а можно загружать свою фотку и просить систему «угадать» местоположение.

На тепловой карте указываются области, которые максимально повлияли на принятие решения.

Загрузил свою фотку из исторического района Стамбула — система не смогла определить.

Читать дальше →

+30

PatientZero Dec 11 2019 at 07:34

Фрактальное сжатие изображений

7 min

13K

Algorithms*Mathematics*Image processing*

Translation

Пару лет назад я написал очень простую реализацию фрактального сжатия изображений для студенческой работы и выложил код на github.

К моему удивлению, репозиторий оказался довольно популярным, поэтому я решил обновить код и написать статью, объясняющую его и теорию.

Читать дальше →

+18

sergei_bondarenko Nov 29 2019 at 12:47

Гидрология и математика редких событий, или Неоспоримый аргумент в пользу выживальщиков

9 min

17K

Mathematics*Popular science

From sandbox

Привет, Хабр! Представляю вашему вниманию перевод статьи «The Surprisingly Solid Mathematical Case of the Tin Foil Hat Gun Prepper» автора BJ Campbell.

«Всего лишь девять приемов пищи отделяют человечество от анархии», – Альфред Генри Льюис, 1906 год.

Читать дальше →

+34

haqreu Nov 24 2019 at 19:47

Методы наименьших квадратов: текст, написанный программистом для программистов

19 min

38K

Programming*Mathematics*Algorithms*Data Mining*C++*

Tutorial

Продолжаю публикацию своих лекций, изначально предназначенных для студентов, учащихся по специальности «цифровая геология». На хабре это уже третья публикация из цикла, первая статья была вводной, она необязательна к прочтению. Однако же для понимания этой статьи необходимо прочитать введение в системы линейных уравнений даже в том случае, если вы знаете, что это такое, так как я буду много ссылаться на примеры из этого введения.

Итак, задача на сегодня: научиться простейшей обработке геометрии, чтобы, например, суметь преобразовать мою голову в истукана с острова Пасхи:

Читать дальше →

+76