Статьи / Закладки / Профиль bigbadmutuh / Хабр

@bigbadmutuh

Пользователь

Профиль Публикации Комментарии 28Закладки 13

dmitriizolotov 9 авг 2022 в 18:23

Ищем скрытые смыслы. Графовые нейронные сети на основе Spektral

5 мин

4.2K

Python*Открытые данные*Блог компании OTUSTensorFlow*

Развитие методов глубокого машинного обучения привело к росту популярности нейронных сетей в задачах распознавания образов, машинного перевода, генерации изображений и текстов и многих других. С 2009 года нейронные сети попытались применить напрямую в задачах обработки графов (к которым могут относиться системы веб-страниц, связанных ссылками, словари с определенными отношениями между словами, граф социальных связей и другие) и среди возможных задач можно определить поиск кластеров узлов, создание новых графов на основе имеющейся информации о структуре графа, расширение графа и предсказание новых связей и другие. Сейчас выделяют несколько типов нейронных сетей на основе графов - сверточные графовые сети (Convolutional Graph Network), графовые изоморные сети (Graph Isomorphism Network) и многие другие и они часто используются для анализа цитирования статей, исследования текста (представление предложения как графа с указанием типов отношений между словами), изучения взаимосвязанных структур (например, исследования белковых молекул, в частности сеть Alphafold использует модель GNN) и т.д. В статье мы рассмотрим некоторые общие вопросы создания и обучения графовых сетей на основе библиотеки Python Spektral.

WhiteBlackGoose 18 сен 2019 в 12:01

Элементарная симуляция кастомного физического взаимодействия на python + matplotlib

10 мин

21K

Python*Математика*Matlab*Физика

Привет!

Тут мы опишем работу некоторого поля а затем сделаем пару красивых фичей (тут все ОЧЕНЬ просто).

Что будет в этой статье.

Общий случай:

Опишем базу, а именно работу с векторами (велосипед для тех, у кого нет под рукой numpy)
Опишем материальную точку и поле взаимодействия

Частный случай (на основе общего):

Сделаем визуализацию векторного поля напряженности электромагнитного поля (первая и третья картинки)
Сделаем визуализацию движения частиц в электромагнитном поле

Встретимся под катом!

Читать дальше →

+27

Ilona_Nozhenko 29 июн 2022 в 17:53

Что делать агентам изменений, когда культура компании каждый день норовит съесть их на завтрак?

13 мин

2.8K

Agile*Управление продуктом*Управление персоналом*Бизнес-модели*Блог компании ВТБ

Друзья, рада, что вы решили уделить внимание моей немного гастрономической теме. Хочу поделиться с вами своими примерно четырехлетними наблюдениями о том, как агентам изменений работается в крупных компаниях, что я общего я наблюдала в их моделях поведения и что помогает не стать тем самым сытным завтраком для корпоративной культуры.

Меня зовут Илона Ноженко и так сложилось, что я любитель поработать в энтерпрайзах — тех самых неповоротливых или, как их порой величают, кровавых. У меня за плечами инхаус-работа в четырех крупных компаниях, сегодня я работаю в банке «Открытие». Что еще интересного могу рассказать о себе? Много вкладываюсь в развитие бизнеса и продактов, правда, для этого мне пришлось пройти путь запуска своих идей на рынок.

Как вообще я стала собирать истории про взаимоотношения агентов изменений и корпкультуры? Где-то в 2018 году знакомые и коллеги зачастили ко мне с вопросами типа «как, ты еще держишься?». Я немного напряглась — не от того, что вопрос сам по себе сложный, а от того, почему у людей вообще появляется такая мысль. Ведь тут явно сквозит какой-то не очень позитивный контекст и им явно от чего-то больно. Вот это «от чего-то» я и стала изучать.

Эта статья — не про то, как бороться с выгоранием от работы или как трансформировать культуру (это огромные темы для отдельных выступлений, хотя косвенно сегодня они будут затрагиваться). Мне хочется осветить тему с такой стороны: как мы, агенты изменений, можем провоцировать систему и корпкультуру на то, что они начинают давать сдачи и съедают нас с потрохами.

Читать далее мою немного гастрономию

+10

aarmaageedoon 28 июн 2022 в 13:52

Ныряем со Сноркелем в море данных. Туториал по фреймворку для программирования датасетов

18 мин

2.3K

Data Mining*Машинное обучение*Natural Language Processing*Блог компании MTS AI

Туториал

Привет. Я Игорь Буянов, старший разработчик группы разметки данных MTS AI. Я люблю датасеты и все методы, которые помогают их делать быстро и качественно. Недавно рассказывал о том, как делать иерархически датасет из Википедии. В этом посте хочу рассказать вам о Сноркеле - фреймворке для программирования данных (data programming). Познакомился я с ним случайно несколько лет назад, и меня поразил этот подход, который заключается в использовании разных эвристик и априорных знаний для автоматической разметки датасетов. Проект стартовал в Стэнфорде как инструмент для помощи в разметке датасетов для задачи information extraction, а сейчас разработчики делают платформу для пользования внешними заказчиками.

Сноркель может существенно сократить время на проверку какой-либо идеи, когда данных мало или их нет совсем, или увеличить эффективность процесса создания качественного датасета, как это потребовалось в проекте медицинского чат-бота, про который почитать можно здесь.

В этом посте я подготовил туториал, который наглядно покажет, как работать со Сноркелем, а также кратко объясню теоретические аспекты его работы.

MichaelEk 23 июн 2022 в 10:59

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

10 мин

118K

Open source*Блог компании ЯндексАлгоритмы*Машинное обучение*Natural Language Processing*

Технотекст 2022

^{Больше примеров — в конце поста}

В последние годы большие языковые модели на архитектуре трансформеров стали вершиной развития нейросетей в задачах NLP. С каждым месяцем они становятся всё больше и сложнее. Чтобы обучить подобные модели, уже сейчас требуются миллионы долларов, лучшие специалисты и годы разработки. В результате доступ к современным технологиям остался лишь у крупнейших IT-компаний. При этом у исследователей и разработчиков со всего мира есть потребность в доступе к таким решениям. Без новых исследований развитие технологий неизбежно снизит темпы. Единственный способ избежать этого — делиться с сообществом своими наработками.

Год назад мы впервые рассказали Хабру о семействе языковых моделей YaLM и их применении в Алисе и Поиске. Сегодня мы выложили в свободный доступ нашу самую большую модель YaLM на 100 млрд параметров. Она обучалась 65 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100. Модель и дополнительные материалы опубликованы на Гитхабе под лицензией Apache 2.0, которая допускает применение как в исследовательских, так и в коммерческих проектах. Сейчас это самая большая в мире GPT-подобная нейросеть в свободном доступе как для английского, так и для русского языков.

В этой статье мы поделимся не только моделью, но и нашим опытом её обучения. Может показаться, что если у вас уже есть суперкомпьютер, то с обучением больших моделей никаких проблем не возникнет. К сожалению, это заблуждение. Под катом мы расскажем о том, как смогли обучить языковую модель такого размера. Вы узнаете, как удалось добиться стабильности обучения и при этом ускорить его в два раза. Кстати, многое из того, что будет описано ниже, может быть полезно при обучении нейросетей любого размера.

Читать дальше →

+164

139

Ekaterina_Podolina 18 июн 2022 в 23:24

Деревья и пожары: растим деревья на данных и тушим пожар риск-мониторинга

7 мин

4.6K

Анализ и проектирование систем*Визуализация данных*Инфографика

Представьте, что вы работаете в контролирующей организации, и вам нужно проверить большое количество объектов. Как охватить одним взглядом все данные? Сколько контрактов у проверяемой организации? Допущены ли в них нарушения, как часто они встречаются? Как провести массовую проверку 10 тысяч контрактов за один месяц, выбирая наиболее проблемные из них?

С такими вопросами я столкнулась, работая аналитиком в заказной разработке информационной системы (ИС) для контрольного управления в крупном городе Х (с большим бюджетом). Моей задачей было написать постановку на блок «Плановые проверки» в модуле «Проверки».

Сначала моему руководству и Заказчику задача виделась простой, так как ранее был запущен блок «Внеплановые проверки». Но когда я проанализировала ситуацию, то пришла к тому, что нужна не только оптимизация, а капитальный реинжиниринг бизнес-процесса ввиду большого объёма данных и нехватки человеческих ресурсов. Также я предложила визуализацию большого массива данных в виде дерева для повышения прозрачности и управляемости процесса проведения масштабных проверок.

В статье я расскажу про своё решение, что меня вдохновило на его создание, как оно решило проблему и как оно может применяться в других проектах. Вы можете взять его за основу, если нужно создать «паспорт/профиль организации и риски, с ней связанные». Такой подход поможет разрешить конфликт интересов: исполнитель — руководитель исполнителя — главный руководитель. Ситуация станет понятной, прозрачной и управляемой для каждого участника процесса.

Что за дерево такое

rucola-team 24 мая 2022 в 12:02

Насколько естественен естественный язык? Представляем датасет RuCoLA

7 мин

7.8K

Open source*GitHub*Машинное обучение*Исследования и прогнозы в IT*Natural Language Processing*

В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.

Читать дальше →

+35

VadimLjovkin 22 мая 2022 в 22:33

Нужен бесплатный SSL-сертификат? Легко

3 мин

153K

ХостингИнформационная безопасность*Веб-разработка*Сетевые технологии*

Технотекст 2022

Если вам нужен SSL-сертификат, но вы не являетесь специалистом в веб-технологиях, то эта заметка для вас. Описан простой способ выпуска базового SSL-сертификата Let’s Encrypt в ручном режиме, на локальном компьютере с Windows, с помощью приложения Certbot. Этот способ позволяет получить файлы SSL-сертификата в папку на своём локальном компьютере, после чего можно установить сертификат на свой хостинг.

Потребность в SSL-сертификатах возникла у меня в связи с тем, что срок старых истёк, а создать новые оказалось невозможным из-за возникших ограничений на доменные зоны RU и РФ. Если у вас такая же проблема или вам просто надоело искать веб-сервис для выпуска SSL-сертификатов, то эта заметка вам поможет.

Поскольку я пока не знаю наилучшего пути, то ниже просто опишу ту последовательность действий, которую сам выполнил и которая позволила мне создать SSL-сертификаты для десяти своих доменов (в том числе в зонах RU и РФ), а значит и вам этот способ может помочь.

+13

MagisterLudi 13 мая 2022 в 12:20

OSINT по спутниковым изображениям

3 мин

42K

Информационная безопасность*Блог компании Timeweb CloudГеоинформационные сервисы*Космонавтика

Мы живем в такое время, когда снимок со спутника можно получить в один клик. В оптическом, в инфракрасном и в радиодиапазоне. А еще историю изменений в определенной координате за несколько лет.

Зеленый Кот нашел разбившуюся советскую исследовательскую станцию «Марс-3» по снимкам со спутника, тысячи экологов следят за лесами Амазонки и состоянием береговой линии, школьники делают учебные проекты по слежке за популяцией моржей, репортеры проводят расследования, освобождают рабов, мониторят лагеря беженцев.

Предлагаю вам подборку бесплатных ресурсов и проектов со спутниковыми данными, программами обработки этих данных и полезные статьи.

Читать дальше →

+53

MagisterLudi 17 мая 2022 в 15:16

Инструменты OSINT для геолокации: моря, горы, улицы

4 мин

14K

Информационная безопасность*Обработка изображений*Блог компании Timeweb CloudГеоинформационные сервисы*Машинное обучение*

Помимо доступа к спутниковому OSINT в один клик, появляется всё больше и больше инструментов для выяснения точного местоположения, откуда был сделан фото- или видео-снимок. Любая деталь — дорожный знак, вывеска, линии электропередач, рельеф гор на заднем плане и даже длина тени от столба может быть подсказкой для исследователей. Предлагаем вашему вниманию подборку инструментов по геолокации от ведущих OSINT-исследователей.

Geolocation Estimaton

Платформа, которая оценивает местоположение изображения с помощью глубокого обучения/ИИ.

Тут можно смотреть на чужие фотки и вручную вбивать их местоположение, учить систему, а можно загружать свою фотку и просить систему «угадать» местоположение.

На тепловой карте указываются области, которые максимально повлияли на принятие решения.

Загрузил свою фотку из исторического района Стамбула — система не смогла определить.

Читать дальше →

+30

PatientZero 11 дек 2019 в 07:34

Фрактальное сжатие изображений

7 мин

12K

Алгоритмы*Обработка изображений*Математика*

Перевод

Пару лет назад я написал очень простую реализацию фрактального сжатия изображений для студенческой работы и выложил код на github.

К моему удивлению, репозиторий оказался довольно популярным, поэтому я решил обновить код и написать статью, объясняющую его и теорию.

Читать дальше →

+18

sergei_bondarenko 29 ноя 2019 в 12:47

Гидрология и математика редких событий, или Неоспоримый аргумент в пользу выживальщиков

9 мин

17K

Математика*Научно-популярное

Из песочницы

Привет, Хабр! Представляю вашему вниманию перевод статьи «The Surprisingly Solid Mathematical Case of the Tin Foil Hat Gun Prepper» автора BJ Campbell.

«Всего лишь девять приемов пищи отделяют человечество от анархии», – Альфред Генри Льюис, 1906 год.

Читать дальше →

+34

haqreu 24 ноя 2019 в 19:47

Методы наименьших квадратов: текст, написанный программистом для программистов

19 мин

37K

Программирование*C++*Data Mining*Алгоритмы*Математика*

Туториал

Продолжаю публикацию своих лекций, изначально предназначенных для студентов, учащихся по специальности «цифровая геология». На хабре это уже третья публикация из цикла, первая статья была вводной, она необязательна к прочтению. Однако же для понимания этой статьи необходимо прочитать введение в системы линейных уравнений даже в том случае, если вы знаете, что это такое, так как я буду много ссылаться на примеры из этого введения.

Итак, задача на сегодня: научиться простейшей обработке геометрии, чтобы, например, суметь преобразовать мою голову в истукана с острова Пасхи:

Читать дальше →

+76