Pull to refresh
-4
0
Send message

Ищем скрытые смыслы. Графовые нейронные сети на основе Spektral

Reading time5 min
Views4.3K

Развитие методов глубокого машинного обучения привело к росту популярности нейронных сетей в задачах распознавания образов, машинного перевода, генерации изображений и текстов и многих других. С 2009 года нейронные сети попытались применить напрямую в задачах обработки графов (к которым могут относиться системы веб-страниц, связанных ссылками, словари с определенными отношениями между словами, граф социальных связей и другие) и среди возможных задач можно определить поиск кластеров узлов, создание новых графов на основе имеющейся информации о структуре графа, расширение графа и предсказание новых связей и другие. Сейчас выделяют несколько типов нейронных сетей на основе графов - сверточные графовые сети (Convolutional Graph Network), графовые изоморные сети (Graph Isomorphism Network) и многие другие и они часто используются для анализа цитирования статей, исследования текста (представление предложения как графа с указанием типов отношений между словами), изучения взаимосвязанных структур (например, исследования белковых молекул, в частности сеть Alphafold использует модель GNN) и т.д. В статье мы рассмотрим некоторые общие вопросы создания и обучения графовых сетей на основе библиотеки Python Spektral.

Читать далее
Total votes 8: ↑7 and ↓1+8
Comments0

Элементарная симуляция кастомного физического взаимодействия на python + matplotlib

Reading time10 min
Views22K
Привет!

Тут мы опишем работу некоторого поля а затем сделаем пару красивых фичей (тут все ОЧЕНЬ просто).



Что будет в этой статье.

Общий случай:

  1. Опишем базу, а именно работу с векторами (велосипед для тех, у кого нет под рукой numpy)
  2. Опишем материальную точку и поле взаимодействия

Частный случай (на основе общего):

  1. Сделаем визуализацию векторного поля напряженности электромагнитного поля (первая и третья картинки)
  2. Сделаем визуализацию движения частиц в электромагнитном поле

Встретимся под катом!
Читать дальше →
Total votes 27: ↑27 and ↓0+27
Comments10

Что делать агентам изменений, когда культура компании каждый день норовит съесть их на завтрак?

Reading time13 min
Views3K

Друзья, рада, что вы решили уделить внимание моей немного гастрономической теме. Хочу поделиться с вами своими примерно четырехлетними наблюдениями о том, как агентам изменений работается в крупных компаниях, что я общего я наблюдала в их моделях поведения и что помогает не стать тем самым сытным завтраком для корпоративной культуры.

Меня зовут Илона Ноженко и так сложилось, что я любитель поработать в энтерпрайзах — тех самых неповоротливых или, как их порой величают, кровавых. У меня за плечами инхаус-работа в четырех крупных компаниях, сегодня я работаю в банке «Открытие». Что еще интересного могу рассказать о себе? Много вкладываюсь в развитие бизнеса и продактов, правда, для этого мне пришлось пройти путь запуска своих идей на рынок.

Как вообще я стала собирать истории про взаимоотношения агентов изменений и корпкультуры? Где-то в 2018 году знакомые и коллеги зачастили ко мне с вопросами типа «как, ты еще держишься?». Я немного напряглась — не от того, что вопрос сам по себе сложный, а от того, почему у людей вообще появляется такая мысль. Ведь тут явно сквозит какой-то не очень позитивный контекст и им явно от чего-то больно. Вот это «от чего-то» я и стала изучать.

Эта статья — не про то, как бороться с выгоранием от работы или как трансформировать культуру (это огромные темы для отдельных выступлений, хотя косвенно сегодня они будут затрагиваться). Мне хочется осветить тему с такой стороны: как мы, агенты изменений, можем провоцировать систему и корпкультуру на то, что они начинают давать сдачи и съедают нас с потрохами.

Читать далее мою немного гастрономию
Total votes 13: ↑11 and ↓2+10
Comments0

Ныряем со Сноркелем в море данных. Туториал по фреймворку для программирования датасетов

Reading time18 min
Views2.4K

Привет. Я Игорь Буянов, старший разработчик группы разметки данных MTS AI. Я люблю датасеты и все методы, которые помогают их делать быстро и качественно. Недавно рассказывал о том, как делать иерархически датасет из Википедии. В этом посте хочу рассказать вам о Сноркеле - фреймворке для программирования данных (data programming). Познакомился я с ним случайно несколько лет назад, и меня поразил этот подход, который заключается в использовании разных эвристик и априорных знаний для автоматической разметки датасетов. Проект стартовал в Стэнфорде как инструмент для помощи в разметке датасетов для задачи information extraction, а сейчас разработчики делают платформу для пользования внешними заказчиками.

Сноркель может существенно сократить время на проверку какой-либо идеи, когда данных мало или их нет совсем, или увеличить эффективность процесса создания качественного датасета, как это потребовалось в проекте медицинского чат-бота, про который почитать можно здесь.

В этом посте я подготовил туториал, который наглядно покажет, как работать со Сноркелем, а также кратко объясню теоретические аспекты его работы.

Читать далее
Total votes 3: ↑2 and ↓1+1
Comments0

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

Reading time10 min
Views120K

Больше примеров — в конце поста

В последние годы большие языковые модели на архитектуре трансформеров стали вершиной развития нейросетей в задачах NLP. С каждым месяцем они становятся всё больше и сложнее. Чтобы обучить подобные модели, уже сейчас требуются миллионы долларов, лучшие специалисты и годы разработки. В результате доступ к современным технологиям остался лишь у крупнейших IT-компаний. При этом у исследователей и разработчиков со всего мира есть потребность в доступе к таким решениям. Без новых исследований развитие технологий неизбежно снизит темпы. Единственный способ избежать этого — делиться с сообществом своими наработками.

Год назад мы впервые рассказали Хабру о семействе языковых моделей YaLM и их применении в Алисе и Поиске. Сегодня мы выложили в свободный доступ нашу самую большую модель YaLM на 100 млрд параметров. Она обучалась 65 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100. Модель и дополнительные материалы опубликованы на Гитхабе под лицензией Apache 2.0, которая допускает применение как в исследовательских, так и в коммерческих проектах. Сейчас это самая большая в мире GPT-подобная нейросеть в свободном доступе как для английского, так и для русского языков.

В этой статье мы поделимся не только моделью, но и нашим опытом её обучения. Может показаться, что если у вас уже есть суперкомпьютер, то с обучением больших моделей никаких проблем не возникнет. К сожалению, это заблуждение. Под катом мы расскажем о том, как смогли обучить языковую модель такого размера. Вы узнаете, как удалось добиться стабильности обучения и при этом ускорить его в два раза. Кстати, многое из того, что будет описано ниже, может быть полезно при обучении нейросетей любого размера.
Читать дальше →
Total votes 123: ↑122 and ↓1+164
Comments139

Деревья и пожары: растим деревья на данных и тушим пожар риск-мониторинга

Reading time7 min
Views5.1K

Представьте, что вы работаете в контролирующей организации, и вам нужно проверить большое количество объектов. Как охватить одним взглядом все данные? Сколько контрактов у проверяемой организации? Допущены ли в них нарушения, как часто они встречаются? Как провести массовую проверку 10 тысяч контрактов за один месяц, выбирая наиболее проблемные из них?

С такими вопросами я столкнулась, работая аналитиком в заказной разработке информационной системы (ИС) для контрольного управления в крупном городе Х (с большим бюджетом). Моей задачей было написать постановку на блок «Плановые проверки» в модуле «Проверки».

Сначала моему руководству и Заказчику задача виделась простой, так как ранее был запущен блок «Внеплановые проверки». Но когда я проанализировала ситуацию, то пришла к тому, что нужна не только оптимизация, а капитальный реинжиниринг бизнес-процесса ввиду большого объёма данных и нехватки человеческих ресурсов. Также я предложила визуализацию большого массива данных в виде дерева для повышения прозрачности и управляемости процесса проведения масштабных проверок.

В статье я расскажу про своё решение, что меня вдохновило на его создание, как оно решило проблему и как оно может применяться в других проектах. Вы можете взять его за основу, если нужно создать «паспорт/профиль организации и риски, с ней связанные». Такой подход поможет разрешить конфликт интересов: исполнитель — руководитель исполнителя — главный руководитель. Ситуация станет понятной, прозрачной и управляемой для каждого участника процесса.

Что за дерево такое
Total votes 8: ↑8 and ↓0+8
Comments6

Насколько естественен естественный язык? Представляем датасет RuCoLA

Reading time7 min
Views8K


В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.
Читать дальше →
Total votes 26: ↑25 and ↓1+35
Comments16

Нужен бесплатный SSL-сертификат? Легко

Reading time3 min
Views173K

Если вам нужен SSL-сертификат, но вы не являетесь специалистом в веб-технологиях, то эта заметка для вас. Описан простой способ выпуска базового SSL-сертификата Let’s Encrypt в ручном режиме, на локальном компьютере с Windows, с помощью приложения Certbot. Этот способ позволяет получить файлы SSL-сертификата в папку на своём локальном компьютере, после чего можно установить сертификат на свой хостинг.

Потребность в SSL-сертификатах возникла у меня в связи с тем, что срок старых истёк, а создать новые оказалось невозможным из-за возникших ограничений на доменные зоны RU и РФ. Если у вас такая же проблема или вам просто надоело искать веб-сервис для выпуска SSL-сертификатов, то эта заметка вам поможет.

Поскольку я пока не знаю наилучшего пути, то ниже просто опишу ту последовательность действий, которую сам выполнил и которая позволила мне создать SSL-сертификаты для десяти своих доменов (в том числе в зонах RU и РФ), а значит и вам этот способ может помочь.

Читать далее
Total votes 39: ↑23 and ↓16+13
Comments92

OSINT по спутниковым изображениям

Reading time3 min
Views46K
image

Мы живем в такое время, когда снимок со спутника можно получить в один клик. В оптическом, в инфракрасном и в радиодиапазоне. А еще историю изменений в определенной координате за несколько лет.

Зеленый Кот нашел разбившуюся советскую исследовательскую станцию «Марс-3» по снимкам со спутника, тысячи экологов следят за лесами Амазонки и состоянием береговой линии, школьники делают учебные проекты по слежке за популяцией моржей, репортеры проводят расследования, освобождают рабов, мониторят лагеря беженцев.

Предлагаю вам подборку бесплатных ресурсов и проектов со спутниковыми данными, программами обработки этих данных и полезные статьи.
Читать дальше →
Total votes 41: ↑40 and ↓1+53
Comments11

Инструменты OSINT для геолокации: моря, горы, улицы

Reading time4 min
Views16K
Помимо доступа к спутниковому OSINT в один клик, появляется всё больше и больше инструментов для выяснения точного местоположения, откуда был сделан фото- или видео-снимок. Любая деталь — дорожный знак, вывеска, линии электропередач, рельеф гор на заднем плане и даже длина тени от столба может быть подсказкой для исследователей. Предлагаем вашему вниманию подборку инструментов по геолокации от ведущих OSINT-исследователей.

Geolocation Estimaton


image

Платформа, которая оценивает местоположение изображения с помощью глубокого обучения/ИИ.

Тут можно смотреть на чужие фотки и вручную вбивать их местоположение, учить систему, а можно загружать свою фотку и просить систему «угадать» местоположение.

На тепловой карте указываются области, которые максимально повлияли на принятие решения.

image

Загрузил свою фотку из исторического района Стамбула — система не смогла определить.
Читать дальше →
Total votes 31: ↑27 and ↓4+30
Comments0

Фрактальное сжатие изображений

Reading time7 min
Views13K
image

Пару лет назад я написал очень простую реализацию фрактального сжатия изображений для студенческой работы и выложил код на github.

К моему удивлению, репозиторий оказался довольно популярным, поэтому я решил обновить код и написать статью, объясняющую его и теорию.
Читать дальше →
Total votes 15: ↑14 and ↓1+18
Comments5

Гидрология и математика редких событий, или Неоспоримый аргумент в пользу выживальщиков

Reading time9 min
Views17K
Привет, Хабр! Представляю вашему вниманию перевод статьи «The Surprisingly Solid Mathematical Case of the Tin Foil Hat Gun Prepper» автора BJ Campbell.

«Всего лишь девять приемов пищи отделяют человечество от анархии», – Альфред Генри Льюис, 1906 год.


Читать дальше →
Total votes 28: ↑26 and ↓2+34
Comments63

Методы наименьших квадратов: текст, написанный программистом для программистов

Reading time19 min
Views37K
Продолжаю публикацию своих лекций, изначально предназначенных для студентов, учащихся по специальности «цифровая геология». На хабре это уже третья публикация из цикла, первая статья была вводной, она необязательна к прочтению. Однако же для понимания этой статьи необходимо прочитать введение в системы линейных уравнений даже в том случае, если вы знаете, что это такое, так как я буду много ссылаться на примеры из этого введения.

Итак, задача на сегодня: научиться простейшей обработке геометрии, чтобы, например, суметь преобразовать мою голову в истукана с острова Пасхи:


Читать дальше →
Total votes 66: ↑62 and ↓4+76
Comments13

Information

Rating
Does not participate
Registered
Activity