Как стать автором
Обновить
84
0
Залина Богазова @Zalina

Базилик

Отправить сообщение

Модель для распознавания степени поражения лёгких на КТ: мы резко увеличили точность сортировки больных

Время на прочтение 5 мин
Количество просмотров 5.8K
image
Срез КТ с зонами «матового стекла»

Пациентам с подтверждённым COVID-19 делают компьютерную томографию лёгких. Если повезёт — один раз, если нет — несколько. В первый раз нужно оценить уровень поражения в процентах. В зависимости от квартиля степени поражения определяется дальнейшая схема лечения, и они разительно отличаются. В апреле 2020 мы узнали, что есть две сложности:

  • КТ — трёхмерное изображение, каждый слой такого изображения называется срезом. При 300–800 срезах лёгких на КТ врачи тратят от 1 до 15 минут на поиск характерных зон, чтобы определить степень поражения. Одна минута — это «на глаз», 30 минут — это среднее при ручном выделении и подсчёте зон повреждённой ткани. В сложных случаях результат может обрабатываться до часа.
  • Точность диагностики уровня поражения коронавирусом экспертами «на глаз» высока на границах 0–30 % и 70–100 %. В диапазоне 30–70 погрешность очень высока, и мы обратили внимание, что кто-то из рентгенологов, как правило, системно завышает процент поражения на глаз, а кто-то занижает.

Задача сводится к определению повреждённой ткани лёгких и подсчёту доли их объёма к общему лёгких.

В конце апреля в кооперации с клиниками мы подготовили датасет обезличенных исследований пациентов с подтверждённым ПЦР-анализом COVID-19, отдали комиссии из десяти отличных экспертов-рентгенологов и разметили выборку для обучения с учителем.
Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Комментарии 19

Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва

Время на прочтение 7 мин
Количество просмотров 19K
Всем привет! Меня зовут Олег Петров, я руковожу группой R&D в Центре речевых технологий. Мы давно работаем не только над распознаванием речи, но и умеем синтезировать голоса. Самый простой пример, для чего это нужно бизнесу: чтобы для каждого нового сценария, которому обучают голосовых роботов, не нужно было организовывать новую запись с человеком, который его когда-то озвучил. Ещё мы развиваем продукты на основе голосовой и лицевой биометрии и аналитики по голосовым данным. В общем, работаем над серьёзными и сложными задачами для разного бизнеса.



Но недавно к нам пришли коллеги из Сбера с предложением поучаствовать в развлекательной истории — «озвучить» героя Леонида Куравлёва в новом ролике. Для него лицо Куравлева было воссоздано по кадрам из фильма «Иван Васильевич меняет профессию» и наложено на лицо другого актера с помощью технологии Deepfake. Чтобы мы смогли не только увидеть, но и услышать в 2020 году Жоржа Милославского, мы решили помочь коллегам. Ведь с годами голос у всех нас меняется и даже если бы Леонид Вячеславович озвучил героя, эффект был бы не тот.

Под катом я расскажу, почему эта, уже во многом привычная задача голосового синтеза, оказалась чуть сложнее, чем мы ожидали, и поясню, почему такие голоса не смогут обмануть качественные системы биометрической авторизации.
Всего голосов 56: ↑48 и ↓8 +40
Комментарии 74

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Время на прочтение 10 мин
Количество просмотров 172K
Последнее десятилетие в области компьютерных технологий ознаменовалось началом новой «весны искусственного интеллекта». Впрочем, ситуацию в индустрии в наши дни можно, наверное, охарактеризовать уже не как весну, а полноценное «лето ИИ». Судите сами, за последние неполные 10 лет только в области обработки естественного языка (Natural language processing, NLP) произошли уже две настоящие технологические революции. Появившаяся в результате второй из них модель GPT-3 произвела настоящий фурор не только в технологических медиа, но стала знаменитой далеко за пределами научного сообщества. Например, GPT-3 написала для издания «The Guardian» эссе о том, почему ИИ не угрожает людям. GPT-3 сочиняет стихи и прозу, выполняет переводы, ведёт диалоги, даёт ответы на вопросы, хотя никогда специально не училась выполнять эти задачи. До недавних пор все возможности GPT-3 могли по достоинству оценить лишь англоязычные пользователи. Мы в Сбере решили исправить эту досадную оплошность. И сейчас расскажем вам, что из этого получилось.


Источник изображения
Читать дальше →
Всего голосов 165: ↑160 и ↓5 +155
Комментарии 241

Как увеличить скорость чтения из HBase до 3 раз и с HDFS до 5 раз

Время на прочтение 19 мин
Количество просмотров 4K
Высокая производительность — одно из ключевых требований при работе с большими данными. Мы в управлении загрузки данных в Сбере занимаемся прокачкой практически всех транзакций в наше Облако Данных на базе Hadoop и поэтому имеем дело с действительно большими потоками информации. Естественно, что мы все время ищем способы повысить производительность, и теперь хотим рассказать, как удалось пропатчить RegionServer HBase и HDFS-клиент, благодаря чему удалось значительно увеличить скорость операции чтения.

Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 9

Когда у вас сберовские масштабы. Использование Ab Initio при работе с Hive и GreenPlum

Время на прочтение 12 мин
Количество просмотров 12K
Некоторое время назад перед нами встал вопрос выбора ETL-средства для работы с BigData. Ранее использовавшееся решение Informatica BDM не устраивало нас из-за ограниченной функциональности. Её использование свелось к фреймворку по запуску команд spark-submit. На рынке имелось не так много аналогов, в принципе способных работать с тем объёмом данных, с которым мы имеем дело каждый день. В итоге мы выбрали Ab Initio. В ходе пилотных демонстраций продукт показал очень высокую скорость обработки данных. Информации об Ab Initio на русском языке почти нет, поэтому мы решили рассказать о своём опыте на Хабре.

Ab Initio обладает множеством классических и необычных трансформаций, код которых может быть расширен с помощью собственного языка PDL. Для мелкого бизнеса такой мощный инструмент, вероятно, будет избыточным, и большинство его возможностей могут оказаться дорогими и невостребованными. Но если ваши масштабы приближаются к сберовским, то вам Ab Initio может быть интересен.

Он помогает бизнесу глобально копить знания и развивать экосистему, а разработчику — прокачивать свои навыки в ETL, подтягивать знания в shell, предоставляет возможность освоения языка PDL, даёт визуальную картину процессов загрузки, упрощает разработку благодаря обилию функциональных компонентов.

В посте я расскажу о возможностях Ab Initio и приведу сравнительные характеристики по его работе с Hive и GreenPlum.

  • Описание фреймворка MDW и работ по его донастройке под GreenPlum
  • Сравнительные характеристики производительности Ab Initio по работе с Hive и GreenPlum
  • Работа Ab Initio с GreenPlum в режиме Near Real Time
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 24

Почему меня разочаровали результаты Kaggle ARC Challenge

Время на прочтение 7 мин
Количество просмотров 7.1K
Три недели назад на каггле прошло первое в истории платформы соревнование по «сильному» ИИ – Abstraction and Reasoning Challenge. Чтобы проверить способность моделей к обобщению и решению абстрактных задач, все участники суммарно решили только чуть менее половины задач. Решение-победитель справляется приблизительно с 20% из них — и то девятичасовым перебором вручную захардкоженных правил (ограничение в девять часов установили организаторы).

В посте я хочу напомнить о сложностях работы с AGI, рассказать о самых интересных идеях участников, топовых решениях и поделиться мнением, что не так с текущими попытками создать AGI.



Кто-то с ужасом, а кто-то с нетерпением ждет ИИ как в произведениях фантастов. С личностью, эмоциями, энциклопедическими знаниями и главное – с интеллектом, то есть способностями к логическим выводам, оперированию абстрактными понятиями, выделению закономерностей в окружающем мире и превращению их в правила. Как мы знаем, именно такой ИИ теоретики называют «сильным» или ещё AGI. Пока это далеко не мейнстримное направление в машинном обучении, но руководители многих больших компаний уже считают, что сложность их бизнеса превысила когнитивные способности менеджеров и без «настоящего ИИ» двигаться вперёд станет невозможно. Идут дискуссии, что же это такое, каким он должен быть, как сделать тест чтобы уж точно понять, что перед нами AGI, а не очередной blackbox, который лучше человека решает локальную задачу – например, распознавание лица на фотографии.
Читать дальше →
Всего голосов 29: ↑29 и ↓0 +29
Комментарии 15

Event2Mind для русского языка. Как мы обучили модель читать между строк и понимать намерения собеседника

Время на прочтение 9 мин
Количество просмотров 6K
Умение модели распознавать намерения собеседника, то есть понимать зачем человек совершил то или иное действие, применимо в большом числе прикладных NLP-задач. К примеру, чат-ботам, голосовым помощникам и другим диалоговые системам это позволит эмоционально реагировать на высказывания собеседника, проявлять понимание, сочувствие и другие эмоции. Кроме того, задача распознавания намерения – это еще один шаг на пути к пониманию человеческой речи (human understanding).



Уже было предпринято несколько попыток решить данную задачу в той или иной форме. Например, на NLP-progress публикуются последние достижения в области commonsense reasoning. Слабость большинства существующих моделей заключается в том, что в их основе лежит supervised подход, то есть им требуются большие размеченные датасеты для обучения. А в силу специфичности задачи разметка часто бывает весьма нестандартной и достаточно сложной.

Для английского существует ряд корпусов и benchmark’ов, а вот для русского языка ситуация с данными намного печальнее. Отсутствие размеченных данных для русского часто является одним из основных препятствий, которое мешает русифицировать работающие английские модели.

В этом посте мы расскажем, как мы создали датасет для задачи Common Sense Reasoning в одной из ее возможных формулировок, предложенной в статье event2mind, а также адаптировали английскую модель event2mind от AllenNLP для русского языка.
Читать дальше →
Всего голосов 18: ↑16 и ↓2 +14
Комментарии 7

Что такое «Школа 21», и почему она устроена именно так

Время на прочтение 8 мин
Количество просмотров 99K
Привет, Хабр! Меня зовут Светлана Инфимовская, я директор «Школы 21». Знаю, что многие из вас слышали о ней, а кто-то даже участвовал в наших отборочных бассейнах. При этом сама идея проекта, его методология не всегда правильно понята. Кому-то кажется, что в «Школе 21» одна тусовка, кто-то, наоборот, считает её слишком жёсткой, третьи со скепсисом относятся к идее обучать разработке людей без фундаментальной базы.

Я постараюсь рассказать о том, что такое «Школа 21», в чём специфика подхода и методологии так, чтобы ожидания от школы и реальность обучения подошли друг у другу максимально близко. Можно уйти в детали педагогического дизайна, но суть Школы именно в её участниках и атмосфере.



По своему опыту я знаю, что методология может вызывать скепсис, так как сама сначала так относилась к Ecole 42 — французскому проекту, франшизой которой является наша школа. В России об Ecole 42 заговорили в 2017 году, когда о ней восхищённо написал Павел Дуров. Мне же повезло познакомиться со школой на четыре года раньше, в первый год её существования. Под катом я расскажу, как от мнения, что подход Ecole 42 — полный абсурд, я пришла к тому, что стала искать возможность открыть такую школу в России.
Читать дальше →
Всего голосов 27: ↑21 и ↓6 +15
Комментарии 54

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей

Время на прочтение 9 мин
Количество просмотров 9.4K
Чтобы машины могли обрабатывать текст на русском и «понимать» его, в NLP используются универсальные языковые модели и трансформеры — BERT, RoBERTa, XLNet и другие — архитектуры от 100 миллионов параметров, обученные на миллиардах слов. Все оригинальные модели появляются обычно для английского, показывают state-of-the-art в какой-нибудь прикладной задаче и только спустя полгода-год появляются и для русского языка, без тюнинга архитектуры.



Чтобы корректнее обучать свою модель для русского или другого языка и адаптировать её, хорошо бы иметь какие-то объективные метрики. Их существует не так много, а для нашей локали и вовсе не было. Но мы их сделали, чтобы продолжить развитие русских моделей для общей задачи General Language Understanding.

Мы — это команда AGI NLP Сбербанка, лаборатория Noah’s Ark Huawei и факультет компьютерных наук ВШЭ. Проект Russian SuperGLUE — это набор тестов на «понимание» текста и постоянный лидерборд трансформеров для русского языка.
Читать дальше →
Всего голосов 41: ↑39 и ↓2 +37
Комментарии 13

Как заставить соседей работать над своим проектом, или InnerSource для банка

Время на прочтение 7 мин
Количество просмотров 6.1K
Что такое разработка в Сбере? В глазах обычного айтишника: «Вот где код написали, туда и идите!». Но это давно уже стереотип, а они хорошими не бывают. Стремительное развитие open source доказывает, что такая культура давно себя изжила, и энтерпрайз (если он умный) давно пересмотрел silo-based подход к разработке.



Публикация всего банковского ПО в open source — эффектный способ самоубийства довольно спорное решение, и нужен какой-то промежуточный этап. C масштабами банка мы можем запустить свой внутренний open source, а не пытаться проверить, что можно показать всем и трястись от страха за наши маленькие большие секреты.
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 3

Сжатие данных в Apache Ignite. Опыт Сбера

Время на прочтение 10 мин
Количество просмотров 3.6K
При работе с большими объемами данных иногда может остро встать проблема нехватки места на дисках. Одним из способов решения данной проблемы является сжатие, благодаря которому, на том же оборудовании, можно себе позволить увеличить объемы хранения. В данной статье мы рассмотрим, как работает сжатие данных в Apache Ignite. В статье будут описаны только реализованные внутри продукта способы сжатия на диске. Другие способы сжатия данных (по сети, в памяти) как реализованные, так и нет останутся за рамками.

Итак, при включенном persistence режиме, в результате изменения данных в кэшах, Ignite начинает записывать на диск:

  1. Содержимое кэшей
  2. Журнал упреждающей записи (Write Ahead Log, далее просто WAL)

Для сжатия WAL уже довольно давно существует механизм, который называется WAL compaction. В недавно вышедшем Apache Ignite 2.8 появилось еще два механизма позволяющих сжимать данные на диске, это disk page compression для сжатия содержимого кэшей и WAL page snapshot compression для сжатия некоторых записей WAL. Подробнее о всех этих трех механизмах ниже.
Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Комментарии 3

Удалёнка — это наша родная среда, и теперь не надо быть таким социальным

Время на прочтение 6 мин
Количество просмотров 9.5K


Привет! Я из Сбербанка и хочу рассказать про наши особенности удалённой работы. Не спешите в ужасе убегать от этого адского сочетания слов. Я не собираюсь повторять пресс-релизы и говорить про список софта для организации всего этого дела. Я хочу поговорить про то, что настал новый дивный мир. И, похоже, надолго. Сразу оговорюсь — я могу говорить только за несколько команд подразделения, занимающегося автоматизацией всего в кадрах. Не за весь Сбербанк, потому что у всех разные подходы и процессы, а некоторых так вообще нельзя забрать на удалёнку, например, тех же операторов в отделениях. Общий тренд в разработке похож на наш, но детали могут отличаться.

Обычно с удалёнкой проблемы у тех, кто привык жить в офисе. Я до Сбербанка управлял проектами с распределённой командой и не вижу в этом никаких проблем. Есть особенности. Первая — ну, банальная самосознательность и самоорганизация. Типа правил «тебе написали — ответь», «звонят — возьми трубку». У нас есть наша внутренняя договорённость в командах — отвечать на сообщения на удалёнке за десять минут в рабочее время, но она, на мой взгляд, на практике оказалась избыточной. Касается она в первую очередь тех, кто работает в обнимку с диваном.

Гораздо хуже ситуация обстоит с депрессией. Сначала вы не можете пойти в кино, потом надо сидеть целый день дома и работать, а потом работа и личная жизнь окончательно смешиваются. Разработчики могут загнать себя и впасть в депрессию. Раньше у меня была важная метрика того, что человек готов уйти в незапланированный запой — увеличение числа одновременно разрабатываемых фич, больше рабочего времени в день и всё более мелкие придирки вплоть до синтаксиса. Сейчас слежу примерно так же, чтобы, если что, разгружать.
Читать дальше →
Всего голосов 30: ↑23 и ↓7 +16
Комментарии 19

Custom instruments: When signpost is not enough

Время на прочтение 7 мин
Количество просмотров 2.4K
In our previous article, we discussed the reasons of unit-tests’ instability and how to make them stable. Now let’s look through a new tools for debugging and profiling which were introduced by Apple in iOS 12 — the framework os_log and instrument for performance analysis os_signpost.

image

In one of the sprints, we were tasked with implementing the generation of a pdf-document on the client-side. We completed the task. But we wanted to make sure the effectiveness of the technical nuances of the decision. Signpost helped us with this. Using it we increased he document’s displaying speed several times.

To learn more about os_signpost application technology, see where it can help you and how it has already helped us, go further forward.
Read more →
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Sber.DS — платформа, которая позволяет создавать и внедрять модели даже без кода

Время на прочтение 5 мин
Количество просмотров 16K

Идеи и встречи о том, какие ещё процессы можно автоматизировать, возникают в бизнесе разного масштаба ежедневно. Но помимо того, что много времени может уходить на создание модели, нужно потратить его на её оценку и проверку того, что получаемый результат не является случайным. После внедрения любую модель необходимо поставить на мониторинг и периодически проверять.


И это всё этапы, которые нужно пройти в любой компании, не зависимо от её размера. Если мы говорим о масштабе и legacy Сбербанка, количество тонких настроек возрастает в разы. К концу 2019 года в Сбере использовалось уже более 2000 моделей. Недостаточно просто разработать модель, необходимо интегрироваться с промышленными системами, разработать витрины данных для построения моделей, обеспечить контроль её работы на кластере.





Наша команда разрабатывает платформу Sber.DS. Она позволяет решать задачи машинного обучения, ускоряет процесс проверки гипотез, в принципе упрощает процесс разработки и валидации моделей, а также контролирует результат работы модели в ПРОМ.


Чтобы не обмануть ваших ожиданий, хочу заранее сказать, что этот пост — вводный, и под катом для начала рассказано о том, что в принципе под капотом платформы Sber.DS. Историю о жизненном цикле модели от создания до внедрения мы расскажем отдельно.


Читать дальше →
Всего голосов 13: ↑10 и ↓3 +7
Комментарии 10

Как на архаичном рынке факторинга перевести все сделки в онлайн? Опыт «Сбербанк Факторинга»

Время на прочтение 6 мин
Количество просмотров 4.9K

Для большинства людей факторинг – услуга непонятная. По факту — это финансирование поставок компаний, работающих с отсрочкой платежа.


Предположим, вы небольшой производитель круп. Вы отгрузили товар в торговую сеть, но деньги получите в среднем через 60 дней после отгрузки. Многим компаниям ждать столько не под силу: ту же зарплату сотрудникам нужно платить уже сейчас. Одно из решений — факторинг. После заключения договора факторинга вы можете получить финансирование любой поставки. Достаточно после отгрузки товара отправить фактору подтверждающие документы (счета-фактуры, накладные, акты). Фактор верифицирует поставку у вашего покупателя и перечисляет вам деньги за товар, за вычетом собственной комиссии.


В сделке участвуют покупатель, поставщик и фактор, которые подписывают множество бумаг, уведомлений. Раньше взаимодействие с клиентом собиралось как паззл из разных кусочков: например, подписание договоров происходило при помощи сторонних операторов электронного документооборота, верификация поставок — пересылкой по e-mail excel-файлов, а в личном кабинете на сайте фактора поставщик мог посмотреть лишь статистику по сделкам. Было неудобно, трудоемко – и нам, и клиенту. Надо было собрать всё это в одну систему.

Как старая система убивала удобство
Всего голосов 11: ↑9 и ↓2 +7
Комментарии 20

NeurIPS 2019: тренды ML, которые будут с нами следующее десятилетие

Время на прочтение 11 мин
Количество просмотров 7.1K
NeurIPS (Neural Information Processing Systems) – самая большая конференция в мире по машинному обучению и искусственному интеллекту и главное событие в мире deep learning.

Будем ли мы, DS-инженеры, в новом десятилетии осваивать еще и биологию, лингвистику, психологию? Расскажем в нашем обзоре.


Всего голосов 14: ↑14 и ↓0 +14
Комментарии 0

AI Journey: доклады и результаты соревнования

Время на прочтение 6 мин
Количество просмотров 3.8K

Всем привет! С октября по декабрь проходила серия конференций по искусственному интеллекту – AI Journey. Чуть раньше в ноябре мы подвели итоги международного соревнования по созданию общего или сильного ИИ – artificial general intelligence (AGI). Хотим сразу вас успокоить, что мы не создали сильный ИИ, но приблизились к этому с помощью robot college student test. Участники должны были натренировать свои алгоритмы так, чтобы те смогли сдать выпускной экзамен по русскому языку. В итоге решения победителей получили "четвёрки".



Под катом среди прочих вы найдёте записи выступлений Юргена Шмидхубера — автора работы о LSTM; Анны Вероники Дорогуш — руководителя разработки библиотеки машинного обучения CatBoost; Бена Герцеля, который и ввёл термин robot college student test.

Всего голосов 7: ↑5 и ↓2 +3
Комментарии 5

Революция или эволюция Page Object Model?

Время на прочтение 12 мин
Количество просмотров 23K
Всем привет! Меня зовут Артём Соковец. Хочу поделиться переводом своей статьи об Atlas: реинкарнации фреймворка HTML Elements, где представлен совершенно иной подход работы с Page Object.

Перед тем, как перейти к деталям, хочу спросить: сколько обёрток для Page Object вы знаете? Page Element, ScreenPlay, Loadable Component, Chain of invocations…

А что будет, если взять Page Object с реализацией на интерфейсе, прикрутить Proxy Pattern и добавить немного функциональности Java 8?

Если интересно, предлагаю перейти под кат.


Читать дальше →
Всего голосов 21: ↑21 и ↓0 +21
Комментарии 14

Sberbank AI Journey. Как мы учили нейросеть сдавать экзамен

Время на прочтение 8 мин
Количество просмотров 7.4K

Если вы закончили школу уже во времена ЕГЭ, то вам известно, что все задания в нём имеют набор стандартных формулировок и упорядочены по типам. С одной стороны, это облегчает подготовку к экзамену: школьник уже знает, что нужно делать в задании, даже не читая его условия. С другой, любое изменение порядка вопросов может вызвать у него проблемы. Грубо говоря, на результат начинает больше влиять то, насколько человек довёл решения до автоматизма, а не то, как он рассуждает. Экзамен становится похож на работу скрипта.



image

В рамках конференции AI Journey мы решили провести конкурс на разработку алгоритма, который сможет сдать экзамен не хуже человека. Участникам предоставляются тестовые варианты заданий, которые можно использовать для валидации решений и для обучения. Мы как сотрудники Сбера не можем претендовать на призовой фонд, но тем не менее попробовали решить эту задачу и хотим рассказать о том, как мы это сделали. Спойлер — аттестат мы получили.


Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Комментарии 6

Как Сбербанк собирает согласие на обработку биометрии

Время на прочтение 2 мин
Количество просмотров 101K
TL;DR: Сбербанк собирает согласие на сбор и обработку биометрических данных без нормального информирования своих клиентов об этом.

Вступление


Если говорить о биометрических данных, то пока самым интересным сектором для их применения в частном бизнесе является банкинг. Суть простая — биометрия может добавить дополнительный слой безопасности в отношения между банком и клиентом, тем самым отрезав ряд совсем глупых мошенников.

Однако, законодательное регулирование отрасли пока слегка пробуксовывает — из-за величины Сбербанка, складывается ситуация, похожая на рынок переводов между картами: то есть, есть Сбербанк, который держит 80% рынка, и есть система от ЦБ РФ, присоединяться к которой Сбербанк не торопится без должной мотивации.
Читать дальше →
Всего голосов 156: ↑153 и ↓3 +150
Комментарии 216

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирована
Активность