Обновить
40.06
Сначала показывать

Индийский стек — чудо цифровой трансформации

Время на прочтение14 мин
Охват и читатели6.1K

В первой статье этого сериала мы собрали известные нам примеры платформ и проектов, которые можно прямо или условно назвать «биржами данных» (data exchange). После этого мы попытались разложить эти данные по кучкам, громко назвав этот процесс построением типологии. До типологии тут еще далеко, но какая-то ясность наступила. Более того, один из комментаторов не поленился скормить эту недо-типологию своему ИИ-ассистенту и тот выдал визуализацию этой мультифасеточной конструкции. Там есть на что посмотреть и о чем подумать, рекомендую.

Мы же, как и обещали, приступаем к анализу отдельных кейсов в попытке извлечь из них больше деталей и полезных идей для построения биржи данных на заказ.

Многие из наших собеседников предлагали немедленно изучить опыт «китайских товарищей» и взять его за образец при построении бирж данных в РФ. Их аргументация вполне понятна — тенденция к возвращению роли и участия государства в инфраструктурных проектах, которую можно наблюдать в РФ за последние 20 лет, похоже стремится к тому образцу, который сложился в Китае за последние три тысячи лет после реформ Дэн Сяопина. Достаточно сильный мотив, чтобы исследовать систему региональных бирж, созданную в КНР, однако из всего увиденного меня больше всего поразила история цифровой трансформации в Индии, которая привела к появлению нового Тадж-Махала, который называют «индийским стеком».

Читать про новый индийский Тадж-Махал...

Биржи данных как движок экономики данных

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.2K

Взгляд с высоты птичьего полета

Дисклеймер: несмотря на облегченный стиль, это не научпоп, это описание реальной исследовательской работы, ее мотивировок и подходов, которые часто остаются за кадром.

Этой публикацией мы начинаем серию статей, в которой хотим изложить наше видение пути, по которому сейчас идет развитие экономики данных, и возможных подходов к его рационализации. В первой статье рассматривается понятие биржи данных, которое мы считаем важным механизмом и двигателем развития экономики данных. Анализируется опыт текущих проектов по созданию платформ для обмена данными. Намечаются направления дальнейшего обсуждения.

Рискуя прослыть занудой, хочу напомнить, что выражение «экономика данных», относительно недавно введенное в оборот скорее как мем, чем как строгое научное понятие, обозначает новый этап развития мировой экономики, следующий после аграрной экономики, промышленной экономики, постиндустриальной (сервисной) экономики, информационной экономики. И вот, настала очередь экономики данных. Также полезно будет держать в уме описание смены технологических переделов, которые характеризуются как революции. Все они называются промышленными революциями, только после каждой из них само понятие промышленности (индустрии) кардинально меняется. По этой шкале мы переживаем четвертую промышленную революцию, если все еще верить Клаусу Швабу, председателю Всемирного экономического форума в Давосе, который, после того, как прослыл изрядным женолюбом, покинул пост после полувека правления.

Читать далее довольно нудную аналитику...

Революция доверия: как Self-Sovereign Identity меняет правила игры. Разбираемся. Часть 2

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5.5K

В первой части публикации рассказывается о том, как Кристофер Аллен задумал создать новый децентраизованный безопасный интернет, придумал название Self-Sovereign Identity (SSI) и в 2016 году начертал на скрижалях десять заповедей SSI. Что же было дальше…

Дальше Аллен организовал упомянутые в первой части проектные мастерские RWOT (Rebooting the Web of Trust), которые стремительно росли и размножались. Мастерские RWOT просуществовали до прошлого года, когда их встреча в Калифорнии, назначенная на август, была отменена по неизвестной мне причине (мой друг Клод тоже не знает). 

На опыте этой подвижной и эффективной организации для производства спецификаций в 2019 году Кристофер Аллен создает некоммерческую организацию Blockchain Commons (BC) для создания открытой цифровой инфраструктуры, поддерживающей сформулированные Алленом принципы. Он назвал эти принципы «гордиевыми», подчеркивая, что не намерен заниматься распутыванием понятийных узлов, навязанных до него. В основе всех решений BC лежит «Гордиева архитектура», основанная на этих принципах — независимости, приватности, выживаемости (resilence) и открытости.

Уже само название этой организации очень выразительно. Напомню, что commons в Англии 13 века — это общинные пастбища, вообще угодья, включая реки, леса и даже торфяники. Несмотря на то, что в Англии эта прекрасная идея закончилась «трагедией общинных ресурсов» (огораживания и все такое), плохо то есть закончилась, Кристофер Аллен продолжает верить в потенциал общего дела, использующего общие ресурсы.

Читать далее

Революция доверия: как Self-Sovereign Identity меняет правила игры. Разбираемся. Часть 1

Время на прочтение10 мин
Охват и читатели4.1K

Предуведомление

Эта публикация разбита на две части для удобства чтения. Если это оказалось неудобно именно вам, приношу свои извинения за доставленные неудобства.

Волны модернизации

Горек хлеб того исследователя, который берется исследовать, и того писателя, который ради пропитания берется писать о бесконечных технологических трендах, которые уже с самого зарождения оказываются далеко не только, и даже вовсе не технологическими. Будущее наступило и оно во многом похоже на информационное общество, которое мы даже не закончили предсказывать. 

Много лет назад, мы были свидетелями сложного технологического перехода от технологии коммутации ячеек (ATM еще кто-нибудь помнит?) к технологии коммутации пакетов (IP, по простому говоря). На моих глазах, на Форуме ATM в Голландии в 1998 году на трибуну взошел один из авторов формата ячеек АТМ Юха Хейненен, работавший в то время в Telia Finland, и, буквально как Карл Маркс в анекдоте, сказал: «Извините, 53 байта — это была ошибка». Услышанное тогда повлекло важные изменения в проектных спецификациях первой в России сети передачи данных общего пользования с широкополосным доступом в Интернет. Именно тогда мы сформулировали принцип накрывающих волн модернизации.

 Картинка очень простая, это циклоида, разрезанная на сегменты, которые сдвигаются друг относительно друга. Мой друг Клод со второй попытки сгенерировал картинку по словесному описанию и даже сделал ее интерактивной, но сейчас это не нужно. 

Каждый сегмент циклоиды изображает «волну модернизации». Эти волны поднимаются и спадают. В идеальном мире следующая волна модернизации начиналась бы после того, как завершилась предыдущая, а может даже с разрывом между циклами, чтобы мы успели насладиться результатами предыдущей волны. Но нет же, в реальном мире следующая волна модернизации начинается до того, как заканчивается предыдущая. Если вы занимаетесь любыми естественно-искусственными процессами трансформации любых систем деятельности, эта простая картинка оказывается полезной для того, чтобы скорректировать текущий процесс модернизации и подготовиться к точке пересечения со следующим, в которой два цикла становятся равно заметными по любому параметру, который вы захотите отмечать на оси «игрек». Ну, и уроки психоистории Хари Селдона тоже никто не отменял, на более длинных циклах.

Читать далее

Лицо, голос и тело по-датски

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели4K

Нельзя сказать, что неожиданный, но, в какой-то степени, новый разворот приняла тема чувствительных данных. В конце июня появилось сразу несколько публикаций, здесь, здесь и тут, о том, что в Дании планируют принять закон об авторском праве граждан на свои лицо, голос и тело. Все три публикации ссылаются на одну и ту же статью в английской газете Guardian, где цитируется министр культуры Дании Якоб Энгель-Шмит, который строго заявил, что представление этого законопроекта в парламент подаст ясный сигнал, что каждый имеет право на то, как выглядит и как звучит. Это поможет защитить права граждан от генеративного ИИ (GenAI), способного синтезировать фото/аудио/видео, известные как deepfake, с использованием изображений, аудио- и видеозаписей реально существующих людей. Ныне действующие законы такой защиты не дают. Понятно, что защита нужна не от самого GenAI, а от злых шутников-пранкстеров и явных злоумышленников, которые могут изготовить такой deepfake с помощью AI и использовать его в неблагих целях — обман, шантаж, кража личности, с последующим «отъемом или уводом» имущества и денег. В отличие от способов, известных Остапу Бендеру, эти уже не назовешь «сравнительно честными».

По состоянию на конец июня законопроект находился еще в департаменте культуры, ожидают рассмотрение и принятие его в начале осени. Некоторые републикаторы поторопились объявить, что закон уже принят. Что ж, это пример того, как новость про «дипфейки» сама оказывается того-с, с душком.

В статье «Гардиан» также сообщается, что принятие этого закона «теоретически (выделение мое) даст людям в Дании право потребовать, чтобы онлайн-платформы удалили бы такой контент, если он был распространен без согласия заявителя». Вот именно, теоретически. В правовом государстве такое требование приведет, пожалуй, к привлечению еще большего внимания к «дипфейку».

Читать далее

Zero Trust Architecture и персональные данные

Время на прочтение11 мин
Охват и читатели5.4K

Эта статья — продолжение серии статей, опубликованных в этом блоге, в которых мы пытаемся отслеживать влияние новых технологических трендов на пересечении кибербезопасности и искусственного интеллекта на основной бизнес нашей компании — удостоверение персональных данных (ПД). Продумывая перспективы использования ИИ-агентов для наших задач, включая борьбу с фродом и ИИ-фродом, мы пришли к выводу, что перестройка нашей собственной системы невозможна без учета архитектурных изменений, происходящих в ИТ системах наших клиентов.

Самые радикальные изменения в архитектуре корпоративных систем компаний, предоставляющих массовые услуги, которые требуют удостоверения ПД, связаны с чуть менее, чем полной переменой взглядов на кибербезопасность корпоративных систем. 

В «клиент-серверной» архитектуре предыдущего поколения наши услуги по удостоверению персональных данных помогали выявлять фрод, связанный с использованием чужих ПД из похищенных баз данных, которые стыдливо называют утечками, а также ПД, добытых обманом по так называемой «технологии социального инжиниринга». При этом предполагалось, что охрана своих собственных систем остается в руках наших клиентов. Если злоумышленникам удалось собрать набор ПД, который достаточен для получения товаров или услуг от чужого имени, наши проверки уже не помогают. ПД — правильные, просто они уже находятся в чужих руках. С этого момента сервис-провайдер доверяет предъявителю ПД и предоставляет ему доступ с привилегиями и полномочиями, статически приписанными этим ПД.

Читать далее

ИИ-агенты и удостоверение персональных данных

Время на прочтение10 мин
Охват и читатели686

Разбираемся с тем, как накрывающие друг друга волны хайпа в безбрежном океане ИИ влияют на наши профессиональные схемы работы по удостоверению персональных данных (ПД). Последняя волна так или иначе связана с ИИ агентами, но как выяснилось, не только.

Представьте себе такую картинку. В эту минуту миллионы пользователей в онлайне совершают покупки в интернет магазинах или получают в том же онлайне услуги самых разнообразных сервис‑провайдеров. При этом они постоянно передают свои персональные данные поставщикам услуг и товаров, которым необходимо верифицировать полученные ПД, чтобы отфильтровать попытки фрода и убедиться в благонадежности и платежеспособности клиента. Очень часто они для этого обращаются к нам, в компанию IDX, для удостоверения полученных данных. Покупателям товаров и потребителям услуг тоже желательно бы убедиться в надежности поставщика, особенно когда речь идет об операции «из рук в руки» (вторичный рынок товаров и услуги самозанятых и индивидуалов). До недавнего времени для этого можно было воспользоваться услугой многочисленных сервисов типа «Глаз бога», но недавно, после очередного усиления ответственности за обработку ПД вплоть до уголовной, все эти сервисы прикрылись в одночасье.

Конечно, прежде, чем купить что‑то у поставщика, которым раньше не пользовался, люди обычно читают рекомендации, сравнивают предложение с другими похожими, проводят некоторые изыскания в сети. Самые продвинутые могут даже спросить совета у ИИ‑ассистента, но безоглядно доверять этому совету не будут, потому что знают, что лучшие друзья писателя, переводчика и кодировщика в житейских бытовых вопросах часто подвирают и галлюцинируют. Поэтому помощь ИИ пока не выделяется на общем фоне проверок надежности поставщика.

Читать далее

ИИ агенты и хлопобуды

Время на прочтение6 мин
Охват и читатели870

2025 год объявлен годом расцвета ИИ агентов — самостоятельных (автономных) помощников в выполнении полезной работы. Как обычно, хайпу в этих публикациях хоть отбавляй, поэтому вдумчивые читатели пытаются пробраться через этот хайп к истине. Нам в компании IDX это тоже важно, потому что по нашим представлениям появление работающих ИИ агентов существенно поменяет ландшафт обработки персональных данных (ПД). Мы приступили к работе над серьезным аналитическим отчетом о прогрессе ИИ агентов и его влиянии на ПД, что потребует некоторого времени.В этой же и последующих заметках мы будем отмечать наиболее интересные или хотя бы курьезные сведения, которые будут попадаться по пути.

4 апреля этого года появилась очередная публикация с прогнозом и сценариями развития ИИ до конца 2027 года (AI2027), подготовленная группой известных авторов, включая Даниэля Кокотайло, Скотта Александра и других. Здесь на Хабре уже опубликован перевод этой публикации, оригинал выложен на отдельном сайте ai-2027.com.

Читать далее

ПОСТРОЕНИЕ ДОВЕРИЯ К ИИ: как блокчейн повышает целостность, безопасность и конфиденциальность данных

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели2.2K

В этой статье рассматривается синергия между блокчейном и искусственным интеллектом (ИИ). Исследуются ключевые преимущества блокчейна, включая повышение безопасности и конфиденциальности данных, возможность децентрализованной разработки ИИ, укрепление этического и нормативного соответствия (комплайанса) в политике управления ИИ, а также защиту интеллектуальной собственности.

Читать далее

Глобальный ущерб от ковида равен десяти триллионам долларов. Можете представить ущерб от кибер-пандемии?

Уровень сложностиСредний
Время на прочтение46 мин
Охват и читатели470

Глобальный экономический ущерб от COVID-19 оценивается в 10-12 триллионово долларов. Представьте себе, что может случится в результате киберпандемии.

В сентябре 2024 года в Бедфорде, штат Песильвания, США состоялся семинар “Новые парадигмы безопасности”, материалы которого были опубликованы в январе нынешнего года. В числе прочих на семинаре была представлена работа уже знакомого нам специалиста по кибербезопасности Адама Шостака (я писал о его последней книге в этом блоге) и его соавтора Джосайи Дийкстра, который двадцать лет проработал в АНБ.


Поскольку опубликованный материал назывался “Борьба с киберугрозами пандемического масштаба: Уроки COVID-19”, я воспринял это как продолжение направления размышлений Адама Шостака, с которым познакомился в его книжке. Поэтому я решил не просто пересказать, а перевести эту статью на русский язык и предложить ее вашему вниманию, благо объем сравнительно небольшой.

Понятие "киберинцидент пандемического масштаба" вводится в этой статье гипотетически, но на примерах киберинцидентов последних 40 лет показывается, как близки мы были к этому. И хотя киберпандемия пока не случилась, готовиться к ней надо. Еще одна причина, по которой я заинтересовался этим материалом заключается в том, что много лет назад, во второй половине нулевых годов этого века, мне довелось принять участи в работе АДЭ — Ассоциации документальной электросвязи. Эта уникальная профессиональная организация в форме общественно-государственного объединения ежегодно проводит конференцию под названием “Обеспечение доверия и безопасности при использовании ИКТ”. Работа, в которой я принимал участие двадцать лет назад относилась к разработке отраслевых рекомендация по взаимодействию операторов связи и сервис провайдеров в условиях чрезвычайных ситуаций и чрезвычайных происшествий (ЧС и ЧП). В терминах приведенной ниже статье Шостака и Дейкстры этот документ являлся плейбуком для угроз любого характера (all-hazards). Все примеры в статье приводятся на примере США, то ли глобального партнера России, то ли вероятного противника, если вы не уверены — дождитесь очередного интервью Трампа. Ведется ли работа по разработке плейбуков для киберсобытий пандемического масштаба в России, я пока не знаю, но собираюсь узнать и отчитаться в одной из следующих публикаций.

Читать перевод статьи

Место и роль ID-сервисов в борьбе с киберпреступлениями

Время на прочтение11 мин
Охват и читатели304

Введение


В последние две недели февраля появилось множество обзоров нового законопроекта Федерального Закона (пока без номера), внесенного правительством в Госдуму 15 февраля. Рабочее название закона “О создании государственных информационных систем по противодействию правонарушениям (преступлениям), совершаемым с использованием информационно- телекоммуникационных технологий, и о внесении изменений в отдельные законодательные акты Российской Федерации.”

Часто бывает, что появление каких-то законодательных инициатив приводит к необходимости реконструировать логику законодателя, не всегда достаточно полно отраженную в пояснительных записках к проектам законов,  а для этого, возможно, надо заново осмыслить всю экосистему персональных данных, в которую входит и наша компания IDX, предоставляющая услуги удаленного удостоверения личности и верификации персональных данных.


Существенные положения законопроекта

Переводя на бытовой язык название законопроекта, речь в нем идет в первую очередь о создании платформ по борьбе с кибермошенничеством со статусом ГИС, со всеми вытекающими отсюда последствиями. Чем же будут заниматься эти платформы? Вот сокращенный вариант текста законопроекта: одна из двух ГИС (статья 1 законопроекта) будет заниматься “выявлением (жирный шрифт мой —ВБ) информации, распространяемой в целях злоупотребления доверием путем введения в заблуждение …относительно достоверности информации и (или) принадлежности сайта и (или) страницы сайта …, в том числе в связи с использованием доменного имени, сходного до степени смешения с доменным именем, принадлежащим органам государственной власти либо с товарным знаком, фирменным наименованием, … права на которые принадлежат организации, индивидуальному предпринимателю или физическому лицу, и (или) сетевого адреса, и (или) информационной системы, и используемой в том числе для получения неправомерного доступа к принадлежащей таким пользователям информации”. Уф, обожаю юридический гоблдигук.

Читать далее

Так ли страшен DeepSeek, как его малюет Cerebras?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели1.8K

В последнее время две темы в новостях о новейших достижениях в области ИИ привлекали наибольшее внимание специалистов и досужей публики, которая желает все знать — китайский проект DeepSeek и производитель оборудования для ИИ американская компания Cerebras. Здесь, на Хабре своевременно появлялись публикации по обеим темам. Я сходил по некоторым ссылкам к первоисточникам, приведенным в этих публикациях для проверки фактов. Вы тоже можете это сделать, если захотите.

Для тех, кто не следил, напоминаю, что с успехами DeepSeek связывают недавнее обрушение фондового рынка Америки на триллион долларов, из которых шестьсот миллиардов пришлось на флагман в производстве оборудования для ИИ — компанию NVIDIA, поскольку сервис DeepSeek китайского базирования работает на платформе, не использующей NVIDIA. Мы еще не успели пережить крах Intel, а тут такое. Cerebras Systems тоже приходит к владельцам и управляющим NVIDIA в страшных снах, поскольку предлагают альтернативное GPU архитектурам решение для ИИ платформ, особенно облачных — компьютеры на кристалле по технологии wafer scale integration. Некоторые горячие головы называют Cerebras убийцей NVIDIA. Убийца или нет, но черный лебедь точно. А два черных лебедя — это тяжело даже для компании с капитализацией 2.89 триллиона долларов даже после последнего падения на 17.8% (с тех пор отпрыгнули опять за три триллиона).

И вот, последняя новость, два черных лебедя слились в объятьях — 30 января компания Cerebras объявила о том, что разместит на серверах, расположенных в США, китайскую модель ИИ DeepSeek R1 (оригинал публикации на сайте технологических новостей Venture Beat здесь, ее пересказ в блоге компании BotHub на Хабре — здесь). Я выделил жирным шрифтом те слова, которые, как мне кажется, отражают главный смысл этой новости. Чуть позже в той же публикации цитируются слова директора по маркетингу продуктов Cerebras Джеймса Ванга (James Wang), который в пересказе BotHub ошибочно называется старшим исполнительным директором. Так вот, этот Джеймс Ванг сказал в эксклюзивном интервью сайту Venture Beat буквально следующее: “Если вы используете API DeepSeek, который сейчас очень популярен, эти данные отправляются прямо в Китай” и это заявление меня слегка удивило своей неполиткорректностью и отсутствием доказательств. Впрочем, на мой взгляд, оно вполне в стиле внешней политики новой администрации США, которая того и гляди начнет торговую войну с Китаем.

Читать далее

Ещё раз о великой границе между материей и сознанием

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели1.8K

По древней традиции, корни которой уже и старожилы с запущенной амнезией не упомнят, перед Новым Годом хочется сказать что-нибудь значительное и ободряющее, тем более, что в этом году ханука совпала с католическим рождеством и кроет Новый Год как бык овцу. Это символичное совпадение разных календарей в очередной раз дает слабую надежду на то, что разодранный в лоскуты мир одумается и начнет отползать от пропасти. Товарищи, мы станем братья и все такое.

Буквально на днях я закончил читать тетралогию ПВО по вселенной Transhumanism Inc. Оказалось, что я запустил это дело и не читал не только последний роман “Круть”, но и предыдущие два — “KGBT”+ и “Путешествие в Элевсин”. Этот пост я помещу в хаб “Информационная безопасность” с тэгом “кибербез” хотя бы на том основании, что в последних двух романах главный герой — это заместитель начальника службы безопасности корпорации Transhumanism Inc. Маркус Зоргенфрей (нет, не еврей, но с российскими корнями, то есть предки жили в Добром государстве в эпоху позднего карбона). Поскольку вся корпорация Transhumanism Inc. предоставляет услуги цифровой жизни за пределами физических тел (в банке), такая классификация поста будет оправдана.

Несмотря на то, что при чтении всей тетралогии я нередко ржал как помешанный, но прорыдавшись, поневоле задумывался о вопросах вполне профессиональных. Например, начальник СБ адмирал-епископ Ломас рассказывает своему заместителю, что удалось запереть в банке демона зла Ахилла и отключить от нее все информационные потоки, то есть заточить демона в темницу. Обеспокоенный Маркус Зоргенфрей спрашивает, но позвольте, ведь банка с демоном находится в банкохранилище, где обеспечивается электропитание и климатика, а демон хитер и опасен, не может ли он выбраться из банки по электрическим проводам или по слаботочке? Нет, успокаивает его адмирал Ломас, не сможет, потому что именно здесь проходит великая граница между материей и сознанием. Похихикав, я задумался, что же это мне напоминает из недавнего опыта. И тут меня как молнией ударило и я опять начал бешено хохотать как Паниковский перед гирями, когда тот сообразил, что они золотые.

Читать далее

OSINT. Теперь о чем шум?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4K

Нас в компании IDX, которая занимается легальным удостоверением персональных данных, естественным образом интересует все, что связано с ПД, даже если оно выходит за рамки нашей операционной деятельности. При этом, мы естественно держим в голове одну мысль — не пора ли нам тоже этим заняться, чтобы дополнить и обогатить наши сервисы.

В последнее время популярная аббревиатура OSINT(Open‑source Intelligence — расследование по открытым источникам) незаметно переползла из контекста журналистских расследований в стиле Bellingcat и других специалистов, которых иногда называют обидным прозвищем «разгребатели грязи» (muckrakers), в сферу кибербезопасности и утвердилась там в качестве, как минимум, модного направления, которое у всех на слуху.

Что ж, давайте разбираться.

У меня, бывшего системного аналитика, действующего переводчика и вечного книжного червя, с детства засело в памяти выражение героя школьного романа, ныне мало популярного, но с неизменно актуальным названием: «… по каждому предмету капитальных сочинений очень немного… Надобно читать только их». Я и до сих пор считаю, что если ты сам не стоял у истоков темы, но хочешь разобраться, надо начинать с чтения этих капитальных сочинений.

Вот эти сочинения, рекомендованные специалистом по OSINT, который нынче консультирует компанию IDX:

Читать далее

Ближайшие события

«Элемент впаривания». Интервью со специалистом по интернет-рекламе

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели1.2K

Сразу после выхода законов об изменении законов об ответственности за ненадлежащее обращение с персональными данными, мы в компании IDX, как и все, кто имеет дело с персональными данными (как выяснилось, это вообще все юридические лица и ИП, поэтому, короче, как весь народ) втянули голову в плечи и прижали уши. Немного отдышавшись, высунули голову из окопа и начали оглядываться. Тут мы вспомнили, что есть люди, которые работают с обезличенными персональными данными, например в интернет-рекламе, и решили узнать, как обстоят дела у них. Очень удачно оказалось, что как минимум трое сотрудников компании работали когда-то вместе с Михаилом Бенюхисом, который последние 15 лет занимался интернет-рекламой и попросили его об интервью. К счастью, Михаил не отказался и вот что получилось.

Текст интервью, включая объяснение КДПВ

Как понять нейронные сети? Часть 2

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели1.5K

Начало обзора здесь.

Первые необъяснимые результаты

Восьмая глава в каком то смысле переломная для всей истории эволюции глубоких сетей, рассказанной в книге. Здесь тревожные звоночки, которые звенели раньше, превращаются в первые проблемы работы с моделями, которые мы даже объяснить не можем, а можем только высказать какие-то предположения. 


Сама глава посвящена оценке качества модели, обученной на учебном наборе данных. Качество понимается как точность предсказаний, сделанных моделью на проверочном, тестовом наборе.

В довольно простой задаче распознавания рукописных цифр, используя хорошо известную базу MNIST (60 тысяч обучающих образцов и десять тысяч тестовых) в упрощенном варианте MNIST-1D (всего 4000 обучающих образцов). Каждый упрощенный образец дискретизируется в 40 точках и на каждый из сорока входов модели подается горизонтальное смещение точки образца (поэтому набор данных и называется MNIST-1D). В модели два слоя по 100 элементов в каждом. Для оптимизации используется стохастический градиентный спуск. По ходу обучения ошибка классификации образцов, подаваемых на вход плавно снижается до нуля. Однако ошибки на тестовом наборе, которые начинают снижаться, дойдя до 40%, остаются на этом уровне. Значение функции потерь при этом даже увеличивается, приближаясь к единице, что означает, что модель делает те же ошибки, но с большей уверенностью.

На простых регрессионных моделях исследуются три источника ошибок (шум, дисперсия и смещение) при генерации тестовых данных и предлагаются методы сокращения дисперсии (за счет увеличения количества тестовых данных) и смещения за счет увеличения мощности модели (с шумом ничего поделать нельзя). При этом еще существует баланс дисперсии и смещения — увеличивая мощность модели, чтобы сократить ошибку смещения, мы получаем увеличение дисперсии как компоненты ошибки. Это значит, что для каждой модели существует некоторая оптимальная мощность для заданного объема обучающих данных.

Читать далее

Как понять нейронные сети? Часть 1

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели4.5K

Предуведомления

Я обещал в предыдущей публикации в этом блоге, что напишу про еще одну книжку, которую перевел в конце прошлого года для того же издательства «Бомбора». Книжка довольно увесистая, 526 страниц, называется «Understanding Deep Learning». Автор Simon J.D. Prince. — ученый, исследователь, почетный профессор Университета Бата (University of Bath). Он был руководителем проектов в двух компаниях, известных на рынке ИИ‑продуктов: Anthropics Technology Ltd и RBC Borealis. В 2012 году вышла его первая книга «Computer Vision. Models, Learning, and Inference», которая выдержала четыре издания, была переведена на китайский и продалась в количестве более десяти тысяч экземпляров (для научного издания это много).

Как и в обзоре предыдущей книги, хочу сделать оговорку, что делаю его не как специалист по ИИ, а как читатель с базовой подготовкой в ИТ и прикладной математике в объеме технического университета по специальности «Автоматизированные системы управления» и аспирантуры по методам стохастической фильтрации (фильтр Калмана) для гироскопических и навигационных систем. То есть я хочу поделиться своим читательским опытом с теми, кто, как и я, хочет понять что происходит в отрасли ИИ и получить начальные, но не совсем уж популярные сведения по архитектуре и математическим моделям нейронных сетей.

Свой перевод я сдал в издательство с рабочим заглавием «Понимание глубокого обучения», которое, скорее всего, поменяется. Во‑первых, названия всегда придумывает отдел маркетинга, а во‑вторых, в предисловии автор пишет, что в названии книги содержится некоторая шутка или горькая ирония, потому что на момент написания книги (оригинал вышел в 2023 году) никто не понимал глубокого обучения. На Хабре очень много публикаций по этой теме, и, мне кажется, что читатели этого сайта в большинстве своем знакомы как минимум с основами, но все же рискну уточнить термины. «Глубокое обучение» — это сокращение от «обучение глубоких нейронных сетей». Во‑первых, удобнее при изложении, а во‑вторых есть преемственность с названием охватывающей области исследований — машинного обучения, которое много лет развивалось без использования нейронных сетей, а теперь успешность их применения и бурный рост исследований и продуктов на их базе настолько превзошли все другие подходы, что многими термины «машинное обучение» и «глубокое обучение» воспринимаются как синонимы, хотя это пока еще не так.

Читать далее

О кожуре гиперапельсина

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели1.8K

Когда неожиданно для себя и для всех берешься за какое-то дело, это может затронуть некие глубинные пласты мироздания и слегка заржавевший механизм приходит в движение, показывая в окошечках удивительные комбинации символов, не виданные или не узнанные ранее.

О проблеме плотности тестовых данных для моделей ИИ

Вот, к примеру, взялся я давеча переводить монографию по машинному обучению в версии Deep Learning. Ничто не предвещало, просто в восьмой главе обсуждали, почему хорошо обученные модели на тестовых данных ведут себя не так хорошо, и обсуждение на примере задачи многомерной классификации привело автора к сетованию, что чем выше размерность задачи, тем разреженнее становятся тестовые данные. Выборка в 100 000 образцов выглядит прилично в трехмерной задаче, но как только размерность задачи начинает расти, плотность образцов в пространстве пар «вход/выход» падает катастрофически. Чтобы пояснить свою мысль, автор рассказывает о том, что я знал в младенческом возрасте, когда читал журнал «Квант» и мечтал поступить в МФТИ, но с тех пор уже забыл напрочь.

Пример очень простой, но наглядный, не погнушайтесь элементарной математикой. Возьмем круг, вписанный в квадрат со стороной, равной единице. Какая будет площадь круга? Ответ известен из курса школьной математики.

Читать далее

Почему надувается пузырь персональных данных

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели8.3K

Вступление

Когда я присоединился к компании IDX после некоторого перерыва в профессиональной карьере, хотя и не в прежнем качестве архитектора и менеджера проектов, а в роли автора, я погрузился в обширный материал того, что произошло в отрасли информационной безопасности (ИБ) за последние десять лет. По мере вхождения в предмет я не мог не заметить, что тема персональных данных (ПД) стала занимать гораздо больший объем в необъятном и довольно эклектичном круге вопросов ИБ, чем это было всего несколько лет назад.

Попросту говоря, складывается ощущение, что выдувается пузырь. Тут же захотелось понять — сам выдувается или его выдувают. Вы же помните пузыри доткомов, когда в любой завалящий проект инвесторы вливали щедрые миллионы, лишь бы в описании было что‑нибудь «с точкой» (.com). Инвестиционному рынку это на пользу не пошло, но это другая история. Здесь меня больше волновала судьба того проекта, в котором я теперь участвую, и хотелось увидеть его в перспективе. Идею проекта я слышал от основателя и руководителя IDX Светы Беловой еще лет десять назад. Еще через пару лет звезды встали правильно, и вот уже седьмой год компания успешно работает на рынке, пусть и довольно нишевом. Если бы это был чисто инвестиционный пузырь, столько лет он бы не продержался, значит, как минимум, во всей это истории есть естественный дрейф, и есть искусственные воздействия на направление этого дрейфа. Захотелось посмотреть на этот дрейф на фоне «большой картинки». На нашем внутреннем жаргоне этот жанр называется «поговорить о великом». Поэтому я решил написать эту заметку, описывающую «большую картинку», как я ее вижу.

Читать далее

Угрозы информационной безопасности через оптику Звездных Войн

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели2K

Виздательстве «Бомбора» (импринт суперкорпорации «АСТ/Эксмо») в конце года должна выйти в моем переводе книга одного из самых известных специалистов в области информационной безопасности Адама Шостака (Adam Shostack). В оригинале книга вышла в 2023 году под заглавием «THREATS. What Every Engineer Should Learn from Star Wars».

Возможно, вы спросите — почему в моем переводе, ты кто вообще такой? На Хабре можно встретить много критики в адрес переводных изданий издательства «Бомбора», вот наконец и переводчик явился со своими рекомендациями. В свое оправдание могу только сказать, что переводами специальной литературы я занимался все сорок лет, что проработал в отрасли ИТ, со времен, когда она еще так и не называлась. Переводы, которые я делал или редактировал, всегда были связаны с моей основной работой в качестве руководителя проектов, системного архитектора, евангелиста правильных технологий и архитектур. После окончания активной карьеры в профессиональном качестве я переключился на переводы художественной литературы. Но вот, ровно год назад мне снова предложили вернуться к техническим переводам, но на этот раз уже предложенные книжки не лежали в русле моей основной специализации. Перевод этих книг стал для меня поводом узнать что‑то новое, догнать ход событий в менее известных мне областях. Моя базовая подготовка в ИТ позволяет надеяться, что грубых ошибок я не наделал.

После того, как я за год перевел три книжки, из них две довольно толстых и мудреных (кроме книги Шостака еще объемную монографию о глубоких нейронных сетях «Understanding Deep Learning» (автор Simon J.D. Prince), я уже не удивлялся, когда мне предложили присоединиться к компании IDX в качестве копирайтера (в хорошем смысле). Перейдем собственно к рассказу о книге.

Читать далее

Информация

Сайт
iidx.ru
Дата регистрации
Дата основания
Численность
31–50 человек