Pull to refresh
12
4
Калимулин Михаил Игоревич @exwill

Vision developer

Send message

Как искусственный интеллект меняет будущее: обзор конференции OpenTalks.AI 2023

Level of difficultyMedium
Reading time7 min
Views3.9K

В начале прошлой недели в Ереване проходила самая крупная русскоязычная конференция по искусственному интеллекту OpenTalks.AI. На конференции было ~600 участников, ~100 спикеров и 28 сессий в рамках трех крупных секций - бизнес, разработка и наука.

Я попал в число этих 600 счастливчиков, представляю Хабру обзор докладов.

Дисклеймер: Все доклады послушать физически было невозможно, т.к. три секции проходили параллельно, поэтому я ходил на те, в предметной сфере которых я более-менее разбираюсь. Наверняка на Хабре есть и другие участники конференции, будет здорово если вы дополните мою заметку вашими комментариями по понравившимся докладам, на которые не попал я.

Читать далее
Total votes 6: ↑6 and ↓0+6
Comments1

Как закалялась сталь современной симметричной криптографии. Глава 1. Классическая криптография

Level of difficultyMedium
Reading time49 min
Views9.6K

Современные симметричные шифры, которыми мы пользуемся неявно, но повсеместно, появились в ходе своей многовековой эволюции, в ходе продолжительных и постоянных этапов собственного совершенствования. Каждый новый шаг улучшения приводил одновременно к разрушению старых уязвимых шифров и к порождению новых, более качественных и безопасных. Тем не менее, само разрушение старых алгоритмов всегда двояко свидетельствовало как об их недостатках, которые необходимо было искоренять, так и об их достоинствах, которые нужно было наследовать. В следствие этого, каждый новый, более качественный шифр, представлял собой количественный синтез старых, менее качественных алгоритмов шифрования.

Читать далее
Total votes 25: ↑25 and ↓0+25
Comments5

Большие данные мертвы. Это нужно принять

Level of difficultyMedium
Reading time17 min
Views73K

Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую‑нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по‑прежнему возникают проблемы с пониманием своих данных.

В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.

Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.

А дальше будет и того интереснее.

Читать далее
Total votes 115: ↑110 and ↓5+140
Comments76

Почему Chat GPT говорит по-русски с нейронным акцентом?  Специфика токенизации кириллицы нейронной сетью от Open AI

Level of difficultyEasy
Reading time4 min
Views36K

Увидев очередную статью об утомившем всех Chat GPT от Open AI, рука невольно тянется в пистолету минусатору. Ну, в самом деле, сколько можно? Уже, кажется, все успели поиграть с чатом во всевозможных сценариях.

Однако один аспект, почему‑то, почти не затронут как на Хабре, так и в Рунете. Почему же все‑таки Chat GPT говорит по‑русски с весьма специфическим акцентом, который условно можно назвать «нейронным говорком»?

Чтобы понять суть вопроса, обратимся к теории. Чем занимается генеративная нейронная сеть такого типа?

Говоря просто и коротко она получает на вход набор токенов, пропускает их через некий «черный ящик» и выдает другой набор токенов. Вероятность выбора конкретного токена для ответа зависит от набора входящих токенов и конкретных настроек.

Но что же такое «токен»? Интересный факт заключается в том, что для английского языка токеном обычно выступают сочетания символов, зачастую совпадающие с короткими словами или часто встречающимися частями слов.

Возьмем, например, английскую панграмму:

“The quick brown fox jumps over the lazy dog”

Напомню, что панграмма — это предложение из минимального числа слов, содержащая в себе все буквы алфавита.

Официальный токенизатор Open AI.

Показывает, что в этом предложении всего 9 токенов, содержащих 43 символа.

Читать далее
Total votes 36: ↑34 and ↓2+38
Comments30

ChatGPT как инструмент для поиска: решаем основную проблему

Reading time40 min
Views118K

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а Microsoft планирует интеграцию в поисковик Bing - чем, кстати, безумно обеспокоен СЕО Alphabet (Google) Сундар Пичаи. Настолько обеспокоен, что в своём письме-обращении к сотрудникам объявляет "Code Red" ситуацию. В то же время Сэм Альтман, CEO OpenAI - компании, разработавшей эту модель - заявляет, что полагаться на ответы ChatGPT пока не стоит.

Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы, как может выглядеть новый интерфейс взаимодействия, и какие основные проблемы есть на пути интеграции? Могут ли модели сёрфить интернет бок о бок с традиционными поисковиками? На эти и многие другие вопросы постараемся ответить под катом.

Погрузиться с головой →
Total votes 96: ↑96 and ↓0+96
Comments51

Кому принадлежат платформы генеративного искусственного интеллекта?

Reading time12 min
Views3.1K

Часто новые технологические тенденции становятся «пузырями» задолго до того, как они реально становятся востребованными на рынке. Но бум генеративных ИИ сопровождается реальными достижениями на реальных рынках и реальной подпиткой со стороны реальных компаний. Такие модели, как Stable Diffusion или ChatGPT устанавливают исторические рекорды роста пользователей, а несколько приложений на основе ИИ достигли годового дохода в размере 100 миллионов долларов менее чем через год после запуска. И пора признать, что в некоторых задачах искусственный интеллект уже превосходит людей на несколько порядков. Вопрос один: кто получает основной профит от этого и кто будет владеть всем этим в будущем?

Читать далее
Total votes 8: ↑7 and ↓1+7
Comments2

Почему чёрные дыры крутятся почти со скоростью света

Reading time7 min
Views36K


Заглядывая в глубины космоса, прежде всего мы видим яркие точки и пятна – звёзды и галактики. Большая часть видимого в ночном небе света действительно исходит от звёзд. А если заглянуть во Вселенную при помощи приборов, выйдя за пределы видимой части спектра, мы увидим гораздо больше всего. У самых ярких и самых массивных звёзд время жизни оказывается самым малым – они сжигают своё топливо гораздо быстрее, чем их мелкие сородичи. Дойдя до предела ядерного синтеза, они заканчивают свою жизнь и превращаются в звёздные останки.

Останки эти бывают разных видов: для звёзд самой малой массы (типа Солнца) это будут белые карлики, для чуть более массивных – нейтронные звёзды, а для гигантов – чёрные дыры. Получающиеся компактные объекты излучают в электромагнитном диапазоне во всех спектрах, от радио до рентгена, и иногда результаты наблюдений этого излучения дают нам удивительные результаты. Например, большинство звёзд вращается относительно медленно, но при этом чёрные дыры вращаются почти со скоростью света. Это может показаться контринтуитивным, однако законы физики не оставляют нам других вариантов.
Читать дальше →
Total votes 57: ↑55 and ↓2+79
Comments150

[Перевод] Всё о файлах cookie и их безопасности

Reading time5 min
Views34K

HTTP является протоколом без статических данных, что означает, что он не может различать два последовательных запроса, исходящих от одного и того же компьютера, сети или пользователя. Это было основной проблемой. Из-за этого пользователь не мог поддерживать свою сессию, и если бы мы продолжили в том же духе, интернет стал бы таким же, каким он был десять лет назад, состоящим только из кучи статичных html-страниц. Никаких учетных записей пользователей, никакой настройки и т.д., а если и есть какие-то учетные записи, то для доступа к каждой странице нужно снова и снова входить в систему.

Чтобы решить эту проблему, HTTP нужно было сделать с сохранением состояния. Ответом стал файл cookie. В отличие от cookie, которые вы получаете, это небольшие файлы, создаваемые веб-сайтом, который вы посещаете. Они генерируются веб-приложениями и хранятся в вашем браузере в виде пар ключ-значение.

Примером может служить PHPSESSID: xyjaez1081lze23, lang: en.

Давайте разберемся в этом на примере. Предположим, вы пошли в магазин и принесли оттуда посуду. Придя домой, вы обнаруживаете, что один из них сломан. Тогда вы идете к владельцу магазина и рассказываете ему о своей проблеме. Но, к вашему ужасу, он отвечает, что не знает вас. Таково было исходное состояние HTTP без файлов cookie. Веб-сервер не узнает вас при любом раскладе.

Читать далее
Total votes 16: ↑8 and ↓8+1
Comments6

Почему форумы продолжают жить

Reading time5 min
Views39K

Интернет — идеальная площадка для споров. Но есть большая разница, как спорить. Или это эмоциональная склока, где собеседники наскакивают друг на друга как петухи и стремятся побольнее клюнуть. Или размеренная дискуссия, которая продолжается неделями, где собеседники по большинству вопросов согласны друг с другом. Они спокойно и неторопливо доносят до собеседника информацию, которой у того не хватает.

Разгорячённые петухи и спокойные интеллектуалы — одни и те же люди, просто на разных сайтах. То есть сама платформа как бы вынуждает людей общаться тем или иным способом. В некоторых условиях неторопливое конструктивное общение практически невозможно, а в других — поощряется. Что это за условия?

Или спросим иначе: почему старые форумы продолжают существовать в 2023 году и там сохраняется своё коммьюнити (преимущественно, по специализированным темам)? Хотя, вы наверное уже догадались.
Читать дальше →
Total votes 113: ↑108 and ↓5+135
Comments414

Есть ли польза от решения алгоритмических задач на LeetCode?

Reading time8 min
Views88K

Пожалуй каждый программист, который сталкивался с вопросом: "А как устроиться на работу в FAANG?" - получал ответ, что ему нужно разобраться с алгоритмами, со структурами данных и прорешать порядка 300-400 задач на leetcode по алгоритмам.

Однако вслед за этим советом тут же появляются люди, которые говорят, что это никоим образом не делает тебя лучше, как программиста. Да и вообще - просто пустая трата времени.

Поэтому, в этой статье я постараюсь дать ответ, насколько это может быть полезным для работы и развития, и как может сказаться на карьере.

Читать далее
Total votes 51: ↑43 and ↓8+50
Comments182

История создания домашнего облака. Часть 2. Создание сервера — настройка LAMP в Debian

Reading time24 min
Views45K
На пути создания своего облачного сервиса пока мы только освоились в системе Debian. Теперь пришла пора для следующего шага — создание и настройка веб-сервера, на базе которого можно будет запустить Nextcloud.
Читать дальше →
Total votes 21: ↑20 and ↓1+19
Comments20

Как врач сделал себе ИИ помощника. Часть 1

Reading time3 min
Views13K

Всем привет, меня зовут Александр и я врач-гематолог. Для справки, это тот, кто занимается болезнями крови. Мой общий стаж перевалил за 16 лет, я кандидат медицинских наук и последние пару-тройку лет интересуюсь анализом данных, machine learning и ИИ в медицине. Под "интересуюсь" я подразумеваю исследования и публикации по этим темам, а также обучение и саморазвитие.

Так как я ни разу не программист, то мой пост будет не про это. Тем не менее последние пару лет моим рабочим инструментом является R. Это не тот язык программирования, на котором можно писать крутые сайты или приложения, но кое-что он все-таки умеет. R - больше про анализ данных, чем я и занимаюсь. Сегодня я хочу кратко рассказать и показать один из моих проектов на R, который решает вполне конкретную прикладную задачу - интерпретацию общего анализа крови.

Общий анализ крови (ОАК) – самый частый и один из самых сложных анализов человека для интерпретации, что обусловлено большим числом входящих в него параметров. Как правило, именно этот анализ является скрининговым тестом как для гематологов амбулаторного приема, так и для врачей общей практики и других специальностей. Объемы выполняемых анализов исчисляются сотнями тысяч. Моя идея не нова - машинная помощь в правильной и быстрой интерпретации общего анализа крови, которая будет содействовать развитию качественной, доступной и своевременной диагностики онкогематологических заболеваний. Зачастую врач первичного звена (терапевт) не может дифференцировать изменения в ОАК, что приводит либо к гиподиагностике, либо к повышенной настороженности и излишне частому направлению на консультацию к врачу-гематологу. Ситуацию усугубляют огромные объемы анализов, выполняемые в рамках профилактических и лечебно-диагностических процессов как в государственном, так и в частном секторе здравоохранения. Расшифровка анализов онлайн - один из востребованных запросов в Интернете. Меня часто просят об этом в социальных сетях.

Читать далее
Total votes 59: ↑55 and ↓4+70
Comments68

НУЦ сурка

Reading time6 min
Views22K

Как Минцифры «забыло», что уже создавало «национальный удостоверяющий центр», как фейковые сертификаты стали «государственными» и почему никто за это до сих пор не вылетел из мягкого кресла.

Последние месяцы регулярно получаю уведомления с Хабра, что мою майскую статью упомянули в публикации, посвященной очередному этапу обилечивания россиян «надежными» «суверенными сертификатами». Также регулярно комментирую эту тему для СМИ и почти всегда сталкиваюсь с выпадением собеседника в BSOD. Казалось бы, вот все факты, вот официальные документы и прочие «пруфы», но поверить в услышанное все равно невозможно: федеральный орган исполнительной власти не первый месяц открыто нарушает закон, раздает филькины грамоты для «защиты» важнейших сайтов и… ничего.

Давайте и вам расскажу эту историю: как Минцифры не имея на то полномочий «создало» т.н. «национальный удостоверяющий центр», да не один раз, как несуществующий УЦ выпускает «государственные» TLS-сертификаты, и как вся эта деятельность проходит по разделу перехода на отечественную криптографию, а не превышения должностных полномочий, а то и чего похуже.

Итак, на сайте Минцифры сообщается, что сертификаты выдает Национальный удостоверяющий центр. Сервис по выдаче сертификатов безопасности работает с марта 2022 года на портале Госуслуг. Однако «Портал государственных услуг Российской Федерации», утверждает, что российский сертификат безопасности для интернет-сайтов, заверенный «российским корневым сертификатом» предоставляется самим Минцифры. Да и сертификате указано, что его выпустило «The Ministry of Digital Development and Communications», а не какой-то «национальный удостоверяющий центр».

Читать далее
Total votes 96: ↑83 and ↓13+89
Comments56

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Level of difficultyEasy
Reading time7 min
Views92K

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

Читать далее
Total votes 19: ↑18 and ↓1+22
Comments45

Как устроен внутри Github Copilot

Reading time12 min
Views10K

Github Copilot оказался для меня невероятно полезным. Часто он может волшебным образом читать мои мысли и давать полезные рекомендации. Больше всего меня удивила его способность верно «угадывать» функции/переменные по соседнему коду, в том числе и из других файлов. Это может происходить только в том случае, если расширение copilot отправляет ценную информацию из соседнего кода в модель Codex. Мне стало любопытно, как это работает, поэтому я решил изучить исходный код.

В этом посте я попытаюсь ответить на отдельные вопросы по внутренностям Copilot, а также опишу интересные наблюдения, сделанные мной в процессе исследования кода. В большинстве случаев я буду указывать ссылки на соответствующий код, чтобы заинтересовавшиеся читатели могли изучить его самостоятельно.
Читать дальше →
Total votes 26: ↑26 and ↓0+26
Comments2

Домашний веб-сервер для чайников

Reading time14 min
Views273K

Привет, Хабр! Относительно недавно после пары лет перерыва в айти, потраченных на изучение японского языка, мне пришлось срочно обновлять свои знания на работе. Ну знаете, искать возможности исполнить все хотелки начальника, как и положено эникею. Меня ждало много увлекательных открытий, но при этом, как водится, и немало боли и борьбы с непонятками. Docker, контейнеры, реверс DNS и реверс прокси, получение TLS сертификатов. В какой-то момент я наконец дошёл до удобного решения, которым я теперь хочу поделиться.

В своё время домашний сервер очень облегчил бы мне понимание Docker’а, да и удобство работы с ним неслабо бы повысил. Поэтому возникла идея написать эту статью, после прочтения которой любой человек даже с поверхностными знаниями в информационных технологиях сможет поставить себе постоянно доступный домашний сервер на базе Docker Swarm с удобной веб-мордой, простым получением TLS-сертификатов и Heroku-подобным функционалом (для чего будем использовать PaaS CapRover). 

Статья, в общем-то, рассчитана на новичков, обладающих какими-то техническими знаниями — школьников старших классов, студентов и просто любителей — а потому вряд ли будет интересна серьёзным профессионалам.

Читать далее
Total votes 24: ↑22 and ↓2+23
Comments29

SETI, жизнь на других планетах и всё остальное: наследие Фрэнка Дрейка

Reading time7 min
Views5K

Фрэнк Дрейк со своей знаменитой формулой

На протяжении всей истории человека люди, смотревшие в ночное небо, полное звёзд, планет и всего остального, не могли не думать о том, что же может существовать там, в космосе. Есть ли там такие же звёзды, как Солнце, такие же планеты, как Земля, какие-то ещё живые, разумные существа, осознающие сами себя, и как сильно они отличаются от нас с вами? За тысячелетия развития астрономии и десятки лет развития астрофизики наше понимание Вселенной невыразимо сильно возросло, однако любопытство по поводу возможности существования внеземной жизни не угасает.

В 1950 году прославленный физик Энрико Ферми задал свой знаменитый вопрос: «А где все?» Уже заканчивается 2022 год, а этот вопрос всё ещё звучит в наших умах, не находя определённого ответа. Однако менее чем через 10 лет после того, как его задал Ферми, другой учёный, Фрэнк Дрейк, преисполнился решимости превратить этот вопрос из философского в научный. Он стал первым человеком, затеявшим поиски сигналов технологически развитых цивилизаций, пионером соответствующего проекта Search for Extraterrestrial Intelligence (SETI), разработал первое сообщение, специально отправленное всем любопытствующим инопланетянам, способным его услышать, и вывел первую методику оценки количества существующих разумных инопланетных цивилизаций, с которыми мы могли бы теоретически наладить связь – уравнение Дрейка.
Читать дальше →
Total votes 18: ↑17 and ↓1+22
Comments78

Кому принадлежит время

Reading time13 min
Views12K
image

Знать время нужно всем. Точное время необходимо для криптографии, непрерывного производства, навигации на Земле и в космосе.

Интернет зависит от времени так, что малейшая ошибка ведет к масштабным проблемам: падению серверов, сбоям в DNS, зависанию приложений. Из-за проблем со временем системы зацикливаются и потребляют излишние ресурсы CPU.

Конечно, программисты знают, откуда берется время. UNIX-time, timestamp, datetime, tzdata, NTP и другие решения дают четкое ощущение контроля времени. Однако кому на самом деле время принадлежит, кто несет за него ответственность?

Это история о бесконечном поиске консенсуса, талантливых одиночках, работающих без зарплаты, крушении «Титаника», увлеченном слепом программисте и смелых решениях, ведущих к новым ошибкам. Это история про время.

Читать дальше →
Total votes 44: ↑42 and ↓2+50
Comments17

Доказуемая честность и PoL в казино (и не только)

Reading time3 min
Views6K

Не так давно я начал интересоваться работой гэмблинг рынка, а именно казино. У многих людей ошибочное мнение о работе онлайн-казино. Многие представляют себе казино как сервис, где людей нагло обманывают, все игры подкручивают и выиграть там нереально, но в этой статье я хочу рассказать подробнее о возможностях как обычный игрок может проверить свою ставку или средства на честность.

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments9

КриптоПро в Linux контейнере для использования КЭП от ФНС

Reading time5 min
Views17K

С Нового Года в России от Индивидуальных Предпринимателей (ИП) и директоров Обществ с Ограниченной Ответственностью (ООО) требуют использовать Квалифицированную Электронную Подпись (КЭП) выданную Федеральной Налоговой Службой (ФНС).

В этой статье речь пойдёт о том, как работать с КЭП от ФНС под Linux без головной боли.

Читать далее
Total votes 31: ↑31 and ↓0+31
Comments78

Information

Rating
966-th
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity