Articles / Bookmarks / Profile of exwill / Habr

Калимулин Михаил Игоревич @exwill

Vision developer

Profile Publications 47Comments 841Bookmarks 72

CarpeDiem Mar 20 2023 at 20:51

Как искусственный интеллект меняет будущее: обзор конференции OpenTalks.AI 2023

Medium

7 min

3.9K

Machine learning*Research and forecasts in IT*Conferences

Reportage

В начале прошлой недели в Ереване проходила самая крупная русскоязычная конференция по искусственному интеллекту OpenTalks.AI. На конференции было ~600 участников, ~100 спикеров и 28 сессий в рамках трех крупных секций - бизнес, разработка и наука.

Я попал в число этих 600 счастливчиков, представляю Хабру обзор докладов.

Дисклеймер: Все доклады послушать физически было невозможно, т.к. три секции проходили параллельно, поэтому я ходил на те, в предметной сфере которых я более-менее разбираюсь. Наверняка на Хабре есть и другие участники конференции, будет здорово если вы дополните мою заметку вашими комментариями по понравившимся докладам, на которые не попал я.

Number571 Mar 19 2023 at 16:33

Как закалялась сталь современной симметричной криптографии. Глава 1. Классическая криптография

Medium

49 min

9.6K

Information Security*Cryptography*Programming*C*

Retrospective

Современные симметричные шифры, которыми мы пользуемся неявно, но повсеместно, появились в ходе своей многовековой эволюции, в ходе продолжительных и постоянных этапов собственного совершенствования. Каждый новый шаг улучшения приводил одновременно к разрушению старых уязвимых шифров и к порождению новых, более качественных и безопасных. Тем не менее, само разрушение старых алгоритмов всегда двояко свидетельствовало как об их недостатках, которые необходимо было искоренять, так и об их достоинствах, которые нужно было наследовать. В следствие этого, каждый новый, более качественный шифр, представлял собой количественный синтез старых, менее качественных алгоритмов шифрования.

+25

virtual_explorer Mar 2 2023 at 17:02

Большие данные мертвы. Это нужно принять

Medium

17 min

73K

FirstVDS corporate blogCloud computing*Big Data*Data Engineering*

Opinion

Translation

Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую‑нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по‑прежнему возникают проблемы с пониманием своих данных.

В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.

Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.

А дальше будет и того интереснее.

+140

AlexKimen Feb 13 2023 at 07:15

Почему Chat GPT говорит по-русски с нейронным акцентом? Специфика токенизации кириллицы нейронной сетью от Open AI

Easy

4 min

36K

Artificial IntelligenceNatural Language Processing*

Review

Увидев очередную статью об утомившем всех Chat GPT от Open AI, рука невольно тянется в ~~пистолету~~ минусатору. Ну, в самом деле, сколько можно? Уже, кажется, все успели поиграть с чатом во всевозможных сценариях.

Однако один аспект, почему‑то, почти не затронут как на Хабре, так и в Рунете. Почему же все‑таки Chat GPT говорит по‑русски с весьма специфическим акцентом, который условно можно назвать «нейронным говорком»?

Чтобы понять суть вопроса, обратимся к теории. Чем занимается генеративная нейронная сеть такого типа?

Говоря просто и коротко она получает на вход набор токенов, пропускает их через некий «черный ящик» и выдает другой набор токенов. Вероятность выбора конкретного токена для ответа зависит от набора входящих токенов и конкретных настроек.

Но что же такое «токен»? Интересный факт заключается в том, что для английского языка токеном обычно выступают сочетания символов, зачастую совпадающие с короткими словами или часто встречающимися частями слов.

Возьмем, например, английскую панграмму:

“The quick brown fox jumps over the lazy dog”

Напомню, что панграмма — это предложение из минимального числа слов, содержащая в себе все буквы алфавита.

Официальный токенизатор Open AI.

Показывает, что в этом предложении всего 9 токенов, содержащих 43 символа.

+38

stalkermustang Jan 26 2023 at 11:55

ChatGPT как инструмент для поиска: решаем основную проблему

40 min

118K

Open Data Science corporate blogPython*Machine learning*Natural Language Processing*

Review

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а Microsoft планирует интеграцию в поисковик Bing - чем, кстати, безумно обеспокоен СЕО Alphabet (Google) Сундар Пичаи. Настолько обеспокоен, что в своём письме-обращении к сотрудникам объявляет "Code Red" ситуацию. В то же время Сэм Альтман, CEO OpenAI - компании, разработавшей эту модель - заявляет, что полагаться на ответы ChatGPT пока не стоит.

Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы, как может выглядеть новый интерфейс взаимодействия, и какие основные проблемы есть на пути интеграции? Могут ли модели сёрфить интернет бок о бок с традиционными поисковиками? На эти и многие другие вопросы постараемся ответить под катом.

Погрузиться с головой →

+96

akaz_zaka Jan 26 2023 at 11:00

Кому принадлежат платформы генеративного искусственного интеллекта?

12 min

3.1K

RoboUniver corporate blogCloud computing*Research and forecasts in IT*Artificial Intelligence

Analytics

Translation

Часто новые технологические тенденции становятся «пузырями» задолго до того, как они реально становятся востребованными на рынке. Но бум генеративных ИИ сопровождается реальными достижениями на реальных рынках и реальной подпиткой со стороны реальных компаний. Такие модели, как Stable Diffusion или ChatGPT устанавливают исторические рекорды роста пользователей, а несколько приложений на основе ИИ достигли годового дохода в размере 100 миллионов долларов менее чем через год после запуска. И пора признать, что в некоторых задачах искусственный интеллект уже превосходит людей на несколько порядков. Вопрос один: кто получает основной профит от этого и кто будет владеть всем этим в будущем?

SLY_G Jan 19 2023 at 12:48

Почему чёрные дыры крутятся почти со скоростью света

7 min

36K

AstronomyPopular science

Заглядывая в глубины космоса, прежде всего мы видим яркие точки и пятна – звёзды и галактики. Большая часть видимого в ночном небе света действительно исходит от звёзд. А если заглянуть во Вселенную при помощи приборов, выйдя за пределы видимой части спектра, мы увидим гораздо больше всего. У самых ярких и самых массивных звёзд время жизни оказывается самым малым – они сжигают своё топливо гораздо быстрее, чем их мелкие сородичи. Дойдя до предела ядерного синтеза, они заканчивают свою жизнь и превращаются в звёздные останки.

Останки эти бывают разных видов: для звёзд самой малой массы (типа Солнца) это будут белые карлики, для чуть более массивных – нейтронные звёзды, а для гигантов – чёрные дыры. Получающиеся компактные объекты излучают в электромагнитном диапазоне во всех спектрах, от радио до рентгена, и иногда результаты наблюдений этого излучения дают нам удивительные результаты. Например, большинство звёзд вращается относительно медленно, но при этом чёрные дыры вращаются почти со скоростью света. Это может показаться контринтуитивным, однако законы физики не оставляют нам других вариантов.

Читать дальше →

+79

150

Ent_TranslateIB Jan 14 2023 at 13:48

[Перевод] Всё о файлах cookie и их безопасности

5 min

34K

Information Security*

From sandbox

Translation

HTTP является протоколом без статических данных, что означает, что он не может различать два последовательных запроса, исходящих от одного и того же компьютера, сети или пользователя. Это было основной проблемой. Из-за этого пользователь не мог поддерживать свою сессию, и если бы мы продолжили в том же духе, интернет стал бы таким же, каким он был десять лет назад, состоящим только из кучи статичных html-страниц. Никаких учетных записей пользователей, никакой настройки и т.д., а если и есть какие-то учетные записи, то для доступа к каждой странице нужно снова и снова входить в систему.

Чтобы решить эту проблему, HTTP нужно было сделать с сохранением состояния. Ответом стал файл cookie. В отличие от cookie, которые вы получаете, это небольшие файлы, создаваемые веб-сайтом, который вы посещаете. Они генерируются веб-приложениями и хранятся в вашем браузере в виде пар ключ-значение.

Примером может служить PHPSESSID: xyjaez1081lze23, lang: en.

Давайте разберемся в этом на примере. Предположим, вы пошли в магазин и принесли оттуда посуду. Придя домой, вы обнаруживаете, что один из них сломан. Тогда вы идете к владельцу магазина и рассказываете ему о своей проблеме. Но, к вашему ужасу, он отвечает, что не знает вас. Таково было исходное состояние HTTP без файлов cookie. Веб-сервер не узнает вас при любом раскладе.

alizar Jan 11 2023 at 12:00

Почему форумы продолжают жить

5 min

39K

RUVDS.com corporate blogSocial networks and communitiesWebsite development*History of ITCommunity management*

Интернет — идеальная площадка для споров. Но есть большая разница, как спорить. Или это эмоциональная склока, где собеседники наскакивают друг на друга как петухи и стремятся побольнее клюнуть. Или размеренная дискуссия, которая продолжается неделями, где собеседники по большинству вопросов согласны друг с другом. Они спокойно и неторопливо доносят до собеседника информацию, которой у того не хватает.

Разгорячённые петухи и спокойные интеллектуалы — одни и те же люди, просто на разных сайтах. То есть сама платформа как бы вынуждает людей общаться тем или иным способом. В некоторых условиях неторопливое конструктивное общение практически невозможно, а в других — поощряется. Что это за условия?

Или спросим иначе: почему старые форумы продолжают существовать в 2023 году и там сохраняется своё коммьюнити (преимущественно, по специализированным темам)? Хотя, вы наверное уже догадались.

Читать дальше →

+135

414

hatman Jan 9 2023 at 09:11

Есть ли польза от решения алгоритмических задач на LeetCode?

8 min

88K

Algorithms*IT career

Opinion

Пожалуй каждый программист, который сталкивался с вопросом: "А как устроиться на работу в FAANG?" - получал ответ, что ему нужно разобраться с алгоритмами, со структурами данных и прорешать порядка 300-400 задач на leetcode по алгоритмам.

Однако вслед за этим советом тут же появляются люди, которые говорят, что это никоим образом не делает тебя лучше, как программиста. Да и вообще - просто пустая трата времени.

Поэтому, в этой статье я постараюсь дать ответ, насколько это может быть полезным для работы и развития, и как может сказаться на карьере.

+50

182

AlexanderS Jan 30 2018 at 07:27

История создания домашнего облака. Часть 2. Создание сервера — настройка LAMP в Debian

24 min

45K

SoftwareBackup*Configuring Linux*DIY*nix*

Tutorial

На пути создания своего облачного сервиса пока мы только освоились в системе Debian. Теперь пришла пора для следующего шага — создание и настройка веб-сервера, на базе которого можно будет запустить Nextcloud.

Читать дальше →

+19

KirovDoc Jan 3 2023 at 22:47

Как врач сделал себе ИИ помощника. Часть 1

3 min

13K

R*Artificial IntelligenceHealth

From sandbox

Всем привет, меня зовут Александр и я врач-гематолог. Для справки, это тот, кто занимается болезнями крови. Мой общий стаж перевалил за 16 лет, я кандидат медицинских наук и последние пару-тройку лет интересуюсь анализом данных, machine learning и ИИ в медицине. Под "интересуюсь" я подразумеваю исследования и публикации по этим темам, а также обучение и саморазвитие.

Так как я ни разу не программист, то мой пост будет не про это. Тем не менее последние пару лет моим рабочим инструментом является R. Это не тот язык программирования, на котором можно писать крутые сайты или приложения, но кое-что он все-таки умеет. R - больше про анализ данных, чем я и занимаюсь. Сегодня я хочу кратко рассказать и показать один из моих проектов на R, который решает вполне конкретную прикладную задачу - интерпретацию общего анализа крови.

Общий анализ крови (ОАК) – самый частый и один из самых сложных анализов человека для интерпретации, что обусловлено большим числом входящих в него параметров. Как правило, именно этот анализ является скрининговым тестом как для гематологов амбулаторного приема, так и для врачей общей практики и других специальностей. Объемы выполняемых анализов исчисляются сотнями тысяч. Моя идея не нова - машинная помощь в правильной и быстрой интерпретации общего анализа крови, которая будет содействовать развитию качественной, доступной и своевременной диагностики онкогематологических заболеваний. Зачастую врач первичного звена (терапевт) не может дифференцировать изменения в ОАК, что приводит либо к гиподиагностике, либо к повышенной настороженности и излишне частому направлению на консультацию к врачу-гематологу. Ситуацию усугубляют огромные объемы анализов, выполняемые в рамках профилактических и лечебно-диагностических процессов как в государственном, так и в частном секторе здравоохранения. Расшифровка анализов онлайн - один из востребованных запросов в Интернете. Меня часто просят об этом в социальных сетях.

+70

ifap Jan 3 2023 at 09:16

НУЦ сурка

6 min

22K

Information Security*

From sandbox

Как Минцифры «забыло», что уже создавало «национальный удостоверяющий центр», как фейковые сертификаты стали «государственными» и почему никто за это до сих пор не вылетел из мягкого кресла.

Последние месяцы регулярно получаю уведомления с Хабра, что мою майскую статью упомянули в публикации, посвященной очередному этапу обилечивания россиян «надежными» «суверенными сертификатами». Также регулярно комментирую эту тему для СМИ и почти всегда сталкиваюсь с выпадением собеседника в BSOD. Казалось бы, вот все факты, вот официальные документы и прочие «пруфы», но поверить в услышанное все равно невозможно: федеральный орган исполнительной власти не первый месяц открыто нарушает закон, раздает филькины грамоты для «защиты» важнейших сайтов и… ничего.

Давайте и вам расскажу эту историю: как Минцифры не имея на то полномочий «создало» т.н. «национальный удостоверяющий центр», да не один раз, как несуществующий УЦ выпускает «государственные» TLS-сертификаты, и как вся эта деятельность проходит по разделу перехода на отечественную криптографию, а не превышения должностных полномочий, а то и чего похуже.

Итак, на сайте Минцифры сообщается, что сертификаты выдает Национальный удостоверяющий центр. Сервис по выдаче сертификатов безопасности работает с марта 2022 года на портале Госуслуг. Однако «Портал государственных услуг Российской Федерации», утверждает, что российский сертификат безопасности для интернет-сайтов, заверенный «российским корневым сертификатом» предоставляется самим Минцифры. Да и сертификате указано, что его выпустило «The Ministry of Digital Development and Communications», а не какой-то «национальный удостоверяющий центр».

+89

egaoharu_kensei Dec 31 2022 at 11:03

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Easy

7 min

92K

Data Mining*Big Data*Mathematics*Machine learning*Studying in IT

Roadmap

Technotext 2022

From sandbox

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

+22

PatientZero Dec 24 2022 at 08:23

Как устроен внутри Github Copilot

12 min

10K

Programming*GitHub*

Translation

Github Copilot оказался для меня невероятно полезным. Часто он может волшебным образом читать мои мысли и давать полезные рекомендации. Больше всего меня удивила его способность верно «угадывать» функции/переменные по соседнему коду, в том числе и из других файлов. Это может происходить только в том случае, если расширение copilot отправляет ценную информацию из соседнего кода в модель Codex. Мне стало любопытно, как это работает, поэтому я решил изучить исходный код.

В этом посте я попытаюсь ответить на отдельные вопросы по внутренностям Copilot, а также опишу интересные наблюдения, сделанные мной в процессе исследования кода. В большинстве случаев я буду указывать ссылки на соответствующий код, чтобы заинтересовавшиеся читатели могли изучить его самостоятельно.

Читать дальше →

+26

Inoriol Feb 7 2022 at 13:20

Домашний веб-сервер для чайников

14 min

273K

Open source*Domain names administrating*IT Infrastructure*Virtualization*DevOps*

Tutorial

Привет, Хабр! Относительно недавно после пары лет перерыва в айти, потраченных на изучение японского языка, мне пришлось срочно обновлять свои знания на работе. Ну знаете, искать возможности исполнить все хотелки начальника, как и положено эникею. Меня ждало много увлекательных открытий, но при этом, как водится, и немало боли и борьбы с непонятками. Docker, контейнеры, реверс DNS и реверс прокси, получение TLS сертификатов. В какой-то момент я наконец дошёл до удобного решения, которым я теперь хочу поделиться.

В своё время домашний сервер очень облегчил бы мне понимание Docker’а, да и удобство работы с ним неслабо бы повысил. Поэтому возникла идея написать эту статью, после прочтения которой любой человек даже с поверхностными знаниями в информационных технологиях сможет поставить себе постоянно доступный домашний сервер на базе Docker Swarm с удобной веб-мордой, простым получением TLS-сертификатов и Heroku-подобным функционалом (для чего будем использовать PaaS CapRover).

Статья, в общем-то, рассчитана на новичков, обладающих какими-то техническими знаниями — школьников старших классов, студентов и просто любителей — а потому вряд ли будет интересна серьёзным профессионалам.

+23

SLY_G Dec 22 2022 at 14:34

SETI, жизнь на других планетах и всё остальное: наследие Фрэнка Дрейка

7 min

Popular scienceAstronomy

Фрэнк Дрейк со своей знаменитой формулой

На протяжении всей истории человека люди, смотревшие в ночное небо, полное звёзд, планет и всего остального, не могли не думать о том, что же может существовать там, в космосе. Есть ли там такие же звёзды, как Солнце, такие же планеты, как Земля, какие-то ещё живые, разумные существа, осознающие сами себя, и как сильно они отличаются от нас с вами? За тысячелетия развития астрономии и десятки лет развития астрофизики наше понимание Вселенной невыразимо сильно возросло, однако любопытство по поводу возможности существования внеземной жизни не угасает.

В 1950 году прославленный физик Энрико Ферми задал свой знаменитый вопрос: «А где все?» Уже заканчивается 2022 год, а этот вопрос всё ещё звучит в наших умах, не находя определённого ответа. Однако менее чем через 10 лет после того, как его задал Ферми, другой учёный, Фрэнк Дрейк, преисполнился решимости превратить этот вопрос из философского в научный. Он стал первым человеком, затеявшим поиски сигналов технологически развитых цивилизаций, пионером соответствующего проекта Search for Extraterrestrial Intelligence (SETI), разработал первое сообщение, специально отправленное всем любопытствующим инопланетянам, способным его услышать, и вывел первую методику оценки количества существующих разумных инопланетных цивилизаций, с которыми мы могли бы теоретически наладить связь – уравнение Дрейка.

Читать дальше →

+22

randall Dec 21 2022 at 11:55

Кому принадлежит время

13 min

12K

MWS corporate blogIT Standards*Information Security*History of ITProgramming*

Знать время нужно всем. Точное время необходимо для криптографии, непрерывного производства, навигации на Земле и в космосе.

Интернет зависит от времени так, что малейшая ошибка ведет к масштабным проблемам: падению серверов, сбоям в DNS, зависанию приложений. Из-за проблем со временем системы зацикливаются и потребляют излишние ресурсы CPU.

Конечно, программисты знают, откуда берется время. UNIX-time, timestamp, datetime, tzdata, NTP и другие решения дают четкое ощущение контроля времени. Однако кому на самом деле время принадлежит, кто несет за него ответственность?

Это история о бесконечном поиске консенсуса, талантливых одиночках, работающих без зарплаты, крушении «Титаника», увлеченном слепом программисте и смелых решениях, ведущих к новым ошибкам. Это история про время.

Читать дальше →

+50

purp1le Dec 20 2022 at 23:52

Доказуемая честность и PoL в казино (и не только)

3 min

Cryptography*JavaScript*Cryptocurrencies

From sandbox

Не так давно я начал интересоваться работой гэмблинг рынка, а именно казино. У многих людей ошибочное мнение о работе онлайн-казино. Многие представляют себе казино как сервис, где людей нагло обманывают, все игры подкручивают и выиграть там нереально, но в этой статье я хочу рассказать подробнее о возможностях как обычный игрок может проверить свою ставку или средства на честность.

yurabeznos Dec 19 2022 at 23:53

КриптоПро в Linux контейнере для использования КЭП от ФНС

5 min

17K

Information Security*Cryptography**nix*Virtualization*

С Нового Года в России от Индивидуальных Предпринимателей (ИП) и директоров Обществ с Ограниченной Ответственностью (ООО) требуют использовать Квалифицированную Электронную Подпись (КЭП) выданную Федеральной Налоговой Службой (ФНС).

В этой статье речь пойдёт о том, как работать с КЭП от ФНС под Linux без головной боли.

+31

1 2