Pull to refresh
41
0

Пользователь

Send message

ИИ-ассистент для врачей: как мы автоматизируем приём пациента на основе анализа речи и NLP

Level of difficultyMedium
Reading time4 min
Views2.2K

Привет, Хабр! Мы команда AI Talent Hub ИТМО хотим рассказать о совместным с компанией Genotek проекте — ИИ-ассистент для врачей. Уже полгода мы разрабатываем сервис, который распознаёт медицинские диагнозы и автоматически заполняет карту пациента, чтобы освободить медработников от рутинных задач. Под катом ― о деталях решения.

Читать далее

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Reading time7 min
Views15K

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов — Yambda. Он содержит 4,79 миллиардов обезличенных пользовательских действий, собранных за 10 месяцев использования сервиса Яндекс Музыка.

Мы выбрали Яндекс Музыку, потому что это крупнейший подписной стриминговый сервис в России, которым в среднем в месяц пользуются 28 миллионов людей. Существенная часть датасета — агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков, полученные из системы персональных рекомендаций «Моя волна». Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов: от интернет‑магазинов до онлайн‑кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс‑датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют.

Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач.

В этой статье я расскажу, из чего состоит датасет, как мы его собирали и как вы можете использовать его для оценки новых рекомендательных алгоритмов.

Читать далее

Открываем YandexART API и рассказываем, как мы учили нейросеть создавать картинки, которые понравятся людям

Reading time16 min
Views20K

В Yandex Cloud с сегодняшнего дня открыт доступ к тестированию API YandexART — нейросети для генерации изображений и анимаций, которая лежит в основе приложения Шедеврум. Протестировать API можно в сервисе Foundation Models, в котором доступно несколько моделей машинного обучения, включая YandexGPT для генерации текстов и эмбеддинги для задач семантического поиска. 

Читать далее

Сравнение уровня жизни в России и Германии с учетом расходов

Reading time10 min
Views199K

Когда разговор заходит о переезде в Германию, первым делом всплывают две темы: зарплаты и расходы. На слуху у всех «в Германии высокие зарплаты», но тут же добавляют: «и коммуналка по 200 евро, да и продукты дороже». Вот сиди и думай, как эти цифры вообще сопоставить.

Читать далее

Халява приходит в программирование

Level of difficultyEasy
Reading time12 min
Views18K

Недавно прогремел пост Артура Думчева (@arturdumchev), как халява якобы уходит из программирования. Можете ознакомиться с ним, чтиво достойное. Особенно комментарии.

У меня сегодня день рождения: 39 лет. С 2003 года я работаю разработчиком, и сейчас делаю кое-что для ИИ. Интуиция подсказывает, что халява только начинается, мои чюваки. Сейчас — лучшее время быть разработчиком.

Давайте начнем с точно того же определения, как было у Артёма: «для меня халява — это гарантированный результат за вложенные усилия. Логика повествования требует такого определения, дальше всё будет ясно».

А дальше ясно, что из неверно поставленного условия может следовать что угодно.

Читать далее!

14 интересных фич Python (возможно, не совсем pythonic)

Level of difficultyMedium
Reading time21 min
Views23K

Python — один из самых широко используемых языков программирования в мире. Однако из-за его простоты, позволяющей быстро сделать что-то, он остаётся также одним из самых недооценённых.

Если загуглить лучшие 10 продвинутых хитростей Python, то вы найдёте кучу постов или статей на LinkedIn с обзором тривиальных (но всё же полезных) вещей типа генераторов или кортежей.

Я пишу на Python уже двенадцать лет, и за это время нашёл кучу очень интересных, недооценённых, уникальных или (как может кто-то сказать) «не-pythonic» хитростей, позволяющих по-настоящему расширить границы возможного для Python.

Именно поэтому я решил собрать список из 14 лучших таких фич с примерами и дополнительными ресурсами на случай, если вы захотите изучить их глубже.
Читать дальше →

Как сделать мобильное приложение, если у тебя лапки? Путь от PWA до TWA

Level of difficultyEasy
Reading time10 min
Views16K

Привет, Хабр! Меня зовут Влад, и я тот самый человек, который привык использовать костыли в решении задач. По крайней мере, я считаю, что это лучший подход при подготовке MVP. Яркий пример — прототипирование простых скриптов под микроконтроллеры на MicroPy или десктопных приложений на Electron. Но, как оказалось, это не все виды ухищрений в разработке.

Если вы веб-разработчик, но руки «чешутся» написать мобильное приложение, варианты есть. В этой статье я расскажу, как создать собственное прогрессивное веб-приложение (PWA) и доработать его до TWA, чтобы потом протестировать и опубликовать в разных сторах. Никакого rocket science, просто небольшое пособие, которое основывается на моем опыте. Подробности под катом.
Читать дальше →

Для архитекторов и аналитиков: шаблон описания архитектуры приложения (34 страницы пользы)

Level of difficultyEasy
Reading time3 min
Views29K

Архитектура программного обеспечения — основа, от которой зависят качество, производительность и масштабируемость систем. В статье шаблон от экспертов в области архитектуры программного обеспечения с типовыми описаниями и примерами архитектурных представлений. Шаблон доступен для скачивания.

Читать далее

Linux для начинающих: WSL — это читерство. Как Microsoft дал нам Linux без головной боли

Level of difficultyEasy
Reading time9 min
Views43K

В этой статье я хочу поделиться своим опытом настройки WSL для комфортной разработки, а также размышлениями о том, почему такой подход оказался для меня оптимальным. На это влияет несколько факторов.

Во-первых, иногда требуется специфический софт, который доступен только под Windows. Да, в других ОС могут быть аналоги, но зачастую они менее удобны или требуют дополнительной настройки.

Во-вторых, для разных проектов нужно разное окружение. WSL позволяет легко изолировать среды разработки, настраивая их под конкретные задачи или группы проектов. Это гораздо удобнее, чем держать несколько физических машин или постоянно переустанавливать систему.

Наконец, есть и субъективный фактор — привычка. Я с самого начала работал с Windows, и, несмотря на все преимущества Linux, полностью перестроить рабочий процесс оказалось сложно. WSL в этом плане — идеальный компромисс: Linux-окружение под рукой, но без необходимости отказываться от удобств Windows.

Читать далее

Больше нет входа в IT. Только выход

Reading time2 min
Views176K

2035 год. Мир больше не нуждается в тех, кто хочет просто войти в IT.

Всё началось с автоматизации простых задач. Сначала — тесты. Потом — верстка. Потом — интеграции, бэкенд, фронт, дизайн, продакт-решения. GPT-10 умел собирать целые MVP по описанию идеи в голосовом сообщении. Midjourney Designer Suite проектировал UI лучше, чем весь Dribbble вместе взятый. Запускать стартап стало делом десяти минут и кредитной карты.

Читать далее

Яндекс.Разврат или анти-этичный ИИ

Level of difficultyEasy
Reading time6 min
Views44K

tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается.

Читать далее

Как бороться с использованием ChatGPT студентами (не запрещая его прямо)

Reading time5 min
Views64K

Студенты обожают ChatGPT. В идеале, они хотят закоротить профессора и чатгопоту напрямую, то есть посылать задачу от профессора гопоте, пересылать ответ профессору, возражения слать гопоте назад итд - пока не получится решения. Лучше всего это делать скриптом, чтобы студент вообще не был вовлечен в решение задачи и занимался своими студенческими делами, пока чатгопота и профессор разговаривают.

Как же обломать крылья этой мечте? Запрещать чатгпт бессмысленно, но как сделать так, чтобы с чатгпт стало сильно труднее чем без него? Чтобы студенты пинали его и так и сяк, но решения бы не получалось, а вот у студентов, которые решили сесть и подумать сами - решение бы получалось?

Читать далее

Муки и страдания геймера при сборке бюджетного игрового ПК

Reading time11 min
Views18K

Всем привет в этой статье! Меня зовут Василий, я инженер по тестированию серверного железа в Selectel. Мне пришла мысль, что сборка персонального компьютера за 50 000 рублей — это вызов, на который решится не каждый уважающий себя геймер. Цены на комплектующие штормит, а купить железо некоторых производителей без танцев с бубном нельзя. В итоге такой бюджет становится золотой серединой для многих. Но как получить максимум за эти деньги? Ответ зависит от того, на что вы готовы: утонуть в этой яме с риском и желанием сэкономить или же выбрать гарантию и возможность апгрейда.
Читать дальше →

«В поисках железа»: что нужно для 3D и рендеринга в 2025

Reading time6 min
Views7.5K

В мото-сообществах порой можно услышать фразу: «Лучший мотоцикл — тот, который у тебя есть». И это правда: при желании можно уехать в путешествие как на литровом круизере Harley Davidson, так и на старой Jawa. Другой вопрос — кто приедет быстрее и будет лучше себя чувствовать на финише.

Ситуация с рабочими сетапами похожая. Кто-то использует новые и дорогущие 4080, кто-то — проверенные временем 1080, а кто-то — наслаждается жизнью в ожидании очередного рендеринга, который «вот-вот закончится, осталось всего 40 часов». К какой категории специалистов относитесь вы? Насчет себя промолчу — просто хочу рассказать про доступные сетапы для рендеринга и 3D-моделирования. Подробности под катом!
Читать дальше →

Умные замки: какие есть, как работают (и кто устанавливает)

Reading time8 min
Views96K


В старых добрых сериалах о космосе, вроде «Звездного пути», у людей напрочь отсутствовала паранойя. Почему? Они все поголовно пользовались умным замками. Подходит герой к двери — и та открывается. Прямо через научно-фантастический аналог Face ID. Сейчас умные замки уже существуют и работают. Рассказываем подробнее о типах умных замков, подводных камнях и конкретных устройствах.

Попалась тут задачка на поиск совпадений в строках (адреса)…

Level of difficultyEasy
Reading time7 min
Views1.9K

В рамках работ по "автоматизации процессов комплаенс-контроля" есть тема по поиску и фиксации совпадений по разным признакам между данными клиентов и данными "субъектов списков Росфинмониторинга" (разного рода террористы-экстремисты).

В данном случае - совпадения по адресам. Но не просто "адрес клиента равен адресу субъекта" - это было бы слишком просто, а "все уникальные элементы нормализованного адреса субъекта входят в адрес клиента" (но не наоборот). Порядок следования и наличие повторений эного элемента в адресе не играют роли.

Нормализация адреса - приведение его к верхнему регистру, удаление лишних пробелов и удаление всяких "город", "г.", "улица", "ул." и т.п. Т.е. "Российская Федерация, г.Мухосранск, ул.Коммунистический тупик, д.13, кв.666" нормализуется в "МУХОСРАНСК КОММУНИСТИЧЕСКИЙ ТУПИК 13 666". "Элементом" адреса является отдельное слово (разделенное пробелами).

Дабы облегчить себе жизнь, есть т.н. "витрины адресов" - три таблицы. В первой содержится идентификатор клиента/субъекта + идентификатор адреса (для субъектов есть еще т.н. "ключевое слово" - элемент адреса субъекта, который реже всего встречается в витрине адресов клиентов). Во второй - набор связей адрес-элемент - идентификатор адреса + идентификатор элемента + номер элемента в строке адреса. И в третьей - список элементов - элемент + идентификатор элемента. Т.о. имеем две "витрины" - адреса клиентов и адреса субъектов.

На промсреде витрина адресов клиентов содержит порядка 96млн адресов. Витрина адресов субъектов - порядка 8тыс адресов. Сравнить надо всех со всеми - 768млрд комбинаций где-то...

Читать далее

Гриды в Битрикс24: теперь не нужно искать  сторонние решения

Level of difficultyHard
Reading time15 min
Views6.7K

Всем привет! Меня зовут Илья, я разработчик в Битрикс24. В последнее время наша команда стремится быть прозрачнее и делиться изменениями в продукте. Мы хотим, чтобы разработчики, использующие Битрикс24, быстрее узнавали об обновлениях и имели на руках актуальную документацию. Это поможет меньше велосипедить и искать решения на стороне.

Об одном из них, простом и полезном, расскажу сегодня. Ранее у нас не было хорошо задокументированного коробочного решения по гридам. Если стояла задача вывести в публичной части информацию в виде таблиц, мы вручную пилили шаблоны для элементов и искали костыли для сортировки данных. Проблема возникала часто: например, если нужно было вывести список товаров, сделок или клиентов, а еще лучше — интерактивные списки.

Впереди мало слов и много кода. Если останутся вопросы или замечания, жду вас в комментах.

Читать далее

Моя первая карта на Leaflet.js

Reading time4 min
Views45K
Как я делал свою первую карту на Leaflet.js.

Я ничего не понимаю в картографии и геоинформационных сервисах, поэтому эта статья будет скорее ознакомительная и в помощь новичкам, так как многой информации на русском языке в интернете по-моему нету, а до какой-то я дошел случайно.

Итак задание было следующее: есть черно-белый планшет (маленький кусок карты города) размером 5913x7863 пикселей в формате .bmp + .shp слои.
(изначально карты были отрисованы в формате .dwg (формат автокада), но это закрытый формат и с ним ничего не сделаешь, поэтому ребятам пришлось сохранить каждый слой отдельно в .shp + атрибутивные данные в .dbf)

Из этого всего нужно сделать онлайн карту, основной функционал которой — это вывод атрибутов при нажатии на слой и включение/отключение этих слоёв.

Выбор пал на leaflet.js, так как это оболочка с открытым кодом, на ней сделаны OSM и мой любимый 2GIS. К тому же он хорошо работает на мобильных устройствах.
Читать дальше →

Я провел 50+ интервью с малым бизнесом за год, и у меня есть выводы: исследование

Level of difficultyEasy
Reading time11 min
Views19K

Чуть больше года я выкладывал здесь интервью с предпринимателями — вы можете почитать их в аккаунте. Я не планирую завершать, но по первым 50 собрал выводы.

Это исследование бизнеса, но пока качественное, а не количественное. Это значит, что цифр с процентами здесь не будет — это было бы не репрезентативно. Но будут закономерности, которые есть у нескольких респондентов. У меня даже есть своя теория!

Я объясню, как сделано это исследование: как собирались предприниматели, как я искал главную проблему в каждом из 50+ случаев, как систематизировал итоговую таблицу и где тут думал я, а где нейросеть.

Читать далее

PostgreSQL 17: уже можно просто делать бекапы и перестать страдать?

Reading time10 min
Views19K

Так исторически сложилось, что задача организации простого и понятного резервного копирования в мире PostgreSQL до сих пор не решена. Есть набор комьюнити утилит, у каждой из которых есть некие плюсы, но всегда в нагрузку будет прорва минусов (тут нет инкрементных копий, там нет внятного расписания, это может только весь сервер вместо конкретной базы увозить и так далее). Да, есть тяжёловесный энтерпрайзный софт за много денег, зачастую требующий странного и работающий по какой-то своей логике, но это тоже не панацея. А вот чтобы просто и понятно, без головных болей организовать прозрачный процесс банального бекапа с инкрементами, работающим расписанием и восстановления только того что надо - вот такого нет.

Но буквально на днях вышел PostgreSQL 17 и может там что-то изменилось? И да, и нет. Та самая мана небесная в виде pg_awesome_backup_tool так и не появилась, однако в релиз попал механизм walsummarizer, который обещает нативно отслеживать изменения в файлах баз данных, что позволит делать инкрементальные бекапы нативно и без лишних приседаний.

А чтобы не рассматривать новичка в вакууме, будем сравнивать его с ptrack - нашей (Postgres Professional) разработкой, которую наши любимые конкуренты уже расхватали в свои продукты и продают их как уникальнейшие решения.

Читать далее
1
23 ...

Information

Rating
Does not participate
Location
Россия
Registered
Activity