Search
Write a publication
Pull to refresh
0
0
Send message

T-one — открытая русскоязычная потоковая модель для телефонии

Level of difficultyHard
Reading time14 min
Views3.7K

Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.

В русскоязычном сегменте давно не хватает открытых моделей распознавания речи, которые можно было бы быстро кастомизировать под реальные задачи. Более того, почти все доступные модели работают офлайн и не адаптированы под специфику телефонии. Поэтому мы решили опубликовать собственную потоковую акустическую модель с кодом для ее инференса и дообучения, а еще выложить 5-граммную языковую модель.

Акустическая модель является по-настоящему потоковой, легковесной, производительной и обгоняет по качеству более крупные открытые офлайн-модели в телефонии.

В статье расскажу, как устроена потоковая модель распознавания, как и на чем ее обучали и как ее можно использовать.

Читать далее

Как я сделал агрегатор IT-вакансий и получил 30 000 уников в месяц, не написав ни строчки кода

Level of difficultyEasy
Reading time8 min
Views1.8K

Всем привет! Меня зовут Антон, я не разработчик и никогда им не был. Я продуктовый дизайнер, а до этого 6 лет руководил клиентским саппортом в сервисе с 1 млн клиентов. Работал в UnaBank, Точка Банк, Whoosh, X5 Retail Group — проектировал сервисы, админку, в общем, в digital-направлении. И давно хотел сделать свой продукт.

Идей было много, но либо в голове возникал целый комбайн, для которого нужна команда разработки, либо не складывалось что-то ещё. Но вот будущее настало. Наступило время вайб-кодинга. А это значит, что можно в две руки написать весь фронт, бэк, тест-кейсы, админку… что я и сделал, и всё это за несколько недель. Сейчас я расскажу вам подробнее.

Читать далее

Разработка высоконагруженных API: проблемы, решения, практические рекомендации

Level of difficultyMedium
Reading time14 min
Views19K

Ваш проект взлетел. Первые пользователи превратились в тысячи. Тысячи стали десятками тысяч. Метрики в дашбордах рисуют красивую кривую, устремленную вверх. Но есть и другие кривые, которые ползут вверх с не меньшей скоростью. Время ответа сервера. Количество ошибок 502 и 504.

То, что летало на ста запросах в секунду, начинает задыхаться на десяти тысячах. Это не ошибка, это физика. Архитектура для этих двух миров — это как велосипед и грузовой поезд. Они оба едут, но задачи у них разные. Так что давайте забудем про теорию и посмотрим, где обычно рвется и как это чинить, чтобы не переписывать все с нуля каждый раз, когда у вас прибавляется нолик в статистике пользователей.

Читать далее

Основы ETL на примере работы с Superset, Airflow и ClickHouse

Reading time39 min
Views5.2K

В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения.

В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries.

Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

Читать далее

Все о блокировках VPN за последние две недели

Reading time3 min
Views135K

Всем привет!

Это команда Amnezia, и мы тут, чтобы ответить на самые часто задаваемые вопросы в связи с участившимися блокировками.

Мы уже две недели активно изучаем текущую ситуацию, тестируем разные технологии и можем рассказать о том, что нам удалось узнать и что мы сделали, чтобы наши сервисы работали как и прежде.

Если интересно только то, что сейчас работает - перейдите в конец статьи.

Читать далее

Вы все еще документируете сваггер спецификации вручную? Тогда мы идем к вам

Reading time3 min
Views8.6K

Я сделал расширение для хрома, чтобы документировать сваггер спецификации. Полезно для ситуаций, когда код уже написан и используется, а на описание API не хватает ресурсов. По задумке должно экономить тонны тупого монотонного ручного труда. Попробовать воспользоваться можно здесь. Код лежит здесь.

Читать далее

Шаг за шагом проектируем сокращатель ссылок

Level of difficultyEasy
Reading time8 min
Views7.7K

В этой статье я хочу показать, что из себя представляет System Design. На примере простого и очень популярного на собеседованиях сервиса «Сокращатель ссылок», мы рассмотрим стадии System Design и в конце у нас будет готова схема системы со всеми расчетами.

Вперед!

Как я собеседовался в Ozon, Т-Банк, Mindbox и другие крупные компании

Level of difficultyEasy
Reading time25 min
Views140K

Всем привет. Я сеньор и тимлид на .NET (C#). До недавнего времени работал в Росатоме, пока там внезапно не сократили целую дирекцию по цифровизации. Так что пришлось срочно выходить на рынок, причём, впервые в моей жизни (до этого работа находила меня сама). По результатам нескольких циклов собеседований получился неплохой дневник, который я здесь привожу.

История длинная, но интересная

История создания процессора ARM: от амбициозного проекта до сердца цифровой революции

Level of difficultyEasy
Reading time10 min
Views5K

В 1983 году небольшая британская компания Acorn Computers переживала свой звездный час. Успех был обусловлен контрактом с вещательной корпорацией BBC на производство компьютера BBC Micro. Машина создавалась для национального телевизионного шоу, посвященного компьютерной грамотности, и ее популярность превзошла все ожидания. Прогнозируемые объемы продаж превысили 1,2 млн экземпляров, а сам BBC Micro на долгие годы стал доминирующей силой в образовательном секторе Великобритании.

Однако на фоне этого триумфа рынок персональных компьютеров стремительно менялся. Сегмент 8-битных машин, где блистал BBC Micro, оказался перенасыщен. Из Соединенных Штатов надвигались новые, куда более мощные конкуренты — IBM PC и готовящийся к выходу Apple Macintosh. Эти устройства задавали совершенно иной стандарт производительности и возможностей…
Читать дальше →

Software 3.0: теория Карпатого vs реальность

Level of difficultyEasy
Reading time7 min
Views3.2K

«Самый горячий язык программирования сегодня — английский», — заявил Андрей Карпатый в своей лекции о Software 3.0. Звучит как мем, но за этой фразой стоит серьезная концепция эволюции разработки ПО.


Карпатый предложил простую, но мощную модель: как мы дошли от написания кода на C++ до промптов на естественном языке. При этом сама концепция остается спорной — одни называют её «новой операционной системой», другие видят дорогой эксперимент с непредсказуемым поведением.


Разобрал лекцию, убрал пафос и оставил практические выводы для разработчиков, продакт-менеджеров и CTO, которые решают, когда и как внедрять LLM в свой продукт. Ниже — основные тезисы Карпатого и контраргументы из реальной практики.

Читать дальше →

Диаграмма потоков данных (DFD) для чайников: что это такое, как сделать и какой бывает

Level of difficultyEasy
Reading time5 min
Views6K

Диаграмма потоков данных (DFD) — схема, которая показывает, где информация застревает, дублируется или исчезает в никуда. Со стороны такая схема может казаться архаикой — зачем рисовать стрелочки, если можно сразу писать код? Ответ прост: исправлять проблемы в уже написанном коде дороже, чем на этапе проектирования.

В статье собрали основу про DFD для тех, кто с ней не сталкивался: зачем ее используют и как изображают.

Читать далее

Пирамида Минто в ИТ: как быстро добиваться результата в разговоре с коллегами?

Reading time4 min
Views5.3K

Что делать, если ваш руководитель не может найти для вас 5 минут?

Привет, Хабр! Меня зовут Мария Архипова, я работаю в департаменте информационных технологий РСХБ-Интех и активно занимаюсь развитием soft skills в ИТ. Иногда ИТ-специалисты сталкиваются с трудностями в коммуникации как внутри своих команд, так и с другими отделами. Я начала исследовать различные подходы к улучшению коммуникаций на примере своей команды в РСХБ и в этой статье хочу поделиться опытом.

Читать далее

Шум вокруг ИИ подобен парадоксу Солоу

Level of difficultyEasy
Reading time4 min
Views18K

Прогнозы о том, что ИИ внезапно повысит производительность, пугающе похожи на те, что звучали после появления компьютеров на рабочих местах. Тогда нам говорили, что новые чудодейственные машины автоматизируют большую часть «белой» работы, что приведёт к созданию экономной цифровой экономики.

Перенесёмся на 60 лет вперёд, и мы увидим то же самое. Вскоре после дебюта ChatGPT в 2022 году исследователи из Массачусетского технологического института заявили, что сотрудники будут на 40% более продуктивными, чем их коллеги без ИИ.

Эти утверждения могут оказаться не более убедительными, чем наивные прогнозы эпохи «Безумцев». Тщательное исследование, опубликованное Национальным бюро экономических исследований в мае, показало, что экономия времени составила всего 3%, в то время как другие исследования показали, что использование ИИ для когнитивной работы высокого уровня приводит к снижению мотивации и ухудшению состояния сотрудников.

Мы наблюдаем зарождение ещё одного «парадокса продуктивности» — термина, придуманного для описания того, как неожиданно снизилась продуктивность в первые четыре десятилетия информационной эпохи. Положительным моментом является то, что извлечённые тогда уроки могут помочь нам ориентироваться в наших ожиданиях в настоящее время.

Читать далее

5 причин, почему ваши Story Points не работают (и что делать)

Level of difficultyEasy
Reading time4 min
Views6.6K

За семь лет проведения воркшопов по Story Points я наблюдаю одну и ту же картину: команды изучают технику, применяют её несколько спринтов, а затем постепенно возвращаются к старым паттернам. И если на маленьких масштабах работы с одной командой или тремя кажется что Story Points прекрасный подход, на текущем масштабе — около 50 команд в IT — 60% используют Story Points, 40% не используют - я вижу совершенно иную картину. И вот что интересно: те 60%, которые используют, делают это крайне по-разному.

Причем конверсия в правильное использование Story Points 3 месяца после тренингов составляет дай бог 20%. Проблема не в самом инструменте, а в том, как мы его используем и для каких целей.

Читать далее

Юра, мы всё: как Россия проиграла новую космическую гонку

Level of difficultyEasy
Reading time10 min
Views79K

Пока Роскосмос кормит страну обещаниями о “возвращаемых” ракетах через пару лет, Honda уже посадила свою. Да, та самая Honda, которая делает мопеды и Civic. И это не единичный случай: Китай выводит на орбиту десятки аппаратов, SpaceX штампует запуски как часы, а в России — падение и десятки лет разработок в никуда.

Читать далее

Ansible для людей: автоматизировал и выдохнул

Level of difficultyMedium
Reading time8 min
Views19K

Одна команда — и сервер настроен. Я больше не лезу вручную и не повторяю одно и то же десятки раз. Внутри рассказано о том, как Ansible помогает автоматизировать задачи, от настроек до деплоя.

Читать далее

Штрафуем рёбра: новая логика перестроения маршрутов в 2ГИС

Reading time4 min
Views4.3K

Что, если навигатор перестанет упрямо твердить «Развернитесь!», когда  вы свернули с маршрута и предложит новый, более вам подходящий?

Изначально мы хотели решить этот конкретный кейс, ведь слишком прямолинейный алгоритм не допускал, что пользователь может намеренно выбрать другой путь, и всегда стоял на своём. Решать проблему начали с логики перестроения и реализовали алгоритм дискриминации маршрута. По сути, этот алгоритм научился строить маршруты, которые не были похожи на изначальный.

Узнать подробнее

Инструмент для маппинга: Решение проблемы для системного аналитика

Level of difficultyEasy
Reading time3 min
Views9.1K

В жизни каждого системного аналитика наступает момент, когда он открывает две вкладки: слева – Swagger с контрактом системы А, справа – Confluence с контрактом системы Б. Между ними – пустая Excel-таблица, либо ещё одна вкладка Confluence. Задача – простая, как мир: смаппить поля.

И начинается знакомый ритуал: скопировать атрибут из одного места, вставить в другое. Ctrl+C → Ctrl+V, снова и снова. Одно неверное движение или опечатка — и через пару дней от разработчика прилетит таск с комментарием «маппинг не работает, проверь пути».

Так родилась идея десктопного приложения для маппинга...

Читать далее

Как превратить бизнес-требования в эффективную схему БД без жертв

Level of difficultyMedium
Reading time9 min
Views2.6K

Научимся превращать бизнес-требования в рабочую схему БД и документировать ключевые решения! Без недопонимания, технического долга и смс.

Читать далее

Андрей Карпатый: «ПО снова меняется (и опять радикально)»

Level of difficultyEasy
Reading time12 min
Views13K

Представьте карту всего кода в мире: GitHub, Hugging Face... Но что, если я скажу, что самая захватывающая часть этой карты сейчас даже не код, а промпты? Программное обеспечение снова меняется радикально, и на этот раз естественный язык становится новым языком программирования.

В этой статье, записанной по выступлению Андрея Карпатого на конференции AI Startup School, мы разберём, как радикально меняются парадигмы разработки, почему LLM — это не просто «новое электричество», а сложные экосистемы и как концепция «частичной автономии» определяет будущее приложений. Будущее ПО уже здесь, и оно говорит на вашем языке.

Читать далее
1
23 ...

Information

Rating
Does not participate
Registered
Activity