Как стать автором
Обновить
@ni-coread⁠-⁠only

Пользователь

Отправить сообщение

100 вопросов для подготовки к собесу Data Science

Уровень сложностиСредний
Время на прочтение98 мин
Количество просмотров51K

Доброго времени суток!

Представляю вашему вниманию чек-лист из 100 вопросов по Data Science. Вопросы покрывают 5 областей: SQL, Python, Machine Learning, статистику и собственно саму DS.

Кому это вообще может быть полезно?

Читать далее
Всего голосов 17: ↑15 и ↓2+13
Комментарии10

Разворачиваем MPI кластер на Linux

Время на прочтение4 мин
Количество просмотров4.6K

Сейчас любое серьезное приложение, работающее в продуктивной среде требует обеспечение высокого уровня надежности функционирования. Обеспечение такой надежности требует использования ряда средств, таких как отказоустойчивые каналы связи, наличие дублирования источников питания и т. д. Но наиболее важным элементом обеспечения надежности является создание отказоустойчивой конфигурации серверов, на которых работает данное приложение.   

Совершенно очевидно, что если приложение запущено на одном сервере, то в случае его отказа приложение будет недоступно до тех пор, пока не будет исправлен сбой сервера. Основная задача кластеризации это устранение данной ситуации с помощью своевременного, обнаружения аппаратных и программных сбоев и немедленно переключение на другой узел кластера – это процесс, известный как отработка отказа.

Существует много различных вариантов создания кластеров под Linux. Мы будем использовать MPI (Message Passing Interface) для обеспечения взаимодействия между узлами нашего кластера.

Читать далее
Всего голосов 18: ↑14 и ↓4+10
Комментарии6

Задача коммивояжёра — ещё немного больше, ещё немного быстрее

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров7.7K

И снова здравствуйте, уважаемые читатели Хабра. Мы продолжаем наше путешествие в мир алгоритмов поиска оптимального пути.

В прошлой работе мы уже узнали, как можно найти оптимальный путь в графе в несколько сотен вершин. В данной работе хочу более подробно остановится на сути метода, а также разобрать возможность по его ускорению на графах от тысячи элементов.

Читать далее
Всего голосов 23: ↑23 и ↓0+23
Комментарии1

Как будем обогревать умную дачу?

Время на прочтение8 мин
Количество просмотров20K

За окном январь и холодно. Но весна уже скоро, и в голову приходят мысли о том, что хочется сделать на даче. В первое дачное межсезонье я был озабочен покупкой необходимых устройств – инструментов, насосной станции и косилки. Во второе озаботился нормальным забором (у нас тогда была покосившаяся рабица). Сейчас – третье, и больше всего меня волнует, что на даче нет отопления. А я бы с удовольствием провел на ней рождественские каникулы ☹.

Важно: сегодня я пишу не о том, что сделано, а о том, что предстоит сделать. Все это – пока проекты в голове и на бумаге, и я буду весьма признателен за конструктивную критику идей.

Читать далее
Всего голосов 15: ↑14 и ↓1+13
Комментарии126

Умная консоль для WoW 3.3.5a

Время на прочтение1 мин
Количество просмотров5.4K

Начну с того, что я написал на Rust консольный клиент для WoW. В текущий момент он работает в режиме прослушки пакетов и может быть использован, как бот. В дальнейшем планируется усовершенствовать ручную отправку пакетов. Что именно на данный момент реализовано...

Читать далее
Всего голосов 14: ↑8 и ↓6+2
Комментарии11

Введение в извлечение сущностей из текста и NER

Время на прочтение3 мин
Количество просмотров8K

Извлечение информации означает создание структурированных данных из неструктурированного текста. На практике задача может выглядеть так: нужно автоматически создать запись в календаре исходя из текста письма, как на рисунке ниже.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии4

Теперь наш синтез на 20 языках

Время на прочтение7 мин
Количество просмотров12K

hero_image


В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.


В этот раз мы добавили:


  • 1 высококачественный голос на русском языке (eugeny);
  • Синтез на 20 языках, 174 голоса;
  • В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;
  • В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;
  • Также в список языков входят 10 языков народов Индии;
  • Новую значительно улучшенную модель для простановки ударений и буквы ё со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);
  • Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;

Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →
Всего голосов 65: ↑63 и ↓2+61
Комментарии24

Нейронные сети в кибербезопасности — текстовая модель с низкой задержкой, сохраняющая конфиденциальность

Время на прочтение4 мин
Количество просмотров3.4K

Для начала пару слов об обработке текстовой информации, рекуррентных сетях и методах защиты конфиденциальности пользователя.

Рекуррентные нейронные сети (Recurrent Neural Networks, RNNs) — популярные модели, используемые в обработке естественного языка (NLP). Идея RNN - в последовательном использовании информации. В классических нейронных сетях имеется ввиду, что все входы и выходы автономны. Но для предсказания следующего слова необходимо иметь представление о предыдущем - для этого отлично подходят RNNs, которые выполняют одинаковые задачи для каждого элемента последовательности (или грубо говоря сети с "памятью", которая учитывает прошлую информацию).

Читать далее
Всего голосов 27: ↑25 и ↓2+23
Комментарии0

Построение тепловой карты именованных сущностей

Время на прочтение3 мин
Количество просмотров1.6K

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др.

Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы и может повысить качество классификации (или кластеризации). Предлагаем разобраться, как можно получить и использовать координаты именованных сущностей в документе.

Возьмем бланк одностраничного согласия на обработку персональных данных

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии0

Ядовитые декоративные растения в саду и огороде. Справочник

Время на прочтение16 мин
Количество просмотров44K
Внимательный читатель уже успел поискать цикуту на близлежащих водоемах и прикинуть опасность, которой подвергался, покупая с рук весной черемшу. Теперь пришло время заглянуть в собственный огород и палисадник. Ибо пока мы за своими компьютерами с ужасом думаем "как страшно жить из-за этих ядовитых растений", на даче бабушка тихо себе выращивает «цветочки», токсинам которых могут позавидовать многие дикорастущие позиции из справочника «Ядовитые растения и животные СССР»… Так что, продолжаем идентификацию фитотоксинов с Telegram-лабораторией LAB-66 и читаем под катом про садово-огородные «декоративные» яды.


Прошерстить палисадник!
Всего голосов 36: ↑34 и ↓2+32
Комментарии75

Алгоритмы сортировки NumPy (и танцы, и мемы)

Время на прочтение5 мин
Количество просмотров6.3K

Вместо предисловия:

Да, наверное, нет более избитой темы, чем алгоритмы сортировки. Однако, меня в свое время так увлек процесс разбора того, какие алгоритмы задействованы в NumPy, что захотелось всем об этом рассказать. Возможно, слишком мелкая вещь, возможно, занудство какое-то, но тешу себя надеждой, что материал может быть полезным для тех, кто тему только начал! Особенно для таких же людей, как я, перешедших из смежных сфер (из телекома, например), где алгоритмы и структуры данных могут попросту не изучаться (бывает и такое). Если где-то что-то напутал (или наоборот материал оказался для вас полезным), буду рад обратной связи!

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии6

Портативные вычисления: самые известные советские калькуляторы

Время на прочтение6 мин
Количество просмотров30K

Привет, Хабр! Недавно вспомнила, что мое знакомство с электронно-вычислительными приборами началось с момента, когда я пришла к маме на работу. Она была инженером в одном из НИИ, и у нее был очень классный рабочий стол. Там было много всяких штук, но одна мне запомнилась больше всего — это был калькулятор.

То есть это сейчас я знаю, что это был калькулятор, но тогда я не знала ничего о вычислительных приборах. Но он, этот прибор, меня поразил. Во-первых, калькулятор казался огромным. Во-вторых, у него было множество кнопок. В-третьих, на передней панели светились циферки, и они реагировали на нажатие кнопок. Сейчас я понимаю, что это была одна из моделей серии «Электроника». Потом появились и другие интересные калькуляторы. Обо всем этом и поговорим под катом.
Читать дальше →
Всего голосов 79: ↑77 и ↓2+75
Комментарии78

Отец искусственного интеллекта Джефф Хинтон: «Глубокое обучение сможет делать всё»

Время на прочтение5 мин
Количество просмотров8.7K
В преддверии старта нового потока курса «Machine Learning Pro + Deep Learning», делимся с вами переводом интервью MIT Technology Review с профессором Джеффри Хинтоном, который в 2012 году со своими студентами победил на ImageNet, применив глубокое обучение и добившись таким образом невероятного отрыва от соперников. В своё время его взгляды были противоположны взглядам большинства. Теперь всё иначе. Что профессор думает о развитии искусственного интеллекта, о различных подходах к нему? Об этом под катом.


Приятного чтения!
Всего голосов 19: ↑18 и ↓1+17
Комментарии1

Наглядно о том, как работает свёрточная нейронная сеть

Время на прочтение6 мин
Количество просмотров40K

К старту курса о машинном и глубоком обучении мы решили поделиться переводом статьи с наглядным объяснением того, как работают CNN — сети, основанные на принципах работы визуальной коры человеческого мозга. Ненавязчиво, как бы между строк, автор наталкивает на размышления о причинах эффективности CNN и на простых примерах разъясняет происходящие внутри этих нейронных сетей преобразования.

Читать далее
Всего голосов 19: ↑15 и ↓4+11
Комментарии8

Наглядно о том, как работает NumPy

Время на прочтение8 мин
Количество просмотров29K

Есть тексты, похожие на вино или динамит: с годами они не стареют, а напротив приобретают вес и значимость. Сегодня, к старту флагманского курса о Data Science, мы решили поделиться переводом визуального учебного руководства о NumPy 2019 года, прочитав которое даже не слишком близкий к математике человек поймёт, как работает эта библиотека Python. Если вы не хотите долго объяснять NumPy, но делать это всё равно приходится, положите статью в закладки и она сэкономит ваше время.

Читать далее
Всего голосов 20: ↑19 и ↓1+18
Комментарии8

Мы стоим на пороге кризиса «Фальшивой науки»

Время на прочтение9 мин
Количество просмотров54K


Журналы все чаще отзывают научные статьи, потому что оказывается, что написаны они не теми, кем заявлено. Необходимо выработать более эффективные способы решения проблемы, в противном случае мы рискуем полностью утерять общественное доверие к науке.
Читать дальше →
Всего голосов 84: ↑77 и ↓7+70
Комментарии372

Языковой сервер Pylance вышел в релиз

Время на прочтение4 мин
Количество просмотров14K

Мы рады объявить, что Pylance, наша быстрая и многофункциональная языковая поддержка Python в Visual Studio Code, официально вышла из предварительной версии и достигла своего первого стабильного выпуска.

Ранее на этой неделе мы объявили, что, начиная с майского выпуска расширения Python, Pylance теперь также является сервером языка Python по умолчанию в Visual Studio Code. Pylance также теперь включен в пакет расширения ядра Python в качестве дополнительной зависимости, что означает, что мы автоматически установим его для вас, но у вас есть возможность использовать другой языковой сервер по вашему выбору.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии14

Топ 6 библиотек Python для визуализации: какую и когда лучше использовать?

Время на прочтение13 мин
Количество просмотров62K

Если вы только собираетесь начать работу с визуализацией в Python, количество библиотек и решений вас определенно поразит:

- Matplotlib

- Seaborn

- Plotly

- Bokeh

- Altair

- Folium

Но какую из этих библиотек лучше выбрать для визуализации DataFrame? Некоторые библиотеки имеют больше преимуществ для использования в некоторых конкретных случаях. В этой статье приведены плюсы и минусы каждой из них. Прочитав эту статью, вы будете разбираться в функционале каждой библиотеки и будете способны подбирать для ваших потребностей оптимальную.

Читать далее
Всего голосов 19: ↑19 и ↓0+19
Комментарии3

Почему машинному обучению с трудом дается причинно-следственная связь?

Время на прочтение10 мин
Количество просмотров6.8K

Эта статья является частью наших обзоров исследовательских работ в области ИИ, серии публикаций, в которых исследуются последние открытия в области искусственного интеллекта.

Просматривая следующую короткую видеопоследовательность, вы естественным образом можете сделать выводы о причинно-следственных связях между различными элементами в ней. Например, вы можете наблюдать, как бита и рука бейсболиста движутся в унисон, и вы знаете, что именно рука игрока вызывает движение биты, а не наоборот. Вам также не нужно объяснять, что это бита вызывает резкое изменение траектории мяча.

Точно так же вы можете представить альтернативные сценарии, например, что произошло бы, если бы мяч пролетел немного выше и не попал в биту.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

Матрица-Перематрица

Время на прочтение10 мин
Количество просмотров8K

Работа нейронной сети основана на манипуляциях с матрицами. Для обучения используются разнообразные методы, многие из которых выросли из метода градиентного спуска, где необходимо умение обращаться с матрицами, вычислять градиенты (производные по матрицам). Если заглянуть “под капот” нейронной сети, можно увидеть цепочки из матриц, выглядящие зачастую устрашающе. Проще говоря, “нас всех подстерегает матрица”. Пора познакомиться поближе.

Для этого сделаем следующие шаги:

рассмотрим манипуляции с матрицами : транспонирование, умножение, градиент;

построим игрушечную нейронную сеть;

познакомимся с методом обратного распространения ошибки с использованием метода градиентного спуска.

Все шаги сопровождаются примерами кода с использованием только NumPy . Вычисления, не выходящие, впрочем, за рамки элементарной математики, приведены подробно. За индексами придется внимательно следить, но не отчаивайтесь, просто представьте, что каждый индекс - винтик, который надо закрутить, следуя простым правилам, но не пропустить. Если вдруг не разберетесь, ничего страшного - одно из двух: либо сбой в матрице, либо одно из двух.

Red pill
Всего голосов 9: ↑8 и ↓1+7
Комментарии0
1
23 ...

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность