Комментарии / Профиль khmelkoff / Хабр

Игорь Хмельков@khmelkoff

Data Scientist

Рейтинг

Подписчики

ПрофильСтатьи12ПостыНовостиКомментарии52

khmelkoff 12 апр 2021 в 08:04

Они тренируют модель на патчах 70x70, а потом применяют на больших картинках через full convolution. Забавно, что 70x70 дает в среднем результаты лучше, чем делать сразу на всей картинке 256x256 целиком.

Судя по «пейпер», это не совсем так. Речь идет об архитектуре дискриминатора, а не об обучении модели на маленьких картинках. Смысл — если сравнивать фейк и рил попиксельно, то результат будет хуже, чем если сравнивать изображения, нарезанные на патчи 70х70. Там это называет receptive field sizes of the discriminator.

Краткость — сестра таланта: Как сделать Transformer/Summarizer на Trax

khmelkoff 11 апр 2021 в 12:48

Здравствуйте! Код выложил весь, должно запускаться на Colab прямо из репозитария. На 8Гб не пробовал, думаю, должно хватить. У меня в 8 помещается RuBERT при размере текста в 64 токена, а там в 6 раз больше параметров. В крайнем случае попробуйте другую модель. В этой статье трансформер из отдельных блоков, но по сути это TransformerLM из репозитария trax, можно попробовать ReformerLM, он как раз сделан чтобы экономить память. Вот здесь я с ним экспериментирую. Правда он капризничает при загрузке весов. Написал в статье как справиться.

Отбор признаков в задачах машинного обучения. Часть 1

khmelkoff 6 апр 2021 в 14:39

Хорошая статья, но покритикую формулировку:

Кроме этого, все шумовые признаки имеют высокую важность, сравнимую с двумя оригинальными

0.04 — достаточно низкая важность. Признак, во всех узлах, где на его основе происходит разбиение, снижает impurity на 4% от общего снижения по всем узлам и всем признакам. Если говорить о шумовых признаках, то есть более простой способ — пермутация значений в колонке исследуемого признака. Разница между качеством модели и средним качеством после нескольких пермутаций как раз дает примерную оценку важности. Этот способ часто используется в задачах с медицинскими данными.

Как сделать трансформер чат-бот на Trax?

khmelkoff 22 мар 2021 в 07:56

Для того чтобы что-то попробовать, на мой взгляд вполне подходящий. А Вы по каким критериям судите? Логика диалога соблюдается, может слишком много оборотов типа «А у тебя?», «А ты?» Но я бы наверно «пожаловался» на не слишком удачный формат и сложною фильтрацию, если нужна. Мне попадался датасет с диалогами из советской литературы, вот там действительно треш).

Почему алгоритмы ML так трудно настраивать?

khmelkoff 20 фев 2021 в 15:28

Коллеги, в заголовке последовательность слов «так ML трудно» — это задумка автора, подчеркивающая сложность настройки алгоритмов, или опечатка?

Контроль над браслетом в ритме BlueZ

khmelkoff 6 дек 2016 в 14:14

Комментарий удален

Препарируем t-SNE

khmelkoff 27 окт 2016 в 11:47

Отлично!

Контроль над браслетом в ритме BlueZ

khmelkoff 8 фев 2016 в 09:32

Когда браслет обменивается информацией с телефоном, к нему нельзя подключиться. Так что только по очереди.

Контроль над браслетом в ритме BlueZ

khmelkoff 5 фев 2016 в 11:27

вот и вот Но про акселерометр там ничего толкового нет, что-то вроде:
0xFF0E read notify SENSOR_DATA, и всё.

Контроль над браслетом в ритме BlueZ

khmelkoff 4 фев 2016 в 13:48

LED в новой версии уже не цветные, а белые, во всяком случае нет ни одного штатного режима, который показал бы обратное. Подозреваю, что теперь предусмотрен только один режим — индикация значения по схеме: первый мигает — остальные выключены, первый включен — второй мигает, два включены — третий мигает, три включены. Индикация работает при спаривании со смартфоном, заряде батареи и контроле прогресса (взмахом руки).

Что касается акселерометра, данные можно было получить в старой версии в режиме нотификации. Сейчас не понятно по какому адресу искать. Анализ трафика показывает, что смартфон разрешает браслету четыре нотификации, одна из которых это сердечный ритм. Можно посмотреть на три оставшиеся. Если получится, проверю и сделаю update.

Контроль над браслетом в ритме BlueZ

khmelkoff 4 фев 2016 в 09:23

Анонимное устройство не может получить пульс, но может его подслушать. Также нельзя скачать с браслета данные пользователя (но тоже можно подслушать), остальное раздается всем кто попросит. Используется минимальный уровень безопасности, хотя, например, уже на следующем уровне — middle, данные начинают шифроваться.

Контроль над браслетом в ритме BlueZ

khmelkoff 4 фев 2016 в 08:45

Вроде можно мерить непрерывно, используя приложение в смартфоне (не пробовал). Но нужно понимать, что измерение пульса при помощи оптического датчика отличается от режима измерения нагрудным датчиком, если он электрокардиографический. Цикл измерения браслетом это примерно 15 секунд, потом данные усредняются и отправляются в виде нотификации. Есть не мало моделей браслетов, которые начинают измерять пульс непрерывно, после нажатия кнопки на браслете.

Контроль над браслетом в ритме BlueZ

khmelkoff 3 фев 2016 в 12:42

Поясните пожалуйста, что вас интересует. Использование user info из телефона? Вот:

Один из исследователей предыдущей версии браслета в своем блоге написал, что не все сервисы могут быть доступны анонимному устройству. Насколько я смог разобраться, в ряде случаев устройство, взаимодействующее с браслетом, должно передать в браслет корректную информацию о пользователе, которая частично хешируется при спаривании со смартфоном.

Еще вот:

Соединение в интерактивном режиме без спаривания обычно длится секунд 20. Это так называемый низкий уровень секретности

Браслет с малиной работает без спаривания, это security=low в gatttool по умолчанию.

Практически вся информация с браслета доступна любому анонимному устройству, кроме измерения пульса, для этого нужно представиться телефоном и отправить на браслет данные пользователя.

Контроль над браслетом в ритме BlueZ

khmelkoff 3 фев 2016 в 10:25

Да, работа с малиной не портит профиль браслета в телефоне, так как используется user info телефона. Собственно, браслет «думает», что малина — это телефон. Ретранслятор? Я не подобрал правильного термина — задача малины принять данные от браслета и передать в облако.

Контроль над браслетом в ритме BlueZ

khmelkoff 3 фев 2016 в 08:22

Разобрать MIBand не думал, на форумах пишут, что производитель её всё больше обфусцирует с каждой новой версией. Смысл, если все потом передается в открытом виде? Да, есть еще очень много интересного, чего не попробовал, PyGATT, например, или вот ребята пишут мибанду (https://bitbucket.org/OscarAcena/mibanda) — библиотеку для доступа к браслету из Python. NodeJS — очень интересно, обязательно посмотрю, спасибо.

Контроль над браслетом в ритме BlueZ

khmelkoff 2 фев 2016 в 12:15

Спасибо, не знал что такой путь есть. С WireShark-ом у меня не очень, пробовал мой лог из Packet Sniffer конвертировать в pcap и смотреть в WireShark-е. Показалось очень сложно. У Packet Sniffer очень простой интерфейс. И неудобный, фильтры работаю почему-то не всегда, приходится просматривать от начала до конца. Но всё очень наглядно.

Глубокое обучение на R, тренируем word2vec

khmelkoff 1 июн 2015 в 07:59

Да, спасибо. Уже написал update.

Глубокое обучение на R, тренируем word2vec

khmelkoff 1 июн 2015 в 07:58

Спасибо, Вы правы. Нашел, написал update.

Глубокое обучение на R, тренируем word2vec

khmelkoff 30 мая 2015 в 07:09

Да, счастья бы не помешало.

Вот так модель считывает слова из файла:

void ReadWord(char *word, FILE *fin) {
  int a = 0, ch;
  while (!feof(fin)) {
    ch = fgetc(fin);
    if (ch == 13) continue;
    if ((ch == ' ') || (ch == '\t') || (ch == '\n')) {
      if (a > 0) {
        if (ch == '\n') ungetc(ch, fin);
        break;
      }
      if (ch == '\n') {
        strcpy(word, (char *)"</s>");
        return;
      } else continue;
    }
    word[a] = ch;
    a++;
    if (a >= MAX_STRING - 1) a--;   // Truncate too long words
  }
  word[a] = 0;
}

Из кода видно, что EOL может и не быть в файле, а значит моя фраза абсолютно корректна.
Теперь, что будет, если EOL в файле есть.
Он заменяется на специальное слово:

</s>

Это слово не участвует в расчете частоты, поэтому не выбрасывается из словаря и всегда находится в его начале. Если EOL в тексте несколько, меняется распределение слов, находящихся рядом с EOL. Вот расчет дистанции, если EOL только один:

Word: </s>  Position in vocabulary: 0
          Word   CosDist
1       factor 0.3524520
2  frightening 0.3380254
3        admit 0.3336470
4        scary 0.3289483
5     scariest 0.3148671
6         prom 0.3142520
7         time 0.3083785
8   paranormal 0.3076151
9       cheesy 0.3073355
10   impressed 0.3042146

А вот, если три (текст тот же самый, просто я добавил три EOL):

Word: </s>  Position in vocabulary: 0
1       yelling 0.3524468
2       toddler 0.3464943
3       janitor 0.3398002
4       running 0.3376773
5         drunk 0.3368221
6         bunch 0.3361016
7            iq 0.3348956
8  pathetically 0.3328072
9  unbelievably 0.3261482
10     retarded 0.3218134

А теперь попробуйте из этого что-то понять про абзацы внутри текста.
Удачи!

Глубокое обучение на R, тренируем word2vec

khmelkoff 29 мая 2015 в 14:40

Извините, не нарочно ответил ниже.

Я попробовал сейчас на скорую руку просто ввести два абзаца в строку обучающей выборки, ничего заметно не изменилось. Пространство слов из word2vec — это матрица, первый столбец — слова из словаря, начиная со второго по последний — значения компонент вектора. Есть вероятность, что эти значения меняются для слов, которые находятся между переводом строки, но это сложно увидеть. Если получу подтверждение, напишу update.