Биграмма — это два слова, которые в тексте или, в нашем случае в корпусе текстов, являются соседними.
Вообще n-gram и в частности bi-gram может также применятся к буквам и фонемам. Например n-gram фонем используются в speach recognition, а n-gram букв в language identification.
По теме статьи, имеет смысл обратить внимание на Spark MLib feature Extraction, который решает проблему генерации n-gram в map-reduce и множество других.
Есть опыт работы с ANN в production системах. Текущий подход, где используется обучение с gradient descent, подходит для определенного типа задач. Идея в том, чтобы прогнать множество итераций с обучающим набором, чтобы получить достаточный уровень ошибки. В итоге получим распознавание паттернов, для определенного типа задач. Но проблема в добавлении новых знаний в существующую сеть. Неэффективно прогонять многие итерации обучения, чтобы добавить крупицу нового знания. Пока пытаются решить проблему one shot learning костылями типа Neural Turing Machine, но имхо это забивание гвоздей микроскопом. Более интересно совместить вероятностные подходы с ANN, например с Gaussian Processes и Deep Reinforcement Learning. Это уже применяется в робототехнике, но есть нюансы работы с широкими слоями ANN. Вообще, если следить за темой, то основные идеи меняются не быстро. С другой стороны, на хайпе нейросетей сейчас каждый ученый и его тетя пишут научные статьи, создавая илюзию стремительно меняющейся области. Особенно преуспели в том деле китайские товарищи, выдавая тонны г*вно статей на гора.
Всегда недоумевал, глядя на советы двигаться во время получасовых перывов. Безусловно это полезно, но мало применимо к нашим реалиям. Если программист работает в кабинете/опен спэйс то частые прогулки вызывают косые взгляды менеджера и коллег, порой довольно неодобрительные. Обычно в бизнес центрах не очень много места для прогулок и они ограничиваются маршрутом кабинет-туалет/курилка-кабинет. Более того, поработав в нескольких компаниях среднего уровня, не разу не видел чтобы люди делали упражнения для глаз, например. Такое впечатление, что люди пренебрежительно к этому относятся, из разряда «зачем мне пристегиваться» в автомобиле. Сам стараюсь следовать правилам работы за ПК, но это сложно психологически, когда никто в коллективе не разделяет этих взглядов.
Возможно в компаниях вроде Google/Facebook/Yandex ситуация прямо противоположная, но все же большинство людей работают в организациях попроще. Хотелось бы топик на тему выживания и сохранения здоровья в подобных условиях :)
Задумался и понял, что последние полгода не читал ничего кроме технической литературы. Уважаемые хабрапользователи, посоветуйте пожалуйста достойные произведения жанра киберпанк.
Проверил, действительно мой факультет в списке. И почему нам никто ничего не сказал? Теперь нужно обратиться к администратору? Он похоже и сам ничего не знает об этом :)
Вообще n-gram и в частности bi-gram может также применятся к буквам и фонемам. Например n-gram фонем используются в speach recognition, а n-gram букв в language identification.
По теме статьи, имеет смысл обратить внимание на Spark MLib feature Extraction, который решает проблему генерации n-gram в map-reduce и множество других.
Возможно в компаниях вроде Google/Facebook/Yandex ситуация прямо противоположная, но все же большинство людей работают в организациях попроще. Хотелось бы топик на тему выживания и сохранения здоровья в подобных условиях :)
www.youtube.com/watch?v=PmCDwAC62Gc
Ваша догадка может подтвердиться )