Как стать автором
Обновить

Научпоп

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Методы детоксификации текстов для русского языка

Блог компании МТС IT-инфраструктура *Алгоритмы *Искусственный интеллект Natural Language Processing *

ВНИМАНИЕ! В статье есть примеры текстов, содержащие мат и грубые выражения. Мы ни в коем случае не хотим оскорбить наших читателей, все подобные тексты приведены лишь в научных целях в качестве примеров токсичности в реальных текстах из Интернета.





Всем привет! Меня зовут Дарина Дементьева, я являюсь аспиранткой в Сколковской лаборатории обработки естественного языка (Skoltech NLP), где занимаюсь исследовательскими проектами совместной лаборатории Skoltech NLP и MTS AI. В рамках работы в совместной лаборатории мы провели серию исследований, посвященных важной социальной проблеме – борьбе с токсичной речью в Интернете или детоксификации текстов.

В этой статье мы расскажем про результаты исследований методов детоксификаций для русского языка. Эта работа была опубликована и презентована на конференции Диалог, а также принята в журнал MDPI. Результаты экспериментов на английском языке приняли для презентации на одной из ведущих конференций в области обработки естественного языка EMNLP. Мы представляем вам краткую выжимку с описанием моделей, постановкой и результатами экспериментов, а в конце вы сможете самостоятельно ̶п̶о̶м̶а̶т̶е̶р̶и̶т̶ь̶с̶я̶ ̶в̶ ̶ч̶а̶т̶е̶ протестировать модели в бою. Теперь – добро пожаловать под кат!
Читать дальше →
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 2.9K
Комментарии 47

Новости

Text-to-Speech для YouTube. Озвучивание субтитров в видеороликах на JS

JavaScript *Расширения для браузеров Социальные сети и сообщества
Из песочницы

Всем привет.

Хочу рассказать о такой удивительной технологии как Tts и, возможно, неожиданном её применении для озвучки субтитров на YouTube с использованием JavaScript. Реализовано в виде расширения для браузера Chrome (для Yandex и Atom тоже подойдет).

Изучая новое, или когда просто смотрим YouTube, иногда попадаются ролики, очень важные, но на другом языке, с одной стороны можно включить субтитры, выбрав перевод на родной язык, но бывает, сложно одновременно читать и смотреть на то, что происходит на мониторе.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 728
Комментарии 3

Айтишный пицца-квест

Блог компании Cloud4Y Облачные сервисы Логические игры

Привет! На связи Cloud4Y. Осень вступила в свои права, на улице всё чаще льёт дождь (а кое-где и снег выпал), а температура постепенно опускается ниже нулевой отметки. Мы решили помочь вам немного согреться и подготовили небольшой ИТ-квест. При должной сноровке пройти его можно за 45-60 минут. Подробности — далее.

Читать далее
Всего голосов 25: ↑25 и ↓0 +25
Просмотры 2.1K
Комментарии 10

СССР против Утренней звезды: Покорение Венеры

Блог компании FirstVDS Читальный зал Научно-популярное Космонавтика
Первые фото поверхности Венеры

Как можно узнать из предыдущей статьи, исследование одной из наших ближайших соседок по Солнечной системе, планеты Венеры, началось с напряжённого соревнования между СССР и США. К концу 1960-х годов стало ясно, что «по очкам» в нём уверенно победил Советский Союз. Американцы переключили внимание на Марс и пилотируемую лунную экспедицию, но это вовсе не значило, что советская космонавтика продолжила игру в одни ворота. Соперник в исследованиях Венеры у неё остался, причём серьёзный – сама Венера. «Утренняя звезда» вовсе не собиралась отдавать свои тайны просто так, и путь к новым достижениям оказался ничуть не менее трудным, чем до этого.
Читать дальше →
Всего голосов 42: ↑40 и ↓2 +38
Просмотры 6.5K
Комментарии 13

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.
Читать дальше →
Рейтинг 0
Просмотры 413
Комментарии 0

Открытый проект беспроводной системы сбора данных на модулях 433 МГЦ

Open source *Разработка систем связи *Программирование микроконтроллеров *Производство и разработка электроники *DIY или Сделай сам
Tutorial

И еще раз о передатчиках и приемниках 433 МГц. Попробуем как можно проще и дешевле подключить их к ATMEGA8, добиться дальности более 2 км и сделать крипто-защищенную беспроводную сеть-шлюз к 1-Wire сетям сенсоров DS18S20. Для этого привлечем оверсэмплинг, ортогональные сигналы и помощь MATLAB Simulink.

Техническое описание
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 4.3K
Комментарии 11

Compaq LTE Elite 486: первый ноутбук

Блог компании «Лаборатория Касперского» Старое железо Ноутбуки
Чем современные ноутбуки отличаются от старых? Зависит от того, насколько глубоко вы копаете. 10 лет назад переносные компьютеры были почти такие же. 20 лет — чуть потолще, а так примерно то же самое. Если отмотать назад лет на тридцать, становится интереснее: именно тогда, на рубеже восьмидесятых и девяностых, ноутбуки стали портативными в современном понимании. До этого применялся дурацкий термин luggable — это когда у компьютера есть ручка для переноски, но габариты и вес ничем не отличаются от десктопа. Рождение современного компьютерного портатива — интересная эпоха с большим разнообразием устройств.



Сегодня я хочу рассказать о ноутбуке Compaq LTE (никакой связи с сотовыми сетями четвертого поколения), конкретно о модели Elite 4/75 1994 года. Это очень интересная модель с парой серьезных недостатков и одним важным достоинством при взгляде из 2021 года. Это «настоящий» «тот самый» 486-й, очень мощная железка для своего времени, серьезный, и крайне дорогой ноутбук для дела. Как часто бывает, сначала я долго искал хоть какой-то образец, но потом купил сразу два похожих устройства. Помимо раритетности был еще один повод найти именно такую модель. Это мой самый первый ноутбук. Не вообще всем, а конкретно мне он показал, как можно использовать компьютер «в полях». А благодаря одному персональному инциденту, на пару недель в 2003 году он и вовсе стал моим основным компьютером.
Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Просмотры 5.8K
Комментарии 25

Полезные и просто необычные проекты на базе Raspberry Pi

Блог компании Selectel Разработка на Raspberry Pi *Гаджеты DIY или Сделай сам Электроника для начинающих


«Малинка» всех поколений используется для реализации самых разных проектов — как относительно простых, так и крайне сложных. Любителей DIY-электроники в мире много, поэтому и проектов на базе Raspberry Pi становится больше с каждым месяцем.

Ну и самые интересные из них мы время от времени описываем. В новой подборке собраны разноплановые проекты, как и указано в заголовке. Что же, приступим!
Читать дальше →
Всего голосов 36: ↑33 и ↓3 +30
Просмотры 13K
Комментарии 2

Тест батареек CR2032 «Panasonic» и «Sony» с Aliexpress

Блог компании LampTest Энергия и элементы питания
По просьбам читателей я заказал на Али и протестировал батарейки CR2032 «Panasonic» и «Sony». Названия брендов пишу в кавычках потому, что это подделки.

Читать дальше →
Всего голосов 41: ↑41 и ↓0 +41
Просмотры 9.7K
Комментарии 22

Ретроспектива: детские педальные автомобили и их характеристики

Блог компании Timeweb Читальный зал Старое железо
Сегодня мы поговорим о транспорте — автомобилях, но не бензиновых, а педальных. И более того — детских. Да-да, речь о тех самых советских педальных машинках, настоящей детской мечте тех времен. К слову, на сегодняшний день стоимость педального автомобиля в хорошем состоянии может составлять до двухсот тысяч рублей. Иронично, ведь в то время вряд ли кто мог подумать, что стоимость детской машинки сравняется с обычным полноценным автомобилем.

image
Читать дальше →
Всего голосов 52: ↑49 и ↓3 +46
Просмотры 12K
Комментарии 89

Психология языкового барьера, или Какого черта нельзя просто взять и заговорить на английском

Блог компании EnglishDom Изучение языков

63% россиян учили английский в школе или университете, но при этом только около 5% граждан могут похвастаться свободным владением языка. Это один из самых низких показателей в Европе по рейтингу EF English Proficiency Index.

По нашему личному опыту, больше половины студентов приходят к нам с проблемой языкового барьера. Они знают язык на уровне Pre-Intermediate или Intermediate, но испытывают огромные сложности в общении на английском. При этом словарный запас может быть широким, знания грамматики — вполне достаточными, но просто взять и заговорить — никак.

Сегодня мы говорим о языковом барьере. Что это, от чего зависит и как его преодолеть.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 21K
Комментарии 51

9 ошибок прошлого: почему разорились 2 000 американских автопроизводителей

Блог компании НПП ИТЭЛМА Научно-популярное Транспорт
Перевод
image

Это вождь апачей Джеронимо за рулем автомобиля Ford в 1904 году, позже он вдохновил автопроизводителя в Эниде, штат Оклахома, который надеялся конкурировать с Ford.

На момент 2021 года насчитывается около двух десятков электромобильных стартапов, основатели которых мечтают стать следующей Tesla. Желание стать следующей грандиозной инновацией — история, столь же старая, как и автомобильный бизнес, учитывая, что более 2000 американских автопроизводителей появлялись и исчезали, и у всех их основателей была одна и та же мечта. Многие из них добились первоначального успеха, но в итоге все пошло не так.

Какой бы гламурной ни казалась автомобильная промышленность, шансы на устойчивый успех у новых производителей остаются невелики.

Поэтому, хотя многие неудачные компании уже канули в Лету, их истории могут оказаться полезными для современных начинающих производителей.

Продажа надёжных двигателей — не панацея


На заре автомобилестроения отказ двигателя был обычным явлением; и водитель, и пассажиры могли регулярно оказываться в затруднительном положении за много миль от дома. Большинство автопроизводителей пытались улучшить качество своих двигателей. Но только не Говард Картер.
Читать дальше →
Всего голосов 20: ↑15 и ↓5 +10
Просмотры 9.1K
Комментарии 12

Style transfer для сериала «Друзья»

Блог компании OTUS Big Data *Машинное обучение *Искусственный интеллект

В данном посте мы, с помощью методов автоматической обработки текстов (Natural Language Processing или просто NLP), исследуем стиль речи 6 главных героев знаменитого сериала “Друзья”, проведем мультиязычный анализ для русского и английского языков, а также обучим большие GPT-based языковые модели общаться в в стиле главных героев Друзей.

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 3.7K
Комментарии 8

Чтобы учиться быстрее, мозг постоянно ломает свою ДНК

Блог компании SkillFactory Читальный зал Научно-популярное Мозг Здоровье
Перевод

Мозг реагирует на угрозы быстро. Он не только формирует новые нейронные связи, но и разрывает ДНК своих клеток, а затем воссоздаёт геном, ускоряя экспрессию генов обучения и памяти.

Открытие позволяет понять природу пластичности мозга и показывает, что разрыв ДНК — это важная часть обычных клеточных процессов. Кроме того, оно заставляет учёных изменить своё отношение к старению, болезням и геномным событиям: обычно их объясняли неудачным стечением обстоятельств. За подробностями приглашаем под кат, пока у нас начинается флагманский курс Data Science.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 7.3K
Комментарии 4

Удивительные и завораживающие фотографии с вихрями и кристаллами из мира химии

Научно-популярное Химия
Перевод


Именно строение кристаллов дало учёным возможность впервые заглянуть в мир атомов в 1910-х годах. Тогда Уильям и Лоуренс Брэгг, отец и сын, разработали рентгеновскую кристаллографию. Пропуская рентгеновский луч через кристалл (пользуясь тем, что длина волны рентгеновского излучения мала – сравнима с расстоянием между слоями атомов) Брэгги смогли увидеть внутреннюю структуру алмаза.
На фото: кристалл сульфата меди, снятый на макрообъектив.


Чтобы получить изображения для своей коллекции из 300 фотографий, изданных в виде книги The Beauty of Chemistry [«Красота химии»], Вэньтин Чжу и Янь Лян использовали инфракрасную фотографию, высокоскоростные фотоаппараты и технику микрофотографии. И всё это – с целью погрузить читателей в микроскопический мир молекул и потрясающих реакций, происходящих между ними. Автор научно-популярных текстов Филипп Болл комментирует происходящее на фотографиях, проводя тур по окружающей нас недооценённой красоте. Он описывает как принципы, создающие уникальную симметрию снежинок, так и механизмы, объединяющие очень похожие на живые усики силикатных солей с происхождением самой жизни.
Читать дальше →
Всего голосов 27: ↑26 и ↓1 +25
Просмотры 3.9K
Комментарии 7

Как получить инвестиции на первый проект… и доделать его

Разработка игр *Венчурные инвестиции Игры и игровые приставки

Вы придумали гениальную идею игры или даже подготовили прототип и теперь задаетесь вопросом: “Где взять деньги на реализацию?” Разберемся с возможными способами и подводными камнями с сооснователем студии Uniday Games Алиной Ситбаталовой на примере проекта «Puzzle Squad», который она делает со своей командой.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 1.1K
Комментарии 0

Пятьдесят лет на стезе программирования. Часть III. Становление. На страже космических рубежей и путь в большую науку

Программирование *Карьера в IT-индустрии Читальный зал История IT Биографии гиков
Если первая часть моего повествования заканчивалась поступлением в Военную орденов Ленина, Октябрьской Революции и Суворова академию им. Ф. Э. Дзержинского (сокращённое название ВА им. Ф.Э. Дзержинского, ВАД или просто Дзержинка), то вторая часть закончилась отправлением поезда «Москва-Рига», в котором ехал я. Логотип третьей части возвращает меня в годы моего становления как программиста.

I. 649-й отдельный пункт разведки радиоизлучений космического пространства

Итак, промозглой осенью 1976 года я прибыл в Ригу. В Риге пересел на поезд до города Вентспилс. Прибыв в Вентспилс, я зашёл к коменданту станции, где мне показали машину, которая поедет в часть. Оказалось, что каждый день здесь дежурила машина из гарнизона Вентспилс-8. Старшим машины был прапорщик, который довёз меня до части и помог устроиться в гостинице. Была уже ночь. Всю дорогу справа и слева от нас был хвойный лес. Для себя я сразу определился с названием – прибалтийская тайга. Я понял, что меня не обманули, когда говорили, что я буду служить в глухом лесном месте:
Читать дальше →
Всего голосов 35: ↑31 и ↓4 +27
Просмотры 3.4K
Комментарии 19

Ася Казанцева: Зачем нужно спать и как делать это правильно

Блог компании Timeweb Научно-популярное Мозг Здоровье Биология


Спойлер — нейробиологи не знают точно, зачем спать, и постоянно меняют мнение о том, как правильно спать. Если бы у меня было всего 30 секунд, то я бы рассказала, что:

  • Ни одно известное животное не может регулярно спать меньше 2-х часов (даже студент).
  • От недосыпа толстеют, болеют и тупеют.
  • Обучение во сне не работает.
  • Попробуйте маску для сна.
  • Засыпать в тепле приятнее.
  • Физнагрузка мешает засыпанию, если заниматься меньше, чем за 2 часа до сна.
  • Алкоголь мешает глубокому сну.
  • Просыпаться в темноте плохо, мозгу нужен яркий свет, чтобы понять, что уже утро.
  • Осознанные сновидения признают в научных кругах.
  • Мы делаем странные, социально-неприемлемые вещи во сне, т.к. у нас подавлена префронтальная кора (а не потому, что мы в душе маньяки).
  • Возможно, возрастные проблемы с памятью решат, посылая слабые электрические импульсы на мозг во сне.


Под катом конспект на 7 минут чтения часового выступления про сон Аси Казанцевой «Зачем нужно спать и как делать это правильно». Еще один поинт в копилку полезных материалов про сон — Sleep Hackers.
Читать дальше →
Всего голосов 50: ↑43 и ↓7 +36
Просмотры 21K
Комментарии 50

Чек-лист переписчика: как устроена цифровая инфраструктура Всероссийской переписи населения

Блог компании Ростелеком IT-инфраструктура *Usability *Софт

Всем привет! С 15 октября по 14 ноября 2021 года в России проходит Всероссийская перепись населения, цифровым партнером которой выступает Ростелеком. Главным нововведением для жителей России станет возможность пройти перепись дистанционно, самостоятельно заполнив электронный переписной лист на портале госуслуг. При обходе жилых помещений переписчики будут использовать планшетные компьютеры отечественного производства с российской ОС «Аврора». В этом материале мы решили рассказать о технической стороне переписи: зачем понадобились планшеты, для чего понадобились очередные QR-коды на госуслугах и почему в Сибири перепись началась раньше.

Читать далее
Всего голосов 16: ↑13 и ↓3 +10
Просмотры 3.9K
Комментарии 44

Четыре шага к разработке и внедрению учётного сервиса без переноса остатков

Блог компании Ozon Tech Анализ и проектирование систем *Разработка под e-commerce *Финансы в IT


Привет, Хабр! Последние 6 лет я работаю системным аналитиком и понимаю, что при внедрении разного рода учётного функционала аналитикам часто приходится переносить остатки из старых систем с сомнительным качеством данных. В этой статье я расскажу, как разработать сервис балансового учёта так, чтобы не пришлось переносить остатки.

Перенос остатков для аналитиков и разработчиков — удовольствие ниже среднего, потому что:

  1. Приходится копаться в невероятно большом количестве данных, накопленных за много лет:
    • Такая информация, как правило, не стандартизирована, так как программное обеспечение, которое её сохраняет и читает, постоянно дорабатывается. Например, у нас был случай, когда оказалось, что стоимость товара указывается в поле «Cost» только последние пять лет, а раньше было вообще по-другому. И тот факт, что мы это узнали, — просто счастливая случайность.
    • Вместе с огромным количеством данных накапливается огромное количество ошибок, так как внесение практически любой информации так или иначе связано с ручным вводом данных, а человеческий фактор никто не отменял.

  2. Команда хочет заниматься именно разработкой нового программного обеспечения. Копание в цифрах и попытки свести их с другими цифрами — это не то, что коллеги будут делать с удовольствием и должным вовлечением.

Итак, как же можно решить проблему переноса остатков?
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 1.5K
Комментарии 10