А что же вы не сказали про скорость обработки? Про требования к памяти? Возьмите картинку с мобильного телефона (сколько там сейчас мегапикселей? 12-16?) замерьте скорость обработки и сколько памяти откушало, дополните статью.
Выбранный вами подход будет крайне не оптимальный. Мало того что вы активно используете питоновские циклы (питон довольно медленный), так вы еще всё складываете в list. Может стоит посмотреть в сторону NumPy?
среди ASCII символов есть символ с кодом 7. Называется bell и в древние времена это действительно был "дзинь". :-) И раньше при печатании этот дзинь и раздавался. https://unicode.fandom.com/ru/wiki/Звуковой_сигнал
Попытались охватить как можно больше и нормально не описано ничего. Слишком общие тезисы, без подробностей, без примеров, без детального разбора "на пальцах". Рисунки мало помогают.
Возьмем кусок из середины "Иерархическое обучение с подкреплением": "полезно обучить модель промежуточным абстракциям", "сложности, имеющие отношение к специализации и мониторингу", "применение [...] языка в качестве промежуточного пространства". Без подробностей, без расшифровки мне это ничего не говорит!
Полностью согласен! Написать стихотворение (без проверки на плагиат, без претензий), написать поздравлялку к дню рождения, написать сценарий утренника, вежливый ответ на письмо и т.п. (про что говорят "гуманитарий"). Т.е. пока мы на территории гуманитария всё не так печально. Можно попросить код короткой функции, SQL запрос (код, который обязательно проверит и поймет программист и который будет протестирован). А то попросишь у ИИ код сохранения пароля и будет он в БД без всякого хэширования в открытом виде (и самое противное, что будет работать без ошибок, пока БД не украдут, но будет уже поздно). А про науку и исследования вообще лучше не спрашивать, и делать пока по старинке - ручками (ну и Гуглом-Яндексом, Excel).
По фактам вы уже сразу начали оговаривать всякие условия (вплоть до встраивания специфичных нейронок или данных каких-то опросов). Это как в экспертных системах (не прижилось). Нужно как-то обрабатывать те тонны знаний, что доступны в интернете. И тут еще одна засада: нейронки на несбалансированных данных обучаются так себе. А мы знаем, что наиболее ценные знания как крупицы золота - их мало. А еще есть проблема отделить золото от грязи (к примеру: теория струн это круто или это фуфло?).
Да, как я понимаю на данный момент у нейронок с объяснением ответа всё грустно (хотя работа и в этом направлении ведется).
К сожалению всё сложнее. Какие факты на 100% правдивы: "Лук горький"; "Из отрицательного числа нельзя извлекать квадратный корень"; "В слове Урааааа 7 букв"; "Слово карри сказать сложнее, чем жбан"? И подобных фактов-утверждений-суждений очень много.
После очередного комментария задумался: ведь можно сравнить точность прогноза по картинкам с шумами и по картинкам после шумоподавителя?
А еще: при обучении нейросети подавать как исходные данные, так и аугментировать: добавлять шумы (разнообразные); подавлять шум; ну и "сначала добавим шум, потом подавим шум". Т.е. приучать нейросеть к самым разным картинкам.
PDFtk "инструмент командной строки" - эти три слова многих современных специалистов (не говоря уже о пользователях) вгоняют в скуку и депрессию :-) Поэтому альтернативный вариант кому-то может оказаться проще - нужно всего-то разбить документы постранично, правильно переименовать файлы и собрать обратно все файлы в один документ.
Есть еще вариант. Сканируем все (пусть даже) в pdf. Из pdf делаем одностраничные pdf (в Акробате extract pages). Получаем набор pdf, который нужно правильно переименовать. Для этого в Total Commander (или любой другой программе для переименования) вызываем Multi-rename tool. И делаем шаблон с [C] в одном случае start - 1; step - 2, а в другом start - 2; step - 2 (digits - 4). Т.е. любым доступным способом делаем так, что бы при сортировке по алфавиту номера страниц были правильные. После этого объединяем получившиеся pdf в один (можно через Акробат).
Конкретно эту нигде. Возможно вы обратили внимание, что у автора даже машины нормальной нет - в память все данные не влезают, а это всего-то несколько тысяч сообщений. Признаки нужно извлекать как-то по другому или хранить более экономно.
Практически любая "умная" электроника: телевизоры, телефоны, часы, наушники, домофоны, компьютеры, камеры наблюдения, роботы-пылесосы, любое промышленное оборудование с электронной начинкой (а также любое оборудование, которое трудно проверить на наличие электроники) -- все это может быть использовано. Менее умная техника: предохранители, распределительные щитки, УЗО, электрические двигатели и схемы управления такими двигателями, аккумуляторы, ёлочные гирлянды, утюги тоже могут содержать закладки (загляните под капот станков или в ремонтную мастерскую - почти везде есть микросхемы). В некоторых случаях даже в сырье можно добавить маячки (изотопы) и проследить куда направилось важное оборудование.
В интернете полно статей с примерами преодоления барьера между изолированным компом и интернетом, удаленный съем информации (к примеру когда по отражению от дорожного знака снимают звук).
Так что трудно будет гарантировать полную безопасность.
А если в Иллюстраторе открыть pdf от Корела? А многостраничный pdf? А pdf от банка/пограничников/финслужбы? По моему старому опыту тот pdf, что нормально открывается и печатается в акробате при попытке редактирования зачастую сильно искажается.
Что касается редактирования: обычные люди, когда говоришь им "да, можно редактировать" говорят тебе: "отлично, замени мне адрес ул. Мира 15 на переулок Малая индустриальная 14 (вход со двора)" И адрес этот будет находится посреди большого абзаца где-нибудь посередине большой текстовой страницы. И тут мы понимаем, что ни о каком переверстывании текста и речи быть не может, потому как все слова разбиты на буквы. А в сложных случаях все буквы превращены в вектр (а в совсем запущенных это будет растр). А даже если это "текст", то вполне может быть, что нужные вам буквы выкинуты из шрифта (для оптимизации размера pdf, по английски Subset). Так что в общем случае pdf не годится для полноценного редактирования.
Заголовок "....скрывающую владельца от камер ночного видения", так что про обычные камеры пока никто не говорил. ;-) В дневное время (вполне возможно) ставится отсекающий ИК фильтр.
К примеру нейронки генерируют предложения примерно одинаковой длины (это самая примитивная эвристика).
В целом со временем будет все сложнее отличить (особенно на популярные темы, особенно если ты не знаешь тему). Т.е. если ты досконально разбираешься в теме, то ты сможешь понять где лажа, но зачем знающему человеку читать такое (он и так в теме)?
А что же вы не сказали про скорость обработки? Про требования к памяти? Возьмите картинку с мобильного телефона (сколько там сейчас мегапикселей? 12-16?) замерьте скорость обработки и сколько памяти откушало, дополните статью.
Выбранный вами подход будет крайне не оптимальный. Мало того что вы активно используете питоновские циклы (питон довольно медленный), так вы еще всё складываете в list. Может стоит посмотреть в сторону NumPy?
среди ASCII символов есть символ с кодом 7. Называется bell и в древние времена это действительно был "дзинь". :-) И раньше при печатании этот дзинь и раздавался. https://unicode.fandom.com/ru/wiki/Звуковой_сигнал
Попытались охватить как можно больше и нормально не описано ничего. Слишком общие тезисы, без подробностей, без примеров, без детального разбора "на пальцах". Рисунки мало помогают.
Возьмем кусок из середины "Иерархическое обучение с подкреплением": "полезно обучить модель промежуточным абстракциям", "сложности, имеющие отношение к специализации и мониторингу", "применение [...] языка в качестве промежуточного пространства". Без подробностей, без расшифровки мне это ничего не говорит!
Мне не понравилась статья.
Полностью согласен! Написать стихотворение (без проверки на плагиат, без претензий), написать поздравлялку к дню рождения, написать сценарий утренника, вежливый ответ на письмо и т.п. (про что говорят "гуманитарий"). Т.е. пока мы на территории гуманитария всё не так печально. Можно попросить код короткой функции, SQL запрос (код, который обязательно проверит и поймет программист и который будет протестирован). А то попросишь у ИИ код сохранения пароля и будет он в БД без всякого хэширования в открытом виде (и самое противное, что будет работать без ошибок, пока БД не украдут, но будет уже поздно). А про науку и исследования вообще лучше не спрашивать, и делать пока по старинке - ручками (ну и Гуглом-Яндексом, Excel).
По фактам вы уже сразу начали оговаривать всякие условия (вплоть до встраивания специфичных нейронок или данных каких-то опросов). Это как в экспертных системах (не прижилось). Нужно как-то обрабатывать те тонны знаний, что доступны в интернете. И тут еще одна засада: нейронки на несбалансированных данных обучаются так себе. А мы знаем, что наиболее ценные знания как крупицы золота - их мало. А еще есть проблема отделить золото от грязи (к примеру: теория струн это круто или это фуфло?).
Да, как я понимаю на данный момент у нейронок с объяснением ответа всё грустно (хотя работа и в этом направлении ведется).
К сожалению всё сложнее. Какие факты на 100% правдивы:
"Лук горький"; "Из отрицательного числа нельзя извлекать квадратный корень"; "В слове Урааааа 7 букв"; "Слово карри сказать сложнее, чем жбан"? И подобных фактов-утверждений-суждений очень много.
После очередного комментария задумался: ведь можно сравнить точность прогноза по картинкам с шумами и по картинкам после шумоподавителя?
А еще: при обучении нейросети подавать как исходные данные, так и аугментировать: добавлять шумы (разнообразные); подавлять шум; ну и "сначала добавим шум, потом подавим шум". Т.е. приучать нейросеть к самым разным картинкам.
PDFtk "инструмент командной строки" - эти три слова многих современных специалистов (не говоря уже о пользователях) вгоняют в скуку и депрессию :-) Поэтому альтернативный вариант кому-то может оказаться проще - нужно всего-то разбить документы постранично, правильно переименовать файлы и собрать обратно все файлы в один документ.
Есть и другие места, где можно применить такую систему: форумы, комментарии пользователей, соцсети, общение в играх и т.п.
Есть еще вариант. Сканируем все (пусть даже) в pdf. Из pdf делаем одностраничные pdf (в Акробате extract pages). Получаем набор pdf, который нужно правильно переименовать. Для этого в Total Commander (или любой другой программе для переименования) вызываем Multi-rename tool. И делаем шаблон с [C] в одном случае start - 1; step - 2, а в другом start - 2; step - 2 (digits - 4). Т.е. любым доступным способом делаем так, что бы при сортировке по алфавиту номера страниц были правильные. После этого объединяем получившиеся pdf в один (можно через Акробат).
Конкретно эту нигде. Возможно вы обратили внимание, что у автора даже машины нормальной нет - в память все данные не влезают, а это всего-то несколько тысяч сообщений. Признаки нужно извлекать как-то по другому или хранить более экономно.
Практически любая "умная" электроника: телевизоры, телефоны, часы, наушники, домофоны, компьютеры, камеры наблюдения, роботы-пылесосы, любое промышленное оборудование с электронной начинкой (а также любое оборудование, которое трудно проверить на наличие электроники) -- все это может быть использовано. Менее умная техника: предохранители, распределительные щитки, УЗО, электрические двигатели и схемы управления такими двигателями, аккумуляторы, ёлочные гирлянды, утюги тоже могут содержать закладки (загляните под капот станков или в ремонтную мастерскую - почти везде есть микросхемы). В некоторых случаях даже в сырье можно добавить маячки (изотопы) и проследить куда направилось важное оборудование.
В интернете полно статей с примерами преодоления барьера между изолированным компом и интернетом, удаленный съем информации (к примеру когда по отражению от дорожного знака снимают звук).
Так что трудно будет гарантировать полную безопасность.
А если в Иллюстраторе открыть pdf от Корела? А многостраничный pdf? А pdf от банка/пограничников/финслужбы? По моему старому опыту тот pdf, что нормально открывается и печатается в акробате при попытке редактирования зачастую сильно искажается.
Что касается редактирования: обычные люди, когда говоришь им "да, можно редактировать" говорят тебе: "отлично, замени мне адрес ул. Мира 15 на переулок Малая индустриальная 14 (вход со двора)" И адрес этот будет находится посреди большого абзаца где-нибудь посередине большой текстовой страницы. И тут мы понимаем, что ни о каком переверстывании текста и речи быть не может, потому как все слова разбиты на буквы. А в сложных случаях все буквы превращены в вектр (а в совсем запущенных это будет растр). А даже если это "текст", то вполне может быть, что нужные вам буквы выкинуты из шрифта (для оптимизации размера pdf, по английски Subset). Так что в общем случае pdf не годится для полноценного редактирования.
из официального пиара :-)
Заголовок "....скрывающую владельца от камер ночного видения", так что про обычные камеры пока никто не говорил. ;-) В дневное время (вполне возможно) ставится отсекающий ИК фильтр.
Хотя комментарий правильный.
Иногда проще сделать хорошую теплоизоляцию с горячей стороны (какую-нибудь каменную вату). 1000 градусов подходящая вата должна держать.
как будто ИК-фильтры еще не изобрели.... На худой конец зеркало ("горячие зеркала").
Коротко: пока - да.
К примеру нейронки генерируют предложения примерно одинаковой длины (это самая примитивная эвристика).
В целом со временем будет все сложнее отличить (особенно на популярные темы, особенно если ты не знаешь тему). Т.е. если ты досконально разбираешься в теме, то ты сможешь понять где лажа, но зачем знающему человеку читать такое (он и так в теме)?
А такой вариант видели: "за песчаной косой лопоухий косой пал под острой косой косой бабы с косой"? https://www.lingvolive.com/ru-ru/community/posts/332529
del