All streams
Search
Write a publication
Pull to refresh
0
0
Send message
ИМО, REST умер, как технология, года 3 как.
Зачем вспоминать о ней сейчас?
Похоже, что переход с Oracle на Postgres становится массовым. Еще заметил, что не менее массово проекты переносят с Hadoop/Hive/Spark на тот же Postgres.
Да, но! Предобученных вариантов надо иметь много и постоянно их обновлять. Скажем, если речь идет об анализе медицинских текстов, то обучать модель на спортивных текстах не имеет смысла. Или другой пример — несколько месяцев назад не было термина brexit. Соответственно, анализ текстов СМИ на базе старых моделей будет просто игнорировать это слово со всеми вытекающими… Это я к тому, что предобученные модели надо использовать с осторожностью или не использовать вообще.
word2vec, как алгоритм, ничем не отличается для русского, английского или какого-либо еще языка. Для обучения и последующего использования модели желательно, но не обязательно, использовать нормализованные тексты.
Возможно пригодится — набор русских текстов (около 500 000 статей СМИ)
Rapidjson появилася в ноябре 2011 на Google Code
Использую много лет rapidjson — очень быстрая и стабильная библиотека.
По поводу бенчмарков — есть такой проект Native JSON Benchmark. Можете добавить туда свою библиотеку и сравнить с другими (на данный момент — 41 библиотека).
В вашей таблице есть уникальный ключ? Как вы собираетесь проверять результат исследований?
В JSON-файле 1 013 063 записей, при этом уникальных idExternal — 1 011 071.
Например — cat ./messages.json | grep \«idExternal\»:\«5-41:\» | wc -l
1205

Уникальных url еще меньше — 977462.

Поясните, как вы будете сопоставлять «эвристики» с исходными данными и, вообще, что вы подразумеваете под термином «эвристика»?
12 ...
8

Information

Rating
Does not participate
Location
Юрмала, Латвия, Латвия
Registered
Activity