Как стать автором
Обновить
0
0

Пользователь

Отправить сообщение

смог выучить 424 слова за одну книгу

Честно говоря, как-то с трудом верится.

Как долго слушали книгу? Сколько времени потратили на интервальное повторение?

Выучили по одному значению каждого слова или сможете понять смысл слова в любом контексте?

Я без хейта, просто мало верится, в такую эффективность. Получается, что по вашей математике, если прочитать за год, скажем 20 книг, можно получить словарный запас для свободного общения практически на любую тематику. Получится около 8-9 тыс слов плюсом к имеющемуся запасу. А через 2 года будешь на уровне носителя языка с запасом в 20 тыс. слов.

Я сам читаю на английском, но у меня выходит от 10 до 15 новых слов за книгу. Первую половину книги останавливаюсь разбираю взятые на изучение слова, смотрю как можно больше значений слова, пытаюсь понять в контексте, где-то со второй половины паузы перестаю делать вообще и уже просто продолжаю повторять выбранные слова читая их снова и снова.

Т.е. я дополнительно ни чего не делаю для заучивания слов, разве что, провожу ревизию слов какие из выбранных получилось понять и запомнить в процессе чтения.

Слова я заранее выбираю из списка не известных и выделяю в книге, чтобы обращать внимание только на выбранные.

И сколько у вас неизвестных слов в книге? Я стараюсь брать книги с 96-98% известных мне слов и иногда на одной странице не меньше 5-7 неизвестных слов, получает по вашей методике закапаешься в добавлении слов в приложение, каждые 2-3 предложения делать остановку и записывать.

Но пополнение словарного запаса через чтение поддерживаю, классное начинание 👍

Ибо подъем в 6:30 для слабаков, подъем в 5 утра наше все 💪

Да, согласен, что не нужен. Просто возник спор с коллегой насчёт того, что Spark ругается, когда несоответствие в составе колонок происходит. Проблему порядка колонок я обхожу тем, что в конце всех преобразований вызываю select(columns.map(col):_*)

А он предлагает подкладывать файлы в каталог и не писать через таблицу и не заморачиваться с колонками порядком колонок.

Я считаю это добавит лишних проблем: отсутствие контроля ETL, если мы без контрольно пишем файлы с любым порядком и составом колонок. Тем более ORC не позволяет этого делать. Да я и сам сталкивался с это проблемой пересоздание таблицы с другим порядком колонок, поверх существующих файлов приводит к перемешиванию данных.

Но это довольно странно на самом деле, что информация доступна о положении колонок в файле, но в таблице она не учитывается для каждого файла в таблице.

Но если просто класть внутрь файлы с случайным порядком колонок будет перепутано при совпадении типов или ошибка при не совпадении.

У parquet тоже перепутаются? По названиям колонок в файле и таблице hive не сопоставляются?

А такого решения ни с одним форматом нет, чтобы таблица находила интересующую её колонку в каждом файле не зависимо от порядка хранения колонок в файлах и правильно выводила данные?

Правильно ли я понимаю, что в ORC можно вставлять новые колонки только в конец таблицы? Любые операция типа:

  • Вставка колонки в середину;

  • Запись файл в каталог с таблицей с другим порядком колонок;

  • Запись файлов с другим составом колонок, например, добавить в середину файла не объявленной в таблице колонки.

Например в каталоге 3 файла:

- 1ый файл - кол1, кол2

- 2ой файл - кол2, кол1

- 3ий файл - кол1, кол3, кол2

Но таблица в Hive объявлена как: кол1, кол2.

В итоге приведет нас к беспорядку, данные в таблице лягут не в те колонки и перепутаются? Т.е. только данные из 1ого файла лягут нормально, остальные данные поедут.

Решает ли эту проблему parquet? Учитывая, что вы говорите, что этот формат позволяет вставлять колонки в середину файла.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность