Как долго слушали книгу? Сколько времени потратили на интервальное повторение?
Выучили по одному значению каждого слова или сможете понять смысл слова в любом контексте?
Я без хейта, просто мало верится, в такую эффективность. Получается, что по вашей математике, если прочитать за год, скажем 20 книг, можно получить словарный запас для свободного общения практически на любую тематику. Получится около 8-9 тыс слов плюсом к имеющемуся запасу. А через 2 года будешь на уровне носителя языка с запасом в 20 тыс. слов.
Я сам читаю на английском, но у меня выходит от 10 до 15 новых слов за книгу. Первую половину книги останавливаюсь разбираю взятые на изучение слова, смотрю как можно больше значений слова, пытаюсь понять в контексте, где-то со второй половины паузы перестаю делать вообще и уже просто продолжаю повторять выбранные слова читая их снова и снова.
Т.е. я дополнительно ни чего не делаю для заучивания слов, разве что, провожу ревизию слов какие из выбранных получилось понять и запомнить в процессе чтения.
Слова я заранее выбираю из списка не известных и выделяю в книге, чтобы обращать внимание только на выбранные.
И сколько у вас неизвестных слов в книге? Я стараюсь брать книги с 96-98% известных мне слов и иногда на одной странице не меньше 5-7 неизвестных слов, получает по вашей методике закапаешься в добавлении слов в приложение, каждые 2-3 предложения делать остановку и записывать.
Но пополнение словарного запаса через чтение поддерживаю, классное начинание 👍
Да, согласен, что не нужен. Просто возник спор с коллегой насчёт того, что Spark ругается, когда несоответствие в составе колонок происходит. Проблему порядка колонок я обхожу тем, что в конце всех преобразований вызываю select(columns.map(col):_*)
А он предлагает подкладывать файлы в каталог и не писать через таблицу и не заморачиваться с колонками порядком колонок.
Я считаю это добавит лишних проблем: отсутствие контроля ETL, если мы без контрольно пишем файлы с любым порядком и составом колонок. Тем более ORC не позволяет этого делать. Да я и сам сталкивался с это проблемой пересоздание таблицы с другим порядком колонок, поверх существующих файлов приводит к перемешиванию данных.
Но это довольно странно на самом деле, что информация доступна о положении колонок в файле, но в таблице она не учитывается для каждого файла в таблице.
Но если просто класть внутрь файлы с случайным порядком колонок будет перепутано при совпадении типов или ошибка при не совпадении.
У parquet тоже перепутаются? По названиям колонок в файле и таблице hive не сопоставляются?
А такого решения ни с одним форматом нет, чтобы таблица находила интересующую её колонку в каждом файле не зависимо от порядка хранения колонок в файлах и правильно выводила данные?
Правильно ли я понимаю, что в ORC можно вставлять новые колонки только в конец таблицы? Любые операция типа:
Вставка колонки в середину;
Запись файл в каталог с таблицей с другим порядком колонок;
Запись файлов с другим составом колонок, например, добавить в середину файла не объявленной в таблице колонки.
Например в каталоге 3 файла:
- 1ый файл - кол1, кол2
- 2ой файл - кол2, кол1
- 3ий файл - кол1, кол3, кол2
Но таблица в Hive объявлена как: кол1, кол2.
В итоге приведет нас к беспорядку, данные в таблице лягут не в те колонки и перепутаются? Т.е. только данные из 1ого файла лягут нормально, остальные данные поедут.
Решает ли эту проблему parquet? Учитывая, что вы говорите, что этот формат позволяет вставлять колонки в середину файла.
Честно говоря, как-то с трудом верится.
Как долго слушали книгу? Сколько времени потратили на интервальное повторение?
Выучили по одному значению каждого слова или сможете понять смысл слова в любом контексте?
Я без хейта, просто мало верится, в такую эффективность. Получается, что по вашей математике, если прочитать за год, скажем 20 книг, можно получить словарный запас для свободного общения практически на любую тематику. Получится около 8-9 тыс слов плюсом к имеющемуся запасу. А через 2 года будешь на уровне носителя языка с запасом в 20 тыс. слов.
Я сам читаю на английском, но у меня выходит от 10 до 15 новых слов за книгу. Первую половину книги останавливаюсь разбираю взятые на изучение слова, смотрю как можно больше значений слова, пытаюсь понять в контексте, где-то со второй половины паузы перестаю делать вообще и уже просто продолжаю повторять выбранные слова читая их снова и снова.
Т.е. я дополнительно ни чего не делаю для заучивания слов, разве что, провожу ревизию слов какие из выбранных получилось понять и запомнить в процессе чтения.
Слова я заранее выбираю из списка не известных и выделяю в книге, чтобы обращать внимание только на выбранные.
И сколько у вас неизвестных слов в книге? Я стараюсь брать книги с 96-98% известных мне слов и иногда на одной странице не меньше 5-7 неизвестных слов, получает по вашей методике закапаешься в добавлении слов в приложение, каждые 2-3 предложения делать остановку и записывать.
Но пополнение словарного запаса через чтение поддерживаю, классное начинание 👍
Ибо подъем в 6:30 для слабаков, подъем в 5 утра наше все 💪
Да, согласен, что не нужен. Просто возник спор с коллегой насчёт того, что Spark ругается, когда несоответствие в составе колонок происходит. Проблему порядка колонок я обхожу тем, что в конце всех преобразований вызываю select(columns.map(col):_*)
А он предлагает подкладывать файлы в каталог и не писать через таблицу и не заморачиваться с колонками порядком колонок.
Я считаю это добавит лишних проблем: отсутствие контроля ETL, если мы без контрольно пишем файлы с любым порядком и составом колонок. Тем более ORC не позволяет этого делать. Да я и сам сталкивался с это проблемой пересоздание таблицы с другим порядком колонок, поверх существующих файлов приводит к перемешиванию данных.
Но это довольно странно на самом деле, что информация доступна о положении колонок в файле, но в таблице она не учитывается для каждого файла в таблице.
У parquet тоже перепутаются? По названиям колонок в файле и таблице hive не сопоставляются?
А такого решения ни с одним форматом нет, чтобы таблица находила интересующую её колонку в каждом файле не зависимо от порядка хранения колонок в файлах и правильно выводила данные?
Правильно ли я понимаю, что в ORC можно вставлять новые колонки только в конец таблицы? Любые операция типа:
Вставка колонки в середину;
Запись файл в каталог с таблицей с другим порядком колонок;
Запись файлов с другим составом колонок, например, добавить в середину файла не объявленной в таблице колонки.
Например в каталоге 3 файла:
- 1ый файл - кол1, кол2
- 2ой файл - кол2, кол1
- 3ий файл - кол1, кол3, кол2
Но таблица в Hive объявлена как: кол1, кол2.
В итоге приведет нас к беспорядку, данные в таблице лягут не в те колонки и перепутаются? Т.е. только данные из 1ого файла лягут нормально, остальные данные поедут.
Решает ли эту проблему parquet? Учитывая, что вы говорите, что этот формат позволяет вставлять колонки в середину файла.