(Почти) настроенный докер с последним hadoop и сопутствующими инструментами на борту
Образ при сборке выкачивает много данных (ставит хадупы\юпитеры\хайвы и т.д.). Это норма. Лучше не запускаться при подключении к лимитному интернету.
Для запуска:
- Поставить docker + docker-compose на локальную машину
Для запуска hadoop:
- Сначала запускаем неймноду с командой command: ["hdfs", "namenode", "-format", "-force"]
- Так запуститься надо только в первый раз (либо, после того, как вы снесли образ и примонтированный раздел)
- После того, как контейнер отработал и завершился, запускаемся с командой command: ["hdfs", "namenode"]
- После неймноды поднимаем датаноды, нодменеджеры и т.д.
Для запуска hive:
- Сначала поднимаем постгрес.
- Затем поднимаем метастор с командой command: ["schematool", "--dbType", "postgres", "--initSchema"]
- Так запуститься надо только в первый раз (либо, после того, как вы снесли образ и примонтированный раздел)
- После того, как контейнер отработал и завершился, запускаемся с командой command: [ "hive", "--service", "metastore" ]
- После метастора запускаем hiveserver2