Kilka przykładowych agregacji korzystających z danych zipcodes oraz imieniny opisano w Aggregation Pipeline Examples.
[16.11.2014] 12.11. pojawiła się wersja 2.8.0-rc0. Dlatego do tabelek w zadaniach 1a, 1c, 2 dodać wiersze dla tej (lub późniejszej) wersji MongoDB. W wynikach uwzględnić storageEngines MMAP (Understanding MongoDB Storage) i WiredTiger.
Należy przygotować rozwiązania zadań 1 i 2.
Dane należy wpisać według schematu (całość w jednym wierszu):
1. [Nazwisko, Imię](link do **prywatnego** repo z rozwiązaniem zadania 1 na GitHub).
[Tytuł](link do **prywatnego** repo z rozwiązaniem zadania 2 na GitHub)
- Bławat, Adam
- Nowicki, Jakub
- Bieliński, Marcin
- Gałka, Łukasz
- Grycko, Marcin
- Janowski, Arkadiusz
- Kamiński, Jakub
- Soliński, Damian
- Szklarska, Milena
- Szymanek, Tomasz
- Zdunek, Kamil
- Kulas, Piotr. The Internet Movie Database [1M,WT,G 2AP]
- Czechowicz, Kacper. People [1WT,G 2AP]
- Komorowski, Szymon. GetGlue [1M,WT,G 2AP]
- Ławicki, Patryk. USCars [1M,WT 2AP]
- Wittbrodt, Łukasz. Loty [1M,WT,G, 2-] mapki, zadanie 2 – dead links
- Zduniak, Daniel [1M,G 2-]
A good demo is disproportionately valuable in big data science. — Storrytelling
Należy przygotować rozwiązanie Zadania 3 (można użyć innych danych i napisać swoje map-reduce).
Zamiast bazy MongoDB, można przygotować przykłady lub wtyczki lub agregacje dla bazy Elasticsearch. Na początek należy się przyjrzeć narzędziu Kibana, następnie poczytać o wtyczkach a na koniec o agregacjach.
Uwaga: Większe zadania, można przygotować w zespole 2–3 osobowym.
- Acewicz-Hepfner, Patryk
- Banecka, Kamila
- Banecki, Daniel
- Bednarczyk, Marek
- Bieliński, Marcin
- Bławat, Adam
- Bonczkowska, Magdalena
- Borkowski, Maciej
- Cimoch, Jarosław
- Czechowicz, Kacper
- Dargacz, Mateusz
- Drozdowski, Adrian
- Ekiert, Łukasz
- Gałka, Łukasz
- Grycko, Marcin
- Horoszko, Marcin
- Janowski, Arkadiusz
- Józwiak, Roman
- Kamiński, Jakub
- Karolczak, Jakub
- Kąkol, Jan
- Kłeczek, Piotr
- Komorowski, Szymon
- Koźmiński, Marcin
- Kożuch, Adam
- Kucharski, Maciej
- Kulas, Piotr
- Kuźnik, Mateusz
- Kwiatkowski, Dominik
- Lamkiewicz, Krzysztof
- Latoszewski, Adam
- Latoszewski, Krzysztof
- Ławicki, Patryk
- Makulec, Krzysztof
- Miotk, Mateusz
- Miś, Maciej
- Nowak, Wojciech
- Nowicki, Jakub
- Ossowski, Marcin
- Piotrkowski, Łukasz
- Rękawek, Szymon
- Sałata, Jakub
- Sarzyńska, Magdalena
- Sienkiewicz, Daniel
- Skałkowski, Michał
- Soliński, Damian
- Synowczyk, Piotr
- Szklarska, Milena
- Szymanek, Tomasz
- Wittbrodt, Łukasz
- Zakrzewski, Patryk
- Zalewski, Marcin
- Zdunek, Kamil
Provide public access to scripts, runs, and results:
- Version control all custom scripts:
- avoid writing code
- write thin scripts and use standard tools and use standard UNIX commands to chain things together.
- Avoid manual data manipulation steps:
- use a build system, for example make, and have all results produced automatically by build targets
- if it’s not automated, it’s not part of the project, i.e. have an idea for a graph or an analysis? automate its generation
- Use a markup, for example Markdown, to create reports for analysis and presentation output products.
And two more rules:
- Record all intermediate results, when possible in standardized formats.
- Connect textual statements to underlying results.
- Do automatycznego wygenerowania spisu treści w zadaniach można użyć narzędzia Table of Contents Preprocessor.
- Scott Chacon, Ben Straub. Pro Git
- Stanford Large Network Dataset Collection by Jure Leskovec: Online Reviews (Amazon, Movies, Beer)
- GetGlue and Timestamped Event Data (ok. 11 GB); próbka 100 jsonów getglue101. Dane pochodzą z lat 2007–2012 – tylko filmy i przedstawienia TV. Przykładowe aggregacje: ilu jest różnych użytkowników w danych? jakie jest 10 najpopularniejszych filmów i przedstawień TV? ile jest różnych akcji?
- GeoNames i Postal Codes.