Εξάμηνο | Χειμερινό 2015 |
Πότε/Πού | Τετάρτη 17:15-20:30 (Εργαστήριο 2) |
Βιβλιογραφία |
|
On-line Βιβλία και άλλοι πόροι | |
Διδάσκων: | Δρ. Δημήτριος Τσουμάκος |
E-mail: | dtsouma@ionio.gr (σιγουρευτείτε ότι αναφέρετε το μάθημα στο "subject" του e-mail που μου στέλνετε) |
Ο βαθμός του μαθήματος προκύπτει από βαθμολόγηση εργαστηριακών θεμάτων και παρουσιάσεων (25%),
ενεργή συμμετοχή στο μάθημα (5%) και απαλλακτικής προγραμματιστικής εργασίας (70%).
Κάθε ομάδα φοιτητών θα παρουσιάσει στην τάξη ένα επιλεγμένο θέμα (δείτε παρακάτω πιθανά θέματα) καθώς και μια (απλή) υλοποίησή του.
Το θέμα της απαλλακτικής εργασίας τίθεται σε συννενόηση με τον διδάσκοντα και πρέπει να παραδίδεται στο τέλος του εξαμήνου που θα λάβει βαθμολογία ο φοιτητής χωρίς εξαίρεση.
Εργασίες εκτός προθεσμίας δεν βαθμολογούνται στην παρούσα ούτε καμιά από τις επόμενες εξεταστικές περιόδους του ακαδημαϊκού έτους. Ο βαθμός των εργαστηρικών ασκήσεων διατηρείται μόνον μέχρι και την εξεταστική περίοδο του Σεπτεμβρίου.
Το μάθημα είναι καθαρά εργαστηριακό. Απαιτούνται πολύ καλες προγραμματιστικές γνώσεις καθώς και γνώση Δομών Δεδομένων, Βάσεων Δεδομένων και Λειτουργικών Συστημάτων.
Στα πλαίσια αυτού του μαθήματος θα επικεντρωθούμε στην έννοια "δεδομένα μεγάλου όγκου" (big data) και θα μελετήσουμε μοντέρνες τεχνικές και πλατφόρμες αποθήκευσης και διαχείρισής τους. Συγκεκριμένα, θα μελετηθούν: Τα Υπολογιστικά Νέφη (Cloud Computing). Βάσεις δεδομένων στο διαδίκτυο: Σχεσιακές, παράλληλες και κατανεμημένες βάσεις, με έμφαση στις τεχνολογίες κατανεμημένων συστημάτων αρχείων (HDFS), ΝοSQL (HBase, Cassandra), graph-databases(Neo4j). Μοντέλα υπολογισμού μεγάλου όγκου δεδομένων (MapReduce, BSP) και πλατφόρμες που τις εφαρμόζουν (Hadoop, Hama, Spark, κλπ). Modern Data Science και η γλώσσα R. Εφαρμογές των παραπάνω και υλοποίηση αλγορίθμων με κατανεμημένο τρόπο για επεξεργασία μεγάλου όγκου δεδομένων.
Οι φοιτητές μπορούν να χρησιμοποιούν είτε πόρους του εργαστηρίου, είτε Εικονικές Μηχανές από τον ~okeano, είτε και προσωπικά μηχανήματα. Οι εργασίες περιλαμβάνουν το στήσιμο και δημιουργία εφαρμογών πάνω από σύγχρονες πλατφόρμες (π.χ. hadoop, HBase, Mahout, κλπ), με βασική εμπλοκή του φοιτητή σε όλα αυτά τα στάδια.
Παρακάτω αναφέρονται ενδεικτικά θέματα για παρουσίαση από 1 ομάδα στα πλαίσια του μαθήματος:
Ημερομηνία | Θέμα | Ομάδα |
---|---|---|
2 Δεκ. | Cassandra | (2) Καραβάρας Ελευθέριος - Σπητιέρης Θωμάς |
9 Δεκ. | Neo4j / GraphDBs | (1) Κορακάκης Μιχαήλ – Νικολάου Αχιλλέας |
2 Δεκ. | ML over Hadoop | (4) ΜΩΚΟΣ ΘΕΟΔΩΡΟΣ - ΚΥΡΙΜΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ |
?? | Spark | (3) Γιαννακούρης Βίκτωρ - Ρέστας Θάνος |
Ημερομηνία | Θέμα | Αναγνώσματα |
---|---|---|
7 Οκτ. | Εισαγωγή στα Big Data Εισαγωγή στο Cloud Computing |
Κεφ.1 από το "Data-Intensive Text Processing with MapReduce" Τί είναι τα Big Data Σύνοψη του Cloud Computing από τη NIST |
14 Οκτ. | Εισαγωγή στο HDFS, Εισαγωγή στο MapReduce |
MapReduce paper from Google Apache Hadoop site HDFS Architecture |
4 Νοε. | Τεχνολογίες Data-Warehousing Columnar Datastores Συζήτηση για Εξαμηνιαίες εργασίες |
An Overview of Data Warehousing and OLAP Technology The Design and Implementation of Modern Column-Oriented Database Systems C-Store |
11 Νοε. | NoSQL Databases - Cassandra - Hbase | NoSQL Databases CAP theorem Hbase BigTable Cassandra - A Decentralized Structured Storage System Cassandra |
18 Νοε. | BSP model - Pregel - Apache Giraph | BSP Model Pregel: A System for Large-Scale Graph Processing Apache Giraph |