Διαχείριση Μεγάλου Όγκου Δεδομένων στο Διαδίκτυο
Big Data Management

Valid XHTML 1.0 Strict

Πληροφορίες Μαθήματος

Εξάμηνο Χειμερινό 2015
Πότε/Πού Τετάρτη 17:15-20:30 (Εργαστήριο 2)
Βιβλιογραφία
  1. “Εξόρυξη από Μεγάλα Σύνολα Δεδομένων”, Anand Rajaraman, Jeffrey David Ullman, ΕΚΔΟΣΕΙΣ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΜΟΝ. ΕΠΕ 2012, ΑΘΗΝΑ
  2. “Η ΜΕΘΟΔΟΣ PAGERANK ΤΗΣ GOOGLE ΚΑΙ ΑΛΛΑ ΣΥΣΤΗΜΑΤΑ ΚΑΤΑΤΑΞΗΣ ΙΣΤΟΣΕΛΙΔΩΝ”, LANGVILLE AMY, MEYER CARL ΙΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ & ΕΡΕΥΝΑΣ-ΠΑΝΕΠΙΣΤΗΜΙΑΚΕΣ ΕΚΔΟΣΕΙΣ ΚΡΗΤΗΣ 2010
On-line Βιβλία και άλλοι πόροι
  1. Σελίδα στο e-class με τις παρουσιάσεις του μαθήματος εδώ
  2. "Data-Intensive Text Processing with MapReduce", Jimmy Lin and Chris Dyer. Morgan & Claypool Publishers, 2010. Online εδώ
  3. "An Introduction to R", W. N. Venables, D. M. Smith and the R Core Team. Online εδώ
Διδάσκων: Δρ. Δημήτριος Τσουμάκος
E-mail: dtsouma@ionio.gr
(σιγουρευτείτε ότι αναφέρετε το μάθημα στο "subject" του e-mail που μου στέλνετε)

Βαθμολόγηση Μαθήματος

Ο βαθμός του μαθήματος προκύπτει από βαθμολόγηση εργαστηριακών θεμάτων και παρουσιάσεων (25%), ενεργή συμμετοχή στο μάθημα (5%) και απαλλακτικής προγραμματιστικής εργασίας (70%). Κάθε ομάδα φοιτητών θα παρουσιάσει στην τάξη ένα επιλεγμένο θέμα (δείτε παρακάτω πιθανά θέματα) καθώς και μια (απλή) υλοποίησή του. Το θέμα της απαλλακτικής εργασίας τίθεται σε συννενόηση με τον διδάσκοντα και πρέπει να παραδίδεται στο τέλος του εξαμήνου που θα λάβει βαθμολογία ο φοιτητής χωρίς εξαίρεση. Εργασίες εκτός προθεσμίας δεν βαθμολογούνται στην παρούσα ούτε καμιά από τις επόμενες εξεταστικές περιόδους του ακαδημαϊκού έτους. Ο βαθμός των εργαστηρικών ασκήσεων διατηρείται μόνον μέχρι και την εξεταστική περίοδο του Σεπτεμβρίου.
Το μάθημα είναι καθαρά εργαστηριακό. Απαιτούνται πολύ καλες προγραμματιστικές γνώσεις καθώς και γνώση Δομών Δεδομένων, Βάσεων Δεδομένων και Λειτουργικών Συστημάτων.

Περιεχόμενο Μαθήματος

Στα πλαίσια αυτού του μαθήματος θα επικεντρωθούμε στην έννοια "δεδομένα μεγάλου όγκου" (big data) και θα μελετήσουμε μοντέρνες τεχνικές και πλατφόρμες αποθήκευσης και διαχείρισής τους. Συγκεκριμένα, θα μελετηθούν: Τα Υπολογιστικά Νέφη (Cloud Computing). Βάσεις δεδομένων στο διαδίκτυο: Σχεσιακές, παράλληλες και κατανεμημένες βάσεις, με έμφαση στις τεχνολογίες κατανεμημένων συστημάτων αρχείων (HDFS), ΝοSQL (HBase, Cassandra), graph-databases(Neo4j). Μοντέλα υπολογισμού μεγάλου όγκου δεδομένων (MapReduce, BSP) και πλατφόρμες που τις εφαρμόζουν (Hadoop, Hama, Spark, κλπ). Modern Data Science και η γλώσσα R. Εφαρμογές των παραπάνω και υλοποίηση αλγορίθμων με κατανεμημένο τρόπο για επεξεργασία μεγάλου όγκου δεδομένων.

Development Tools

Οι φοιτητές μπορούν να χρησιμοποιούν είτε πόρους του εργαστηρίου, είτε Εικονικές Μηχανές από τον ~okeano, είτε και προσωπικά μηχανήματα. Οι εργασίες περιλαμβάνουν το στήσιμο και δημιουργία εφαρμογών πάνω από σύγχρονες πλατφόρμες (π.χ. hadoop, HBase, Mahout, κλπ), με βασική εμπλοκή του φοιτητή σε όλα αυτά τα στάδια.

Θέματα Παρουσιάσεων από Ομάδες

Παρακάτω αναφέρονται ενδεικτικά θέματα για παρουσίαση από 1 ομάδα στα πλαίσια του μαθήματος:

Πρόγραμμα Ομάδων

Ημερομηνία Θέμα Ομάδα
2 Δεκ. Cassandra (2) Καραβάρας Ελευθέριος - Σπητιέρης Θωμάς
9 Δεκ. Neo4j / GraphDBs (1) Κορακάκης Μιχαήλ – Νικολάου Αχιλλέας
2 Δεκ. ML over Hadoop (4) ΜΩΚΟΣ ΘΕΟΔΩΡΟΣ - ΚΥΡΙΜΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ
?? Spark (3) Γιαννακούρης Βίκτωρ - Ρέστας Θάνος

Διαλέξεις και Εργασίες

Ημερομηνία Θέμα Αναγνώσματα
7 Οκτ. Εισαγωγή στα Big Data
Εισαγωγή στο Cloud Computing
Κεφ.1 από το "Data-Intensive Text Processing with MapReduce"
Τί είναι τα Big Data
Σύνοψη του Cloud Computing από τη NIST
14 Οκτ. Εισαγωγή στο HDFS, Εισαγωγή στο MapReduce MapReduce paper from Google
Apache Hadoop site
HDFS Architecture
4 Νοε. Τεχνολογίες Data-Warehousing
Columnar Datastores
Συζήτηση για Εξαμηνιαίες εργασίες
An Overview of Data Warehousing and OLAP Technology
The Design and Implementation of Modern Column-Oriented Database Systems
C-Store
11 Νοε. NoSQL Databases - Cassandra - Hbase NoSQL Databases
CAP theorem
Hbase
BigTable
Cassandra - A Decentralized Structured Storage System
Cassandra
18 Νοε. BSP model - Pregel - Apache Giraph BSP Model
Pregel: A System for Large-Scale Graph Processing
Apache Giraph