Διαχείριση Μεγάλου Όγκου Δεδομένων στο Διαδίκτυο
Big Data Management

Valid XHTML 1.0 Strict

Πληροφορίες Μαθήματος

Εξάμηνο Χειμερινό 2017
Πότε/Πού Τετάρτη 17:15-19:00, Πέμπτη 9:15-11:00, (Εργαστήριο Aρεταίος)
Βιβλιογραφία
  1. “Εξόρυξη από Μεγάλα Σύνολα Δεδομένων”, Anand Rajaraman, Jeffrey David Ullman, ΕΚΔΟΣΕΙΣ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΜΟΝ. ΕΠΕ 2012, ΑΘΗΝΑ
  2. “Η ΜΕΘΟΔΟΣ PAGERANK ΤΗΣ GOOGLE ΚΑΙ ΑΛΛΑ ΣΥΣΤΗΜΑΤΑ ΚΑΤΑΤΑΞΗΣ ΙΣΤΟΣΕΛΙΔΩΝ”, LANGVILLE AMY, MEYER CARL ΙΔΡΥΜΑ ΤΕΧΝΟΛΟΓΙΑΣ & ΕΡΕΥΝΑΣ-ΠΑΝΕΠΙΣΤΗΜΙΑΚΕΣ ΕΚΔΟΣΕΙΣ ΚΡΗΤΗΣ 2010
On-line Βιβλία και άλλοι πόροι
  1. Σελίδα στο e-class με τις παρουσιάσεις του μαθήματος εδώ
  2. "Data-Intensive Text Processing with MapReduce", Jimmy Lin and Chris Dyer. Morgan & Claypool Publishers, 2010. Online εδώ
  3. "An Introduction to R", W. N. Venables, D. M. Smith and the R Core Team. Online εδώ
Διδάσκων: Δημήτριος Τσουμάκος
E-mail: dtsouma@ionio.gr
(Aναφέρετε το μάθημα και τον Α.Μ. σας στο "subject" του e-mail υποχρεωτικά)

Βαθμολόγηση Μαθήματος

Ο βαθμός του μαθήματος προκύπτει από βαθμολόγηση εργαστηριακών θεμάτων και παρουσιάσεων (15%), ενεργή συμμετοχή στο μάθημα (5%) και απαλλακτικής προγραμματιστικής εργασίας (80%). Κάθε ομάδα φοιτητών θα παρουσιάσει στην τάξη ένα επιλεγμένο θέμα (δείτε παρακάτω πιθανά θέματα) καθώς και μια (απλή) υλοποίησή του. Το θέμα της απαλλακτικής εργασίας τίθεται σε συννενόηση με τον διδάσκοντα και πρέπει να παραδίδεται στο τέλος του εξαμήνου που θα λάβει βαθμολογία ο φοιτητής χωρίς εξαίρεση. Η εργασία περιλαμβάνει παρουσίαση μεθόδου και αποτελεσμάτων καθώς και γραπτή αναφορά. Εργασίες εκτός προθεσμίας δεν βαθμολογούνται στην παρούσα ούτε καμιά από τις επόμενες εξεταστικές περιόδους του ακαδημαϊκού έτους. Ο βαθμός των εργαστηρικών ασκήσεων διατηρείται μόνον μέχρι και την εξεταστική περίοδο του Σεπτεμβρίου.
Το μάθημα είναι καθαρά εργαστηριακό. Απαιτούνται πολύ καλες προγραμματιστικές γνώσεις καθώς και γνώση Δομών Δεδομένων, Βάσεων Δεδομένων και Λειτουργικών Συστημάτων.

Περιεχόμενο Μαθήματος

Το μάθημα επικεντρώνεται στην έννοια "δεδομένα μεγάλου όγκου" (big data) και στη μελέτη μοντέρνων τεχνικών και τεχνολογιών αποθήκευσης και διαχείρισής τους. Συγκεκριμένα, θα μελετηθούν: Τα Υπολογιστικά Νέφη (Cloud Computing). Βάσεις δεδομένων στο διαδίκτυο: Σχεσιακές, κατανεμημένες και columnar βάσεις, με έμφαση στις τεχνολογίες κατανεμημένων συστημάτων αρχείων (HDFS), ΝοSQL (HBase, Cassandra), graph-databases(Neo4j). Μοντέλα υπολογισμού μεγάλου όγκου δεδομένων (MapReduce, BSP) και πλατφόρμες που τα υλοποιούν (Hadoop, Hama, Spark, κλπ). Επιστήμη Δεδομένων και η γλώσσα R. Εφαρμογές των παραπάνω και υλοποίηση αλγορίθμων με κατανεμημένο τρόπο για επεξεργασία μεγάλου όγκου δεδομένων.

Development Tools

Οι φοιτητές μπορούν να χρησιμοποιούν είτε πόρους του εργαστηρίου, είτε Εικονικές Μηχανές από τον ~okeano, είτε και προσωπικά μηχανήματα. Οι εργασίες περιλαμβάνουν το στήσιμο και δημιουργία εφαρμογών πάνω από σύγχρονες πλατφόρμες (π.χ. hadoop, HBase, Mahout, κλπ), με βασική εμπλοκή του φοιτητή σε όλα αυτά τα στάδια.

Θέματα Παρουσιάσεων από Ομάδες

Παρακάτω αναφέρονται ενδεικτικά θέματα για παρουσίαση από 1 ομάδα στα πλαίσια του μαθήματος:

Πρόγραμμα Ομάδων

Ημερομηνία Θέμα Ομάδα

Διαλέξεις και Εργασίες

Ημερομηνία Θέμα Αναγνώσματα
4,5 Οκτ. Εισαγωγή στα Big Data
Εισαγωγή στο Cloud Computing
Κεφ.1 από το "Data-Intensive Text Processing with MapReduce"
Τί είναι τα Big Data
Σύνοψη του Cloud Computing από τη NIST
18,19 Οκτ. Εισαγωγή στο MapReduce - Hadoop - HDFS MapReduce paper from Google
Apache Hadoop site
HDFS Architecture
1,2 Νοε. Τεχνολογίες Data-Warehousing
Columnar Datastores
An Overview of Data Warehousing and OLAP Technology
The Design and Implementation of Modern Column-Oriented Database Systems
C-Store
8,9 Νοε. NoSQL Databases - Cassandra - Hbase NoSQL Databases
CAP theorem
Hbase
BigTable
Cassandra - A Decentralized Structured Storage System
Cassandra