Σύνοψη

Το SL-ReDu GSL corpus είναι μια συλλογή από βίντεο RGB+D 21 νοηματιστών συνολικής διάρκειας 36 ωρών, τα οποία έχουν καταγραφεί σε συνθήκες στούντιο κατάλληλες για αναγνώριση ΕΝΓ, καλύπτοντας τόσο περιοχές γλωσσικής εκπαίδευσης όσο και γενικό περιεχόμενο. Η βάση δεδομένων συλλέχθηκε στα πλαίσια του έργου SL-ReDu, το οποίο επικεντρώνεται στην περίπτωση εκπαιδευτικής χρήσης της συστηματικής διδασκαλίας της ΕΝΓ ως δεύτερης γλώσσας. Η συλλογή περιέχει τρία υποσύνολα βίντεο RGB+D: (α) λήμματα, (β) φράσεις και (γ) δακτυλοσυλλαβισμό.


signers
Δείγματα RGB εικόνων από τους 21 νοηματιστές της συλλογής δεδομένων βίντεο του SL-ReDu GSL corpus .


Στατιστικά του SL-ReDu GSL corpus
Εργασία Νοηματιστές Μον. περιεχόμενο Μέγ. λεξιλογίου Μέσ. μονάδες/βίντεο Βίντεο Εικόνες Διάρκεια (ω:λ)
Μεμονωμένα νοήματα 21 369 λήμματα 369 λήμματα 1 λήμμα 22,632 2,715,840 25:15
Συνεχής νοηματισμός 21 799 προτάσεις 294 λήμματα 2.86 λήμματα 5,930 889,500 8:24
Δακτυλοσυλλαβισμός 21 950 λέξεις 24 γράμματα 4.55 γράμματα 1,554 234,360 2:17
Σύνολο 21 30,116 3,839,700 35:56

Λήψη

Τα αρχεία δεδομένων βίντεο και η ερμηνεία τους είναι διαθέσιμα για λήψη. Παρέχεται επίσης μετάφραση για τη βάση συνεχών φράσεων ΕΝΓ.

Παρέχουμε επίσης προτεινόμενους διαχωρισμούς δεδομένων για εκπαίδευση, επικύρωση και δοκιμή των ανεπτυγμένων μοντέλων ΑΝΓ ξεχωριστά για κάθε εργασία αναγνώρισης (μεμονωμένα νοήματα, συνεχής νοηματισμός, δακτυλοσυλλαβισμός), ενθαρρύνοντας έτσι συγκρίσιμη και αναπαραγώγιμη έρευνα για το θέμα. Συγκεκριμένα, χωριστά για κάθε εργασία αναγνώρισης, το σύνολο για δοκιμή διατηρείται πανομοιότυπο σε τρία διαφορετικά πειραματικά πλαίσια, επιτρέποντας έτσι, επίσης, μια δίκαιη σύγκριση μεταξύ αυτών των πλαισίων. Και συγκεκριμένα:

  • MS: Πλαίσιο πολλαπλών νοηματιστών, όπου τα δεδομένα από όλους τους νοηματιστές μοιράζονται μεταξύ εκπαίδευσης, επικύρωσης και δοκιμής (χρησιμοποιείται ένα μόνο fold).
  • SI: Πλαίσιο ανεξάρτητου νοηματιστή, όπου υιοθετείται μια ρύθμιση διασταυρούμενης επικύρωσης 7 fold. Κάθε fold περιέχει δεδομένα εκπαίδευσης και επικύρωσης από 18 νοηματιστές, με τη δοκιμή να γίνεται στους υπόλοιπους 3 (η διαδικασία επαναλαμβάνεται και στα 7 fold για να καλύψει όλους τους νοηματιστές).
  • SA: Πλαίσιο προσαρμοσμένο σε νοηματιστή, όπου χρησιμοποιείται παρόμοιο πλαίσιο με το σύστημα ανεξάρτητου νοηματιστή, αλλά εισάγεται ένα πρόσθετο σύνολο δεδομένων προσαρμογής των 3 νοηματιστών δοκιμής για κάθε fold. Αυτό επιτρέπει τη διεξαγωγή πειραμάτων προσαρμογής. Αυτό το σετ προσαρμογής μπορεί να χρησιμοποιηθεί όπως επιθυμούν οι χρήστες της βάσης δεδομένων (π.χ. για εκπαίδευση ή/και επικύρωση). Σημειώστε ότι μεμονωμένα μοντέλα μπορούν να προσαρμοστούν/δοκιμαστούν για καθέναν από τους 3 νοηματιστές οποιουδήποτε fold.
Επιπλέον, διατίθεται και ο ακόλουθος διαχωρισμός:

  • MS2: Μια ρύθμιση πολλαπλών νοηματιστών με μια πιο παραδοσιακή αναλογία διαχωρισμού δεδομένων μεταξύ των συνόλων εκπαίδευσης, επικύρωσης και δοκιμής (κοντά σε διαχωρισμό 80%-10%-10%), με αποτέλεσμα ένα μικρότερο σύνολο δοκιμής από το προηγούμενο διαχωρισμό MS (και πάλι χρησιμοποιείται ένα μόνο fold).
Πρόσθετοι διαχωρισμοί δεδομένων ενδέχεται επίσης να παρουσιαστούν στο μέλλον, μετά από πιθανές προτάσεις/αιτήματα από χρήστες της βάσης δεδομένων.


Δημοσίευση

Εάν χρησιμοποιείτε αυτό το corpus, αναφέρετε την εργασία μας χρησιμοποιώντας την παρακάτω αναφορά:
@inproceedings{SL-REDU_Dataset23,
author = {K. Papadimitriou and G. Sapountzaki and K. Vasilaki and E. Efthimiou and S.-E. Fotinea and G. Potamianos},
title = {{SL-REDU GSL}: {A} Large Greek Sign Language Recognition Corpus},
booktitle={Proc. IEEE International Conference on Acoustics, Speech and Signal Processing Workshop on Sign Language Translation and Avatar Technology (ICASSPW-SLTAT)},
pages={1-5},
year = {2023},
doi={10.1109/ICASSPW59220.2023.10193306}}


Επικοινωνία

Για οποιαδήποτε απορία σχετικά με το corpus, τα email επικοινωνίας είναι τα ακόλουθα:
aipapadimitriou (at) uth (dot) gr
gpotam (at) ieee (dot) org