Skip to content

eellak/gsoc2018-GG-extraction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

license language

NER & Metadata Extraction from the Greek Government Gazette

Extract Responsibility Assignments (RespA) to units of Public Administration Organizations (PAOrgs) and other useful data / metadata from Greek Government Gazette documents.

A GFOSS – Open Technologies Alliance project as part of Google's SoC 2018.


Participant: Chris Karageorgiou Kaneen

Mentors:

Contents
Project: Description, Implementation
CLI Tools: Fetch, Convert
Operation: Install, Use, API
Future Work: Ideas, Contribute

The objective of this project was the identification and linkage of Government Directorates and Divisions with the responsibilities assigned to them, the types of services they are required to provide according to their legal framework published in http://www.et.gr/ and the extraction of this information with related metadata.

The aim was to link assigned roles and services per management unit (Directorates, Divisions & Sections) and codify this specific information into a machine readable format.

The Issue type out of which this information can be extracted is Public Administration Organization Presidential Decrees, such as:

During the course of the project Responsibility Assignment (RespA) classifiers were formulated and trained on and for the above issues of interest at the level of Issues, Articles and Paragraph-Sentence chunks of text.

Using semi-manual methods rough extracted data such as the following can be obtained:

{
  "Το Τμήμα Β Παρακολούθησης Προϋπολογισμού και Αναφορών Εποπτευόμενων Φορέων Ανώτατης Εκπαίδευσης Εποπτείας Εταιρειών Αξιοποίησης και Διαχείρισης Περιουσίας των Πανεπιστημίων των": [
        "4. Το Τμήμα Β΄ Παρακολούθησης Προϋπολογισμού \nκαι Αναφορών Εποπτευόμενων Φορέων Ανώτατης Εκπαίδευσης, Εποπτείας Εταιρειών Αξιοποίησης και Διαχείρισης Περιουσίας των Πανεπιστημίων, των Ειδικών \nΛογαριασμών Κονδυλίων Έρευνας (ΕΛΚΕ) των ΑΕΙ των \nΝΠΙΔ των ΑΕΙ και των ερευνητικών πανεπιστημιακών \nινστιτούτων των ΑΕΙ είναι αρμόδιο για:",
        "α) τη σύνταξη των αποφάσεων έγκρισης και τροποποίησης των προϋπολογισμών, απολογισμών και την \nπαρακολούθηση εκτέλεσης των προϋπολογισμών, των \nφορέων Ανώτατης Εκπαίδευσης (Πανεπιστημίων, Τεχνολογικών Εκπαιδευτικών Ιδρυμάτων (ΤΕΙ), των Ανώτατων \nΕκκλησιαστικών Ακαδημιών, των Πανεπιστημιακών Νοσοκομείων αρμοδιότητας του ΥΠ.Π.Ε.Θ. και των Φοιτητικών Λεσχών των Πανεπιστημίων),",
        "β) την υποβολή αιτήματος και σύνταξη αποφάσεων \nδέσμευσης πίστωσης και αποφάσεων επιχορήγησης των \nανωτέρω φορέων,",
        "γ) τις προεγκρίσεις ανάληψης υποχρέωσης σε βάρος \nπροϋπολογισμών ΑΕΙ,",
        "δ) τον έλεγχο και την αποστολή στοιχείων των φορέων \nμέσω του Τμήματος Οδηγιών και Δημοσιονομικών αναφορών, προς το ΓΛΚ και την Ελληνική Στατιστική Αρχή,",
        "ε) τη μέριμνα για την έγκαιρη κοινοποίηση των εγκυκλίων και την παροχή κατευθύνσεων και οδηγιών προς \nτους εποπτευόμενους φορείς για την ορθή εκτέλεση του \nπροϋπολογισμού τους,",
        "στ) την ενημέρωση του Μητρώου δεσμεύσεων,",
        "ζ) τη βεβαίωση ύπαρξης πίστωσης στον προϋπολογισμό των ΑΕΙ για την πρακτική άσκηση των φοιτητών ΑΕΙ,",
        "η) τη βεβαίωση ύπαρξης πιστώσεων στον προϋπολογισμό για τις αποζημιώσεις επιτροπών και συλλογικών \nοργάνων των φορέων αρμοδιότητας του Τμήματος,",
        "θ) τη σύνταξη των Μνημονίων Συνεργασίας με τους \nφορείς που εποπτεύει, σύμφωνα με τα οριζόμενα στις \nκείμενες διατάξεις, το καθορισμό τριμηνιαίων στόχων \nεκτέλεσης προϋπολογισμού και την παρακολούθηση \nεκτέλεσης αυτών,",
        "ι) τη σύνταξη οικονομικών εκθέσεων επί σχεδίων νόμων που αφορούν στην Τριτοβάθμια Εκπαίδευση,",
        "ια) τον χειρισμό κάθε άλλου συναφούς θέματος."
    ],
    
    "Το Τμήμα Γ Οργάνωσης και Απλούστευσης Διαδικασιών είναι αρμόδιο για": [
        "5. Το Τμήμα Γ’ Οργάνωσης και Απλούστευσης Διαδικασιών είναι αρμόδιο για:",
        "α) τον χειρισμό όλων των θεμάτων οργάνωσης και \nαπλούστευσης των διαδικασιών των υπηρεσιών του \nΥπουργείου και των εποπτευόμενων φορέων του, σε \nσυνεργασία με τους αρμόδιους φορείς, με στόχο την \nταχύτερη διεκπεραίωση των διοικητικών ενεργειών,",
        "β) την ανάπτυξη και εφαρμογή σύγχρονων τεχνικών \nκαι μεθόδων εργασίας για την αύξηση της παραγωγικότητας των υπαλλήλων,",
        "γ) τη μελέτη των χρησιμοποιούμενων εντύπων δικαιολογητικών, που κατά περίπτωση απαιτούνται να υποβάλλουν οι συναλλασσόμενοι και την εισήγηση για τη \nβελτίωση και τυποποίησή τους,",
        "δ) τον χειρισμό κάθε άλλου συναφούς θέματος."
    ],
    
    "Τμήμα A5 Καταχώρισης Δημοσιευμάτων και Παρακολούθησης Παραγωγής ΦΕΚ β βάρδια Το Τμήμα έχει τις ίδιες αρμοδιότητες με το Τμήμα Α3": [
        "ε) Τμήμα A5 Καταχώρισης Δημοσιευμάτων και Παρακολούθησης Παραγωγής ΦΕΚ (β΄ βάρδια)\nΤο Τμήμα έχει τις ίδιες αρμοδιότητες με το Τμήμα Α3 \nκαι επιπλέον:",
        "Εισάγει στοιχεία όλων των εγγράφων, σύμφωνα με \nτον ΚΑΔ στο ΟΠΣ, όπως ο αριθμός πρωτοκόλλου του \nδημοσιεύματος, ο αριθμός πρωτοκόλλου του διαβιβαστικού του φορέα και οι ημερομηνίες τους, καθώς και \nπεριλήψεις των εγγράφων, κ.λπ.).",
        "Ελέγχει για τυχόν διπλές εγγραφές.",
        "Επεξεργάζεται αρχικά τα κείμενα (έλεγχος πληρότητας \nστοιχείων, ορθότητα σύνταξης κειμένου κ.λπ.).",
        "Ταξινομεί την επεξεργασμένη προς δημοσίευση ύλη \nκατά τεύχος ΦΕΚ."
    ],
    
    ...
}

As OrderedDict data, JSON or XML formats.

A set of data and metadata extractors was also implemented to extract useful sections and bits of information such as decision contents, summaries, bodies, etc. from Decision Issues as well as articles, issue dates, numbers, serial numbers etc. from different kinds of Issues.

One should assume an ~80% accuracy rate for the segmentation and extraction of the appropriate Responsibility sections.


My progress can be found at Projects and short presentation of the project can be found at Final Report.

More detailed info regarding Implementation, Usage, Future Work etc. can be found here: Wiki.

Releases

No releases published

Packages

No packages published