The description of one pictureς είναι ιδιαίτερα εύκολη για τους people- but this is not the case for computers.
However, this seems to be starting to change, and the mark is the job of her researchers Google, who developed one system machine learning which is capable of automatically producing captions to describe images the first time they see it.
Όπως γράφουν οι Όριολ Βινιάλς, Αλεξάντερ Τόσεφ, Σάμι Μπέντζιο και Ντουμίτρου Ερχάν, επιστήμονες της εταιρείας στο research blog της Google, αυτού του είδους το σύστημα θα μπορούσε να βοηθήσει μακροπρόθεσμα ανθρώπους με προβλήματα όρασης να κατανοήσουν εικόνες, να παρέχει εναλλακτικό κείμενο για εικόνες σε σημεία του κόσμου όπου οι συνδέσεις δικτύου δεν είναι καλές και να καταστήσει ευκολότερη την search images on Google.
Recent research has resulted in significant improvement in object detection, registration and tagging/titling. However, accurately describing a complex scene requires a deeper representation of what is happening, "catching" how the various objects relate to each other and then "translating" the set of "inferences" into physics language.
«Πολλές προσπάθειες να κατασκευάσουμε computer-generated φυσικές περιγραφές εικόνων προτείνουν τον συνδυασμό σύγχρονων state of the art τεχνικών τόσο στο computer participants' vision όσο και στο natural language processing, για τον σχηματισμό μιας συνολικής προσέγγισης περιγραφής εικόνας. Αλλά τι θα γινόταν αν αντί για αυτό συνδυάζαμε πρόσφατα μοντέλα computer vision και γλώσσας μέσα σε ένα μοναδικό, από κοινού ‘εκπαιδευμένο' σύστημα, λαμβάνοντας μια εικόνα και άμεσα παράγοντας μία ακολουθία λέξεων – αναγνώσιμη από ανθρώπους- για να την περιγράψουμε;» ρωτούν οι ερευνητές.
Source: naftemporiki.gr
