H τεχνητή νοημοσύνη «θυμάται» καλύτερα όταν χρησιμοποιεί εικόνες αντί για κείμενα

H κινεζική εταιρεία DeepSeek δημιούργησε ένα νέο μοντέλο τεχνητής νοημοσύνης το οποίο χρησιμοποιεί τεχνικές που μπορούν να βελτιώσουν καθοριστικά την ικανότητα των συστημάτων να «θυμούνται».

Σήμερα, τα περισσότερα μεγάλα γλωσσικά μοντέλα «σπάνε» το κείμενο σε χιλιάδες μικρές μονάδες που ονομάζονται tokens, για να το μετατρέψουν σε αναπαραστάσεις που μπορούν να κατανοήσουν. Όμως όσο μεγαλύτερη γίνεται μια συνομιλία με έναν χρήστη τόσο οι υπολογιστικές απαιτήσεις για να διατηρηθούν αυτά τα tokens αυξάνονται δραματικά. Αυτό μπορεί να κάνει το ΑΙ να ξεχάσει πράγματα που έχουν ειπωθεί και να μπερδέψει τις πληροφορίες, οδηγώντας στο πρόβλημα που αποκαλείται «context rot» (αποσύνθεση του πλαισίου συζήτησης).

Η DeepSeek κυκλοφόρησε πρόσφατα ένα νέο μοντέλο οπτικής αναγνώρισης χαρακτήρων (OCR) που λειτουργεί εξάγοντας κείμενο από μια εικόνα και μετατρέποντάς το σε λέξεις που μπορούν να αναγνωστούν από μηχανή. Είναι η ίδια τεχνολογία που χρησιμοποιείται σε εφαρμογές σάρωσης, μετάφραση κειμένου σε φωτογραφίες και πολλά εργαλεία προσβασιμότητας.Η νέα αυτή μέθοδος προτείνει μια άλλη προσέγγιση: την αποθήκευση γραπτών πληροφοριών σε μορφή εικόνων, σχεδόν σαν να φωτογραφίζει σελίδες από βιβλίο. Αυτό επιτρέπει στο μοντέλο να διατηρεί σχεδόν τις ίδιες πληροφορίες, χρησιμοποιώντας πολύ λιγότερα tokens.

Η βελτίωση του τρόπου με τον οποίο τα μοντέλα ΑΙ «θυμούνται» πληροφορίες θα μπορούσε να μειώσει την υπολογιστική ισχύ που χρειάζονται για να λειτουργήσουν, με αποτέλεσμα να μετριαστεί το μεγάλο (και αυξανόμενο) αποτύπωμα άνθρακα της τεχνητής νοημοσύνης.

https://www.cnn.gr/tech/story/503544/h-texniti-noimosyni-thymatai-kalytera-otan-xrisimopoiei-eikones-anti-gia-keimena

Νέες τάσεις στην Πληροφορική

H τεχνητή νοημοσύνη «θυμάται» καλύτερα όταν χρησιμοποιεί εικόνες αντί για κείμενα

Κάντε το πρώτο σχόλιο

Υποβολή απάντησης Ακύρωση απάντησης