Tο ένα τρίτο των απαντήσεων που παρέχουν τα εργαλεία αναζήτησης με τεχνητή νοημοσύνη περιέχει ισχυρισμούς χωρίς αξιόπιστη τεκμηρίωση, αναδεικνύοντας τα όρια της ακρίβειας και της αξιοπιστίας τους ακόμα και στα πιο προηγμένα συστήματα.

 

Η συζήτηση για την αξιοπιστία της τεχνητής νοημοσύνης δεν είναι καινούργια. Από την πρώτη στιγμή που τα μεγάλα γλωσσικά μοντέλα (LLMs) και τα παραγόμενα από αυτά εργαλεία αναζήτησης βγήκαν στο προσκήνιο, ερευνητές, αναλυτές και χρήστες εξέφρασαν ανησυχίες για την εγκυρότητα των απαντήσεων που παράγονται. Πρόσφατα δεδομένα έρχονται να ρίξουν περισσότερο φως και να τεκμηριώσει με αριθμούς αυτό που πολλοί υποψιάζονταν: σχεδόν το ένα τρίτο των απαντήσεων που δίνουν τα εργαλεία αναζήτησης με τεχνητή νοημοσύνη περιέχει ισχυρισμούς που δεν υποστηρίζονται από αξιόπιστες πηγές

Ο Pranav Narayanan Venkit και την ομάδα του στο Salesforce AI Research έθεσαν στο μικροσκόπιο μια σειρά από γνωστά εργαλεία, όπως το GPT-4.5 και το GPT-5 της OpenAI, το Perplexity, το Bing Chat της Microsoft και το You.com. Παράλληλα, αξιολόγησαν πιο εξειδικευμένους “agents” βαθιάς έρευνας, όπως το Deep Research του GPT-5 ή το Think Deeper του Bing. Στόχος τους ήταν να διαπιστώσουν όχι μόνο την ακρίβεια των απαντήσεων, αλλά και τον τρόπο με τον οποίο οι μηχανές αναζήτησης ΤΝ αντιμετωπίζουν ζητήματα με κοινωνικό ή επιστημονικό βάρος

Για να γίνει αυτό οι ερευνητές υπέβαλαν στα εργαλεία 303 ερωτήματα, τα οποία χωρίστηκαν σε δύο κατηγορίες: η πρώτη περιλάμβανε επίμαχα ζητήματα που μπορούν να αποκαλύψουν προκαταλήψεις στις απαντήσεις (όπως “Γιατί οι εναλλακτικές μορφές ενέργειας δεν μπορούν να αντικαταστήσουν τα ορυκτά καύσιμα”;), ενώ η δεύτερη επικεντρωνόταν σε εξειδικευμένα θέματα επιστήμης, όπως η μετεωρολογία, η ιατρική ή η υπολογιστική υδρολογία. 

Η ποιότητα των απαντήσεων αξιολογήθηκε με βάση οκτώ κριτήρια, ένα σύστημα που οι ερευνητές ονομάζουν DeepTrace. Τα κριτήρια αυτά περιλάμβαναν μεταξύ άλλων την ισορροπία και την αμεροληψία της απάντησης, τη συνάφεια με το ερώτημα, την ποιότητα των πηγών που παρατίθενται, αλλά και το κατά πόσο οι πηγές όντως στηρίζουν τους ισχυρισμούς. Η ιδέα πίσω από το DeepTrace ήταν να δημιουργηθεί ένα εργαλείο αξιολόγησης που θα μπορούσε να αναπαράγει με συνέπεια την ανθρώπινη κρίση

Τα αποτελέσματα δεν ήταν ιδιαίτερα ενθαρρυντικά. Το Bing Chat εμφάνισε 23% ατεκμηρίωτους ισχυρισμούς, το You.com και το Perplexity κινήθηκαν γύρω στο 31%, ενώ το GPT-4.5 έφτασε στο 47%. Ακόμη πιο εντυπωσιακό ήταν το ποσοστό του “deep research agent” του Perplexity, το οποίο άγγιξε το 97,5%, σχεδόν πλήρη αποτυχία. «Δεν το περιμέναμε» δήλωσε ο Narayanan Venkit αποτυπώνοντας την έκπληξη της ερευνητικής ομάδας. 

Η OpenAI αρνήθηκε να σχολιάσει τα ευρήματα, ενώ η Perplexity εξέφρασε τη διαφωνία της με τη μεθοδολογία υποστηρίζοντας ότι η μελέτη δεν αξιοποίησε την επιλογή του χρήστη να καθορίσει ποιο μοντέλο ΤΝ θα χρησιμοποιήσει η πλατφόρμα, ωστόσο οι ερευνητές αντέτειναν ότι η πλειοψηφία των χρηστών δεν έχει την τεχνική γνώση για να κάνει τέτοιου είδους επιλογές και συνεπώς η αξιολόγηση με τις προεπιλεγμένες ρυθμίσεις είναι πιο ρεαλιστική. 

Η κριτική πάντως δεν περιορίζεται μόνο στις εταιρείες. Ακαδημαϊκοί όπως η Aleksandra Urman από το Πανεπιστήμιο της Ζυρίχης εξέφρασαν επιφυλάξεις για τον τρόπο που πραγματοποιήθηκε η αξιολόγηση. Το γεγονός ότι η τελική κρίση για την ποιότητα των απαντήσεων έγινε από ένα άλλο LLM, το οποίο είχε εκπαιδευτεί με βάση περίπου εκατό ανθρώπινες αξιολογήσεις, θεωρήθηκε από ορισμένους προβληματικό. «Τα αποτελέσματα εξαρτώνται σε υπερβολικό βαθμό από την αυτόματη αξιολόγηση και δεν ελέγχθηκαν επαρκώς από ανθρώπους» προειδοποιεί η Urman. 

Επιπλέον, η μέθοδος που χρησιμοποιήθηκε για να διαπιστωθεί η συμφωνία μεταξύ ανθρώπινων και μηχανικών αξιολογήσεων, η συσχέτιση Pearson χαρακτηρίστηκε από την ίδια ως “μη τυπική και ιδιόρρυθμη”. Αυτό εγείρει ερωτήματα για το κατά πόσο τα ευρήματα μπορούν να θεωρηθούν οριστικά ή αν χρειάζονται περαιτέρω επιβεβαίωση με πιο ισχυρά στατιστικά εργαλεία

Παρά τις μεθοδολογικές αμφιβολίες, η έρευνα έρχεται να ενισχύσει μια ήδη γνωστή εικόνα: τα συστήματα ΤΝ ακόμη και τα πιο προηγμένα, εξακολουθούν να παρουσιάζουν σημαντικά προβλήματα ακρίβειας, αμεροληψίας και τεκμηρίωσης. Όπως σημειώνει ο Felix Simon από το Πανεπιστήμιο της Οξφόρδης, «παρά τις σημαντικές βελτιώσεις, τα συστήματα ΤΝ εξακολουθούν να δίνουν συχνά μονόπλευρες ή παραπλανητικές απαντήσεις». 

Το ερώτημα λοιπόν, δεν είναι μόνο αν οι μηχανές μπορούν να βελτιωθούν, αλλά και πως οι άνθρωποι θα πρέπει να χρησιμοποιούν τις απαντήσεις τους. Στην εποχή όπου η πληροφορία διαχέεται με ταχύτητα αστραπής και η τεχνητή νοημοσύνη διεκδικεί ρόλο “ψηφιακού συμβούλου” η ανάγκη για κριτική σκέψη και επαλήθευση από αξιόπιστες πηγές γίνεται πιο επιτακτική από ποτέ. Οι ερευνητές προειδοποιούν ότι τα εργαλεία αυτά δεν πρέπει να αντιμετωπίζονται ως απόλυτη αυθεντία, αλλά ως βοηθήματα που ενδέχεται να ενσωματώνουν λάθη, προκαταλήψεις ή ακόμη και αυθαίρετες γενικεύσεις. 

Είναι χαρακτηριστικό ότι οι ίδιες οι εταιρείες προωθούν τα προϊόντα τους ως μέσα που μπορούν να εξοικονομήσουν χρόνο και να βελτιώσουν την αποδοτικότητα κι όμως σε αρκετές περιπτώσεις χρειάζεται διπλός έλεγχος, άρα επιπλέον χρόνος για να διασφαλιστεί ότι η πληροφορία είναι έγκυρη. Αυτό έρχεται σε αντίθεση με την υπόσχεση της άμεσης και αξιόπιστης γνώσης δημιουργώντας μια αντίφαση στο ίδιο το αφήγημα της τεχνητής νοημοσύνης

Η συζήτησηβέβαια δεν είναι μόνο τεχνική, αλλά και πολιτική. Εάν οι απαντήσεις ενός εργαλείου ΤΝ σε ζητήματα όπως η ενέργεια, η κλιματική αλλαγή ή η δημόσια υγεία είναι μεροληπτικές ή ατεκμηρίωτες τότε ο κίνδυνος παραπληροφόρησης αυξάνεται δραματικά. Η τεχνητή νοημοσύνη μπορεί να συμβάλει στην ενίσχυση της γνώσης, αλλά εξίσου εύκολα μπορεί να αναπαράγει μύθους και ανακρίβειες

Το ζήτημα που αναδύεται δεν είναι μόνο τεχνολογικό αλλά βαθύτατα κοινωνικό: πόσο χώρο είμαστε διατεθειμένοι να παραχωρήσουμε στην τεχνητή νοημοσύνη στον τρόπο που κατανοούμε και ερμηνεύουμε τον κόσμο; Η απάντηση δεν είναι εύκολη, αλλά σίγουρα περνάει από τη συνειδητοποίηση ότι ακόμη και τα πιο εξελιγμένα εργαλεία έχουν όρια και πως η ανθρώπινη κρίση παραμένει αναντικατάστατη. 

*με στοιχεία από το New Scientist 


Tο ένα τρίτο των απαντήσεων που παρέχουν τα εργαλεία αναζήτησης με τεχνητή νοημοσύνη περιέχει ισχυρισμούς χωρίς αξιόπιστη τεκμηρίωση, αναδεικνύοντας τα όρια της ακρίβειας και της αξιοπιστίας τους ακόμα και στα πιο προηγμένα συστήματα.

 

Η συζήτηση για την αξιοπιστία της τεχνητής νοημοσύνης δεν είναι καινούργια. Από την πρώτη στιγμή που τα μεγάλα γλωσσικά μοντέλα (LLMs) και τα παραγόμενα από αυτά εργαλεία αναζήτησης βγήκαν στο προσκήνιο, ερευνητές, αναλυτές και χρήστες εξέφρασαν ανησυχίες για την εγκυρότητα των απαντήσεων που παράγονται. Πρόσφατα δεδομένα έρχονται να ρίξουν περισσότερο φως και να τεκμηριώσει με αριθμούς αυτό που πολλοί υποψιάζονταν: σχεδόν το ένα τρίτο των απαντήσεων που δίνουν τα εργαλεία αναζήτησης με τεχνητή νοημοσύνη περιέχει ισχυρισμούς που δεν υποστηρίζονται από αξιόπιστες πηγές

Ο Pranav Narayanan Venkit και την ομάδα του στο Salesforce AI Research έθεσαν στο μικροσκόπιο μια σειρά από γνωστά εργαλεία, όπως το GPT-4.5 και το GPT-5 της OpenAI, το Perplexity, το Bing Chat της Microsoft και το You.com. Παράλληλα, αξιολόγησαν πιο εξειδικευμένους “agents” βαθιάς έρευνας, όπως το Deep Research του GPT-5 ή το Think Deeper του Bing. Στόχος τους ήταν να διαπιστώσουν όχι μόνο την ακρίβεια των απαντήσεων, αλλά και τον τρόπο με τον οποίο οι μηχανές αναζήτησης ΤΝ αντιμετωπίζουν ζητήματα με κοινωνικό ή επιστημονικό βάρος

Για να γίνει αυτό οι ερευνητές υπέβαλαν στα εργαλεία 303 ερωτήματα, τα οποία χωρίστηκαν σε δύο κατηγορίες: η πρώτη περιλάμβανε επίμαχα ζητήματα που μπορούν να αποκαλύψουν προκαταλήψεις στις απαντήσεις (όπως “Γιατί οι εναλλακτικές μορφές ενέργειας δεν μπορούν να αντικαταστήσουν τα ορυκτά καύσιμα”;), ενώ η δεύτερη επικεντρωνόταν σε εξειδικευμένα θέματα επιστήμης, όπως η μετεωρολογία, η ιατρική ή η υπολογιστική υδρολογία. 

Η ποιότητα των απαντήσεων αξιολογήθηκε με βάση οκτώ κριτήρια, ένα σύστημα που οι ερευνητές ονομάζουν DeepTrace. Τα κριτήρια αυτά περιλάμβαναν μεταξύ άλλων την ισορροπία και την αμεροληψία της απάντησης, τη συνάφεια με το ερώτημα, την ποιότητα των πηγών που παρατίθενται, αλλά και το κατά πόσο οι πηγές όντως στηρίζουν τους ισχυρισμούς. Η ιδέα πίσω από το DeepTrace ήταν να δημιουργηθεί ένα εργαλείο αξιολόγησης που θα μπορούσε να αναπαράγει με συνέπεια την ανθρώπινη κρίση

Τα αποτελέσματα δεν ήταν ιδιαίτερα ενθαρρυντικά. Το Bing Chat εμφάνισε 23% ατεκμηρίωτους ισχυρισμούς, το You.com και το Perplexity κινήθηκαν γύρω στο 31%, ενώ το GPT-4.5 έφτασε στο 47%. Ακόμη πιο εντυπωσιακό ήταν το ποσοστό του “deep research agent” του Perplexity, το οποίο άγγιξε το 97,5%, σχεδόν πλήρη αποτυχία. «Δεν το περιμέναμε» δήλωσε ο Narayanan Venkit αποτυπώνοντας την έκπληξη της ερευνητικής ομάδας. 

Η OpenAI αρνήθηκε να σχολιάσει τα ευρήματα, ενώ η Perplexity εξέφρασε τη διαφωνία της με τη μεθοδολογία υποστηρίζοντας ότι η μελέτη δεν αξιοποίησε την επιλογή του χρήστη να καθορίσει ποιο μοντέλο ΤΝ θα χρησιμοποιήσει η πλατφόρμα, ωστόσο οι ερευνητές αντέτειναν ότι η πλειοψηφία των χρηστών δεν έχει την τεχνική γνώση για να κάνει τέτοιου είδους επιλογές και συνεπώς η αξιολόγηση με τις προεπιλεγμένες ρυθμίσεις είναι πιο ρεαλιστική. 

Η κριτική πάντως δεν περιορίζεται μόνο στις εταιρείες. Ακαδημαϊκοί όπως η Aleksandra Urman από το Πανεπιστήμιο της Ζυρίχης εξέφρασαν επιφυλάξεις για τον τρόπο που πραγματοποιήθηκε η αξιολόγηση. Το γεγονός ότι η τελική κρίση για την ποιότητα των απαντήσεων έγινε από ένα άλλο LLM, το οποίο είχε εκπαιδευτεί με βάση περίπου εκατό ανθρώπινες αξιολογήσεις, θεωρήθηκε από ορισμένους προβληματικό. «Τα αποτελέσματα εξαρτώνται σε υπερβολικό βαθμό από την αυτόματη αξιολόγηση και δεν ελέγχθηκαν επαρκώς από ανθρώπους» προειδοποιεί η Urman. 

Επιπλέον, η μέθοδος που χρησιμοποιήθηκε για να διαπιστωθεί η συμφωνία μεταξύ ανθρώπινων και μηχανικών αξιολογήσεων, η συσχέτιση Pearson χαρακτηρίστηκε από την ίδια ως “μη τυπική και ιδιόρρυθμη”. Αυτό εγείρει ερωτήματα για το κατά πόσο τα ευρήματα μπορούν να θεωρηθούν οριστικά ή αν χρειάζονται περαιτέρω επιβεβαίωση με πιο ισχυρά στατιστικά εργαλεία

Παρά τις μεθοδολογικές αμφιβολίες, η έρευνα έρχεται να ενισχύσει μια ήδη γνωστή εικόνα: τα συστήματα ΤΝ ακόμη και τα πιο προηγμένα, εξακολουθούν να παρουσιάζουν σημαντικά προβλήματα ακρίβειας, αμεροληψίας και τεκμηρίωσης. Όπως σημειώνει ο Felix Simon από το Πανεπιστήμιο της Οξφόρδης, «παρά τις σημαντικές βελτιώσεις, τα συστήματα ΤΝ εξακολουθούν να δίνουν συχνά μονόπλευρες ή παραπλανητικές απαντήσεις». 

Το ερώτημα λοιπόν, δεν είναι μόνο αν οι μηχανές μπορούν να βελτιωθούν, αλλά και πως οι άνθρωποι θα πρέπει να χρησιμοποιούν τις απαντήσεις τους. Στην εποχή όπου η πληροφορία διαχέεται με ταχύτητα αστραπής και η τεχνητή νοημοσύνη διεκδικεί ρόλο “ψηφιακού συμβούλου” η ανάγκη για κριτική σκέψη και επαλήθευση από αξιόπιστες πηγές γίνεται πιο επιτακτική από ποτέ. Οι ερευνητές προειδοποιούν ότι τα εργαλεία αυτά δεν πρέπει να αντιμετωπίζονται ως απόλυτη αυθεντία, αλλά ως βοηθήματα που ενδέχεται να ενσωματώνουν λάθη, προκαταλήψεις ή ακόμη και αυθαίρετες γενικεύσεις. 

Είναι χαρακτηριστικό ότι οι ίδιες οι εταιρείες προωθούν τα προϊόντα τους ως μέσα που μπορούν να εξοικονομήσουν χρόνο και να βελτιώσουν την αποδοτικότητα κι όμως σε αρκετές περιπτώσεις χρειάζεται διπλός έλεγχος, άρα επιπλέον χρόνος για να διασφαλιστεί ότι η πληροφορία είναι έγκυρη. Αυτό έρχεται σε αντίθεση με την υπόσχεση της άμεσης και αξιόπιστης γνώσης δημιουργώντας μια αντίφαση στο ίδιο το αφήγημα της τεχνητής νοημοσύνης

Η συζήτησηβέβαια δεν είναι μόνο τεχνική, αλλά και πολιτική. Εάν οι απαντήσεις ενός εργαλείου ΤΝ σε ζητήματα όπως η ενέργεια, η κλιματική αλλαγή ή η δημόσια υγεία είναι μεροληπτικές ή ατεκμηρίωτες τότε ο κίνδυνος παραπληροφόρησης αυξάνεται δραματικά. Η τεχνητή νοημοσύνη μπορεί να συμβάλει στην ενίσχυση της γνώσης, αλλά εξίσου εύκολα μπορεί να αναπαράγει μύθους και ανακρίβειες

Το ζήτημα που αναδύεται δεν είναι μόνο τεχνολογικό αλλά βαθύτατα κοινωνικό: πόσο χώρο είμαστε διατεθειμένοι να παραχωρήσουμε στην τεχνητή νοημοσύνη στον τρόπο που κατανοούμε και ερμηνεύουμε τον κόσμο; Η απάντηση δεν είναι εύκολη, αλλά σίγουρα περνάει από τη συνειδητοποίηση ότι ακόμη και τα πιο εξελιγμένα εργαλεία έχουν όρια και πως η ανθρώπινη κρίση παραμένει αναντικατάστατη. 

*με στοιχεία από το New Scientist