Η Google παρουσίασε μια νέα λειτουργία στο Gemini API που, όπως υποστηρίζει, θα μειώσει σημαντικά το κόστος χρήσης των τελευταίων μοντέλων Τεχνητής Νοημοσύνης για τους εξωτερικούς προγραμματιστές.
Όπως αναφέρει το TechCrunch, η λειτουργία ονομάζεται «implicit caching» (έμμεση προσωρινή αποθήκευση) και έχει σχεδιαστεί για να προσφέρει έως και 75% εξοικονόμηση κόστους σε περιπτώσεις επαναλαμβανόμενου περιεχομένου (context) που αποστέλλεται στα μοντέλα μέσω του API.
Η λειτουργία είναι συμβατή με τα μοντέλα Gemini 2.5 Pro και 2.5 Flash, και ενεργοποιείται αυτόματα, χωρίς να απαιτείται ρύθμιση από τον χρήστη.
We just shipped implicit caching in the Gemini API, automatically enabling a 75% cost savings with the Gemini 2.5 models when your request hits a cache 🚢
— Logan Kilpatrick (@OfficialLoganK) May 8, 2025
We also lowered the min token required to hit caches to 1K on 2.5 Flash and 2K on 2.5 Pro!
Τι είναι το Implicit Caching
Το caching είναι μια διαδεδομένη πρακτική στον χώρο της Τεχνητής Νοημοσύνης, η οποία βασίζεται στην επαναχρησιμοποίηση δεδομένων που έχουν ήδη υπολογιστεί ή ανακτηθεί στο παρελθόν, με στόχο τη μείωση του υπολογιστικού κόστους. Για παράδειγμα, ένα μοντέλο μπορεί να διατηρεί προσωρινά απαντήσεις σε ερωτήματα που του τίθενται συχνά, ώστε να μην χρειάζεται να επαναλαμβάνει την ίδια εργασία.
Η Google διέθετε ήδη explicit prompt caching (ρητή προσωρινή αποθήκευση εντολών), όπου οι προγραμματιστές όριζαν χειροκίνητα τα prompts που ήθελαν να αποθηκευτούν. Ωστόσο, η διαδικασία απαιτούσε σημαντική χειρωνακτική εργασία και είχε προκαλέσει αντιδράσεις, καθώς χρήστες ανέφεραν δυσανάλογες χρεώσεις, ιδιαίτερα με το μοντέλο Gemini 2.5 Pro.
Σε αντίθεση με τη ρητή προσωρινή αποθήκευση, η νέα λειτουργία implicit caching λειτουργεί αυτόματα και εφαρμόζεται σε κάθε αίτημα προς τα μοντέλα Gemini 2.5. Αν ένα νέο αίτημα έχει κοινό προθεματικό περιεχόμενο (prefix) με προηγούμενα αιτήματα, τότε ενεργοποιείται η αποθήκευση και παρέχεται έκπτωση στο κόστος.
Πώς λειτουργεί στην πράξη
Σύμφωνα με την τεκμηρίωση της Google, η ελάχιστη ποσότητα tokens (μονάδες δεδομένων που χρησιμοποιούν τα μοντέλα) για να ενεργοποιηθεί η λειτουργία είναι:
- 1.024 tokens για το Gemini 2.5 Flash
- 2.048 tokens για το Gemini 2.5 Pro
Αυτό σημαίνει ότι δεν απαιτείται μεγάλος όγκος δεδομένων για να εφαρμοστεί η έκπτωση - 2.000 tokens αντιστοιχούν περίπου σε 1.500 λέξεις.
Η Google συνιστά στους προγραμματιστές να τοποθετούν το επαναλαμβανόμενο περιεχόμενο στην αρχή κάθε αιτήματος, και τις μεταβλητές πληροφορίες στο τέλος, ώστε να αυξηθούν οι πιθανότητες «cache hit» και να ενεργοποιηθούν οι αυτόματες εκπτώσεις.
Αν και η νέα λειτουργία παρουσιάζεται ως σημαντικό βήμα προς τη μείωση του κόστους, υπάρχουν επιφυλάξεις από την κοινότητα των προγραμματιστών. Η Google δεν παρείχε ανεξάρτητη πιστοποίηση για την αποτελεσματικότητα του συστήματος, ενώ δεν είναι ακόμα σαφές πώς και πότε εφαρμόζονται οι εκπτώσεις.
Η εταιρεία, που πρόσφατα ζήτησε συγγνώμη για προβλήματα χρέωσης με το προηγούμενο σύστημα caching, δεσμεύτηκε να ακούσει την κοινότητα και να προβεί σε βελτιώσεις.
Για την ώρα, η υιοθέτηση της λειτουργίας από προγραμματιστές και εταιρείες θα κρίνει αν το "implicit caching" αποτελεί πράγματι σημαντική καινοτομία - ή άλλη μια ανεπαρκώς τεκμηριωμένη υπόσχεση