Το ενημερωμένο μοντέλο τεκμηρίωσης (reasoning) R1 της DeepSeek συγκεντρώνει το μεγαλύτερο ενδιαφέρον της κοινότητας της Τεχνητής Νοημοσύνης αυτή την εβδομάδα.
Ωστόσο, το κινεζικό εργαστήριο AI παρουσίασε επίσης μια μικρότερη, «αποσταγμένη» εκδοχή του νέου R1: το DeepSeek-R1-0528-Qwen3-8B, το οποίο –σύμφωνα με την εταιρεία– ξεπερνά σε επιδόσεις άλλα μοντέλα παρόμοιου μεγέθους σε ορισμένα benchmarks.
Το DeepSeek-R1-0528-Qwen3-8B, που βασίζεται στο μοντέλο Qwen3-8B της Alibaba (λανσαρίστηκε τον Μάιο), αποδίδει καλύτερα από το Gemini 2.5 Flash της Google στο AIME 2025, ένα σύνολο απαιτητικών μαθηματικών ερωτήσεων.
Παράλληλα, πλησιάζει τις επιδόσεις του Phi-4 reasoning plus της Microsoft σε άλλο τεστ μαθηματικών δεξιοτήτων, το HMMT.
Τα λεγόμενα distilled models όπως το DeepSeek-R1-0528-Qwen3-8B είναι γενικά λιγότερο ισχυρά από τις πλήρεις εκδόσεις τους, αλλά έχουν το πλεονέκτημα ότι καταναλώνουν σημαντικά λιγότερους πόρους. Σύμφωνα με την πλατφόρμα cloud NodeShift, το Qwen3-8B μπορεί να τρέξει σε μία GPU με 40–80GB RAM (όπως η Nvidia H100), σε αντίθεση με το πλήρες R1 που απαιτεί περίπου δώδεκα GPUs των 80GB.
Η DeepSeek εκπαίδευσε το DeepSeek-R1-0528-Qwen3-8B χρησιμοποιώντας παραγόμενο κείμενο από το νέο R1, το οποίο στη συνέχεια χρησιμοποιήθηκε για τη βελτίωση (fine-tuning) του Qwen3-8B.
Σε αφιερωμένη σελίδα του μοντέλου στην πλατφόρμα Hugging Face, η DeepSeek περιγράφει το μοντέλο ως κατάλληλο «τόσο για ακαδημαϊκή έρευνα πάνω στα μοντέλα τεκμηρίωσης όσο και για βιομηχανική ανάπτυξη που επικεντρώνεται σε μοντέλα μικρής κλίμακας».
Το μοντέλο διατίθεται με την ελεύθερη άδεια MIT, πράγμα που σημαίνει ότι μπορεί να χρησιμοποιηθεί εμπορικά χωρίς περιορισμούς. Ήδη αρκετοί πάροχοι, όπως το LM Studio, προσφέρουν πρόσβαση στο μοντέλο μέσω API.