Vibecoding Greece · Πλήρης Οδηγός

AI Personalization

Από τα Δεδομένα σου στον Ψηφιακό Υπάλληλό σου
RAG · LoRA · Synthetic Data · Production · Evaluation
Περιεχόμενα
  1. Εισαγωγή — Τα 3 User Cases και τα 2 Μοντέλα
  2. Η Φιλοσοφία: RAG vs LoRA
  3. Στάδιο 0 — Data Curation
  4. Στάδιο 1 — RAG Pipeline
  5. Στάδιο 1.5 — Synthetic Data Generation
  6. Στάδιο 2 — PEFT / LoRA Fine-Tuning
  7. Στάδιο 3 — Full Fine-Tuning (Η Κόκκινη Γραμμή)
  8. Στάδιο 4 — Production Pipeline
  9. Roadmap & Επόμενα Βήματα
  10. Πλήρης Βιβλιογραφία

Εισαγωγή

Φίλες και φίλοι του Vibecoding Greece, σήμερα θα μιλήσουμε για κάτι που αλλάζει τα πάντα: πώς μετατρέπουμε ένα «γενικό» AI μοντέλο σε έναν εξειδικευμένο ψηφιακό υπάλληλο που ξέρει τη δουλειά σας, μιλάει τη γλώσσα σας και δουλεύει με τα δεδομένα σας.

Ο οδηγός απευθύνεται σε δύο κοινότητες:

Τα 3 User Cases

User CaseΚλάδοςΠρόκληση
🎨 Sunny Design LtdCreative StudioΤο AI να μιλάει με το καλλιτεχνικό μας ύφος
🏨 George's Boutique HotelΤουρισμόςΤο AI να απαντά σε ερωτήσεις πελατών 24/7
📦 Milano LogisticaLogisticsΤο AI να βρίσκει ακριβείς κωδικούς παραγγελιών

Τα 2 Μοντέλα

⚠️ Σημείωση: Τα μοντέλα εξελίσσονται γρήγορα. Ελέγξτε πάντα το Hugging Face Open LLM Leaderboard για τις πιο πρόσφατες εκδόσεις.

Μέρος 1: Η Φιλοσοφία — Context vs Behavior

RAG = «Τι ξέρει το μοντέλο»

Το Retrieval-Augmented Generation (RAG) δίνει στο μοντέλο πρόσβαση στα δικά σας δεδομένα — PDFs, βάσεις δεδομένων, emails — χωρίς να το επανεκπαιδεύσουμε. Σκεφτείτε το σαν να δίνετε σε έναν νέο υπάλληλο ένα εγχειρίδιο πριν ξεκινήσει δουλειά.

Παράδειγμα: Η Milano Logistica ανεβάζει όλες τις πολιτικές αποστολών της. Όταν ένας πελάτης ρωτήσει «Πότε φτάνει η παραγγελία μου στην Κρήτη;», το AI ψάχνει στο εγχειρίδιο και απαντάει με βάση τα πραγματικά δεδομένα.

LoRA = «Πώς μιλάει το μοντέλο»

Το Fine-Tuning — συγκεκριμένα το LoRA — αλλάζει το ύφος και τη συμπεριφορά του μοντέλου. Σκεφτείτε το σαν να εκπαιδεύετε έναν υπάλληλο να μιλάει με συγκεκριμένο τόνο: φιλικό, επαγγελματικό, καλλιτεχνικό.

Παράδειγμα: Η Sunny Design Ltd θέλει το AI να απαντάει σαν creative director — μινιμαλιστικά, εμπνευσμένα, με συγκεκριμένο λεξιλόγιο. Αυτό δεν το μαθαίνει από ένα PDF, αλλά από παραδείγματα συνομιλιών.

Πότε χρειάζεσαι τι;

ΑνάγκηΛύσηΠαράδειγμα
«Θέλω το AI να ξέρει τα προϊόντα μου»RAGGeorge's Hotel: τιμές δωματίων, παροχές
«Θέλω το AI να μιλάει σαν εμένα»LoRASunny Design: καλλιτεχνικό ύφος
«Θέλω και τα δύο»RAG + LoRAMilano Logistica: δεδομένα + ύφος
Πηγές

Στάδιο 0 — Data Curation: Το Θεμέλιο

«Garbage in, garbage out.» Αν τα δεδομένα σου είναι βρώμικα, το AI θα κάνει παραισθήσεις (hallucinations). Αυτό το στάδιο είναι το πιο σημαντικό και το πιο υποτιμημένο.

Βήμα 1: Data Collection — Τι Μαζεύουμε

Τύπος δεδομένωνΓια RAGΓια Fine-TuningΠαράδειγμα
PDFs / Word docsΟδηγοί, contracts, FAQs
Emails / SlackΕπικοινωνία με πελάτες
Βάσεις δεδομένων (SQL)Παραγγελίες, απογραφή
Διάλογοι (Q&A pairs)Παραδείγματα σωστής απάντησης
Spreadsheets (CSV/Excel)Τιμοκατάλογοι, πολιτικές

Βήμα 2: Data Cleaning

Τι αφαιρούμε: Headers/footers, disclaimers και legal boilerplate, κενές σελίδες, διπλότυπο περιεχόμενο.

Τι κρατάμε: Ουσιώδες περιεχόμενο, σαφείς τίτλους και δομή, αριθμητικά δεδομένα (τιμές, ημερομηνίες, κωδικοί).

Εργαλείο: Unstructured.io — αυτόματο parsing και cleaning για PDFs, Word, HTML, εικόνες.

Βήμα 3: Chunking — Πώς Κόβουμε τα Κείμενα

Το chunking χωρίζει τα κείμενα σε μικρά κομμάτια για το RAG. Είναι κρίσιμο και συχνά αγνοείται.

ΜέθοδοςΠότεΠαράδειγμα
Fixed-size (512 tokens)Γρήγορο setupFAQ docs
Sentence-basedΦυσικό κείμενοHotel guide
Semantic (embeddings)Πολύπλοκα έγγραφαLegal contracts
HierarchicalΔομημένα docsTechnical manuals
Χρυσός κανόνας: Chunk size = 256–512 tokens με 10–20% overlap για να μη χάνεις πλαίσιο μεταξύ chunks.

Βήμα 4: Dataset Construction για Fine-Tuning

Τα πιο διαδεδομένα formats:

Πόσα δείγματα χρειάζεσαι;

ΣτόχοςΕλάχιστοΙδανικό
Αλλαγή τόνου/ύφους50200–500
Εξειδικευμένη γνώση domain200500–2000
Πλήρης custom behavior5002000+

Εργαλείο annotation: Argilla — web UI για annotation, review και διαχείριση datasets.

Πηγές

Στάδιο 1 — RAG Pipeline

Το RAG είναι η καρδιά ενός enterprise AI system. Επιτρέπει στο μοντέλο να απαντάει με βάση τα δικά σου δεδομένα, όχι τη γενική γνώση του.

Πώς Λειτουργεί

  1. Indexing: Τα έγγραφά σου μετατρέπονται σε vectors και αποθηκεύονται σε Vector Database.
  2. Retrieval: Η ερώτηση του χρήστη μετατρέπεται σε vector και συγκρίνεται με τα αποθηκευμένα.
  3. Generation: Τα πιο σχετικά chunks στέλνονται στο LLM μαζί με την ερώτηση για να παραχθεί η απάντηση.

Hybrid Search: Vector + BM25

Ο Vector Search (semantic) βρίσκει έννοιες: «ποιο είναι το καλύτερο κρασί;» → «red wine recommendations». Ο BM25 (keyword) βρίσκει ακριβείς λέξεις: «κωδικός #12345». Ο συνδυασμός τους — Hybrid Search — δίνει μέγιστη ακρίβεια.

Πηγή: Elasticsearch Hybrid Search Guide

Re-ranking: Cross-Encoder

Αφού το RAG βρει τα top-20 σχετικά chunks, ένα Cross-Encoder τα ξαναβαθμολογεί για να κρατήσει τα top-5. Είναι κρίσιμο για technical queries όπως κωδικούς παραγγελιών.

Εργαλείο: SBERT Cross-Encoder

Εργαλεία RAG

🟢 AnythingLLM — Για Αρχάριους

🔵 LlamaIndex — Για Προχωρημένους

Τα 3 User Cases στο RAG

🏨 George's Boutique Hotel

RAG only — Gemma 3 4B — AnythingLLM
Dataset: Οδηγός ξενοδοχείου (PDF), τιμοκατάλογος (Excel), FAQ (Word) σε 3 γλώσσες.
Δεν χρειάζεται fine-tuning — το RAG αρκεί.

📦 Milano Logistica

RAG + Re-ranking — Qwen3 30B — LlamaIndex
Dataset: Export από ERP σε CSV/JSON, πολιτικές αποστολών σε PDF.
Hybrid Search + Cross-Encoder για μέγιστη ακρίβεια σε κωδικούς παραγγελιών.

Πηγές

Στάδιο 1.5 — Synthetic Data Generation

Το 90% των επιχειρήσεων δεν έχουν έτοιμα datasets. Η λύση: χρησιμοποιείς ένα ισχυρότερο μοντέλο (Teacher = Qwen3 30B) για να παράγει δεδομένα για το μικρότερο (Student = Gemma 3 4B).

Μέθοδος 1: Document-to-QA (Για Γνώση Domain)

Παίρνεις τα έγγραφά σου και ζητάς από το Qwen3 30B να δημιουργήσει ρεαλιστικά ζεύγη Ερώτησης-Απάντησης. Ζήτα 5 ζεύγη ανά chunk, με ποικιλία στη διατύπωση (formal, informal, urgent). Η απάντηση πρέπει να προέρχεται αυστηρά από το κείμενο — όχι από γενική γνώση. Output: JSONL format.

Μέθοδος 2: Self-Instruct / Evol-Instruct (Για Ύφος)

Ξεκινάς με 5–10 χειροκίνητα παραδείγματα (seeds) και ζητάς επέκταση. Ιδανικό για τη Sunny Design: δίνεις 3 παραδείγματα creative director απαντήσεων και ζητάς 10 νέα με ακριβώς το ίδιο minimalist, confident ύφος.

Μέθοδος 3: Back-Translation & Paraphrasing (Για Ποικιλία)

Αν έχεις λίγα δείγματα, τα πολλαπλασιάζεις: κάθε ερώτηση ξαναγράφεται σε 5 διαφορετικές διατυπώσεις — formal/informal, σύντομη/αναλυτική, τεχνική/απλή.

Ποιοτικός Έλεγχος

Εργαλείο: distilabel — το κορυφαίο open-source framework για synthetic data pipelines.

Πηγές

Στάδιο 2 — PEFT / LoRA Fine-Tuning

Όταν θέλεις το μοντέλο να μιλάει με συγκεκριμένο ύφος, χρησιμοποιείς Parameter-Efficient Fine-Tuning (PEFT).

Οι Τύποι των Adapters

LoRA (Low-Rank Adaptation)

QLoRA (Quantized LoRA) — Η πιο πρακτική επιλογή

DoRA, AdaLoRA, VeRA

Βασικοί Hyperparameters

HyperparameterΤι κάνειΤιμή εκκίνησης
r (rank)Χωρητικότητα adapter — μεγαλύτερο = πιο ισχυρό16–64
lora_alphaScaling factor — συνήθως 2×r32–128
lora_dropoutRegularization για αποφυγή overfitting0.05–0.1
learning_rateΒήμα εκμάθησης2e-4
num_epochsΠόσες φορές βλέπει το dataset3–5

Frameworks Fine-Tuning

🟢 Unsloth — Ταχύτητα & Απλότητα (Αρχάριοι)

🔵 Axolotl — Production & Multi-GPU (Προχωρημένοι)

🟡 LLaMA-Factory — Zero-Code & Web UI

Hardware Requirements

ΜοντέλοMethodVRAMGPU
Gemma 3 4BQLoRA (4-bit)~6GBRTX 3060 / 4060
Gemma 3 4BLoRA (16-bit)~12GBRTX 3080 / 4070
Qwen3 30BQLoRA (4-bit)~20GBRTX 4090
Qwen3 30BLoRA (16-bit)~60GB+2× A100 / cloud
Χωρίς GPU; Χρησιμοποίησε Google Colab (δωρεάν T4 GPU) για Gemma 3 4B με QLoRA, ή RunPod / Lambda Labs για Qwen3 30B.

🎨 Sunny Design Ltd — Fine-Tuning σε Πράξη

50 seed examples (creative director replies) → distilabel → 500 synthetic pairs → QLoRA Gemma 3 4B με Unsloth → Creative Director voice στο Slack bot της εταιρείας.

Πηγές

Στάδιο 3 — Full Fine-Tuning: Η Κόκκινη Γραμμή

⚠️ Το Full Fine-Tuning (ενημέρωση όλων των παραμέτρων) είναι επικίνδυνο για τις περισσότερες επιχειρηματικές περιπτώσεις.

Catastrophic Forgetting

Το μοντέλο ξεχνάει τις γενικές γνώσεις του και γίνεται υπερ-ειδικευμένο στο dataset σου. Αν εκπαιδεύσεις με δεδομένα logistics, μπορεί να ξεχάσει πώς να μιλάει Ελληνικά. Το LoRA δεν έχει αυτό το πρόβλημα γιατί τα original weights παραμένουν παγωμένα.

Πότε να Χρησιμοποιήσεις Full Fine-Tuning

Σύσταση: Για το 95% των επιχειρηματικών περιπτώσεων, χρησιμοποίησε QLoRA αντί full fine-tuning.

Στάδιο 4 — Production Pipeline

⚡ vLLM — High-Throughput Inference

Ο ταχύτερος inference engine για LLMs. Χρησιμοποιεί PagedAttention για να εξυπηρετεί πολλαπλούς χρήστες ταυτόχρονα με ελάχιστο VRAM waste.

🔀 LiteLLM — Unified API Proxy

Διαχείριση πολλαπλών μοντέλων και adapters μέσω ενός API — ακριβώς σαν OpenAI API. Ιδανικό για το George's Hotel: Adapter Α για Ελληνικά, Β για Αγγλικά, Γ για Γερμανικά — auto-routing ανά γλώσσα χρήστη.

📊 RAGAS — Evaluation

Μην μαντεύεις αν το RAG σου δουλεύει. Μέτρα το.

MetricΤι μετράειΤι σημαίνει χαμηλή τιμή
FaithfulnessΗ απάντηση βασίζεται στο context;Το μοντέλο «φαντάζεται» πληροφορίες
Answer RelevancyΗ απάντηση αφορά την ερώτηση;Irrelevant ή off-topic απαντήσεις
Context PrecisionΤο retrieved context είναι σχετικό;Χαμηλή ποιότητα retrieval
Context RecallΒρέθηκε όλη η απαραίτητη πληροφορία;Missing chunks — αναθεώρησε το chunking

Roadmap & Επόμενα Βήματα

Το Πλήρες Roadmap

ΦάσηΤι κάνειςΕργαλείοΧρόνος
Α — Data CollectionΜάζεμα εγγράφων, exports, emailsΦάκελοι, Drive1–2 μέρες
Β — Data CleaningΚαθαρισμός PDFs, αφαίρεση θορύβουUnstructured.io1–2 μέρες
Γ — RAG ImplementationSetup vector store + hybrid searchAnythingLLM / LlamaIndex3–5 μέρες
Δ — Synthetic DataΠαραγωγή Q&A pairs με teacher modeldistilabel + Qwen3 30B2–3 μέρες
Ε — Fine-TuningLoRA/QLoRA adapter trainingUnsloth / Axolotl1–2 μέρες
Ζ — ProductionDeploy με vLLM + LiteLLM proxyvLLM + LiteLLM3–5 μέρες
Η — EvaluationΜέτρηση RAGAS metrics + iterationRAGASΣυνεχές

Συνολικά: ~3–4 εβδομάδες για αρχάριους | ~1–2 εβδομάδες για developers.

🟢 Αν Είσαι Αρχάριος

  1. Κατέβασε το AnythingLLM (δωρεάν, Windows/Mac/Linux).
  2. Εγκατάστησε το Ollama και κατέβασε το Gemma 3: ollama pull gemma3:4b
  3. Ανέβασε 3–5 PDFs της επιχείρησής σου στο AnythingLLM.
  4. Δοκίμασε ερωτήσεις — δες αν οι απαντήσεις είναι ακριβείς.
  5. Αν θέλεις custom ύφος, βρες έναν developer για το LoRA βήμα.
Πρώτος στόχος: 30 λεπτά — από μηδέν σε λειτουργικό RAG chatbot με τα δικά σου δεδομένα.

🔵 Αν Είσαι Προχωρημένος

  1. Εβδομάδα 1: Data pipeline — Unstructured.io + LlamaIndex RAG + RAGAS baseline.
  2. Εβδομάδα 2: Synthetic data με distilabel + Gemma 3 4B fine-tune με Unsloth.
  3. Εβδομάδα 3: Production — vLLM + LiteLLM proxy + monitoring.
  4. Εβδομάδα 4: Iteration — RAGAS evaluation + hyperparameter tuning.

Πλήρης Βιβλιογραφία

Μοντέλα & Documentation

Data Preparation

RAG

Fine-Tuning

Production & Evaluation

Video Tutorials