Vibecoding Greece · Πλήρης Οδηγός

AI Personalization

Από τα Δεδομένα σου στον Ψηφιακό Υπάλληλό σου

RAG · LoRA · Synthetic Data · Production · Evaluation

Περιεχόμενα

Εισαγωγή — Τα 3 User Cases και τα 2 Μοντέλα
Η Φιλοσοφία: RAG vs LoRA
Στάδιο 0 — Data Curation
Στάδιο 1 — RAG Pipeline
Στάδιο 1.5 — Synthetic Data Generation
Στάδιο 2 — PEFT / LoRA Fine-Tuning
Στάδιο 3 — Full Fine-Tuning (Η Κόκκινη Γραμμή)
Στάδιο 4 — Production Pipeline
Roadmap & Επόμενα Βήματα
Πλήρης Βιβλιογραφία

Εισαγωγή

Φίλες και φίλοι του Vibecoding Greece, σήμερα θα μιλήσουμε για κάτι που αλλάζει τα πάντα: πώς μετατρέπουμε ένα «γενικό» AI μοντέλο σε έναν εξειδικευμένο ψηφιακό υπάλληλο που ξέρει τη δουλειά σας, μιλάει τη γλώσσα σας και δουλεύει με τα δεδομένα σας.

Ο οδηγός απευθύνεται σε δύο κοινότητες:

Αρχάριους — business owners, marketers, non-technical — που θέλουν να καταλάβουν τη λογική.
Προχωρημένους — developers, data scientists — που θέλουν να υλοποιήσουν τα πάντα μόνοι τους.

Τα 3 User Cases

User Case	Κλάδος	Πρόκληση
🎨 Sunny Design Ltd	Creative Studio	Το AI να μιλάει με το καλλιτεχνικό μας ύφος
🏨 George's Boutique Hotel	Τουρισμός	Το AI να απαντά σε ερωτήσεις πελατών 24/7
📦 Milano Logistica	Logistics	Το AI να βρίσκει ακριβείς κωδικούς παραγγελιών

Τα 2 Μοντέλα

Gemma 3 (4B) — Το «ελαφρύ»: τρέχει τοπικά, γρήγορο, ιδανικό για RAG. Απαιτεί 6-8GB VRAM. Model ID: google/gemma-3-4b-it.
Qwen3 (30B) — Το «βαρύ»: για complex reasoning, ανάλυση, παραγωγή synthetic data. Απαιτεί ~20GB VRAM με 4-bit quantization. Model ID: Qwen/Qwen3-30B-A3B.

⚠️ Σημείωση: Τα μοντέλα εξελίσσονται γρήγορα. Ελέγξτε πάντα το Hugging Face Open LLM Leaderboard για τις πιο πρόσφατες εκδόσεις.

Μέρος 1: Η Φιλοσοφία — Context vs Behavior

RAG = «Τι ξέρει το μοντέλο»

Το Retrieval-Augmented Generation (RAG) δίνει στο μοντέλο πρόσβαση στα δικά σας δεδομένα — PDFs, βάσεις δεδομένων, emails — χωρίς να το επανεκπαιδεύσουμε. Σκεφτείτε το σαν να δίνετε σε έναν νέο υπάλληλο ένα εγχειρίδιο πριν ξεκινήσει δουλειά.

Παράδειγμα: Η Milano Logistica ανεβάζει όλες τις πολιτικές αποστολών της. Όταν ένας πελάτης ρωτήσει «Πότε φτάνει η παραγγελία μου στην Κρήτη;», το AI ψάχνει στο εγχειρίδιο και απαντάει με βάση τα πραγματικά δεδομένα.

LoRA = «Πώς μιλάει το μοντέλο»

Το Fine-Tuning — συγκεκριμένα το LoRA — αλλάζει το ύφος και τη συμπεριφορά του μοντέλου. Σκεφτείτε το σαν να εκπαιδεύετε έναν υπάλληλο να μιλάει με συγκεκριμένο τόνο: φιλικό, επαγγελματικό, καλλιτεχνικό.

Παράδειγμα: Η Sunny Design Ltd θέλει το AI να απαντάει σαν creative director — μινιμαλιστικά, εμπνευσμένα, με συγκεκριμένο λεξιλόγιο. Αυτό δεν το μαθαίνει από ένα PDF, αλλά από παραδείγματα συνομιλιών.

Πότε χρειάζεσαι τι;

Ανάγκη	Λύση	Παράδειγμα
«Θέλω το AI να ξέρει τα προϊόντα μου»	RAG	George's Hotel: τιμές δωματίων, παροχές
«Θέλω το AI να μιλάει σαν εμένα»	LoRA	Sunny Design: καλλιτεχνικό ύφος
«Θέλω και τα δύο»	RAG + LoRA	Milano Logistica: δεδομένα + ύφος

Πηγές

Στάδιο 0 — Data Curation: Το Θεμέλιο

«Garbage in, garbage out.» Αν τα δεδομένα σου είναι βρώμικα, το AI θα κάνει παραισθήσεις (hallucinations). Αυτό το στάδιο είναι το πιο σημαντικό και το πιο υποτιμημένο.

Βήμα 1: Data Collection — Τι Μαζεύουμε

Τύπος δεδομένων	Για RAG	Για Fine-Tuning	Παράδειγμα
PDFs / Word docs	✅	❌	Οδηγοί, contracts, FAQs
Emails / Slack	✅	✅	Επικοινωνία με πελάτες
Βάσεις δεδομένων (SQL)	✅	❌	Παραγγελίες, απογραφή
Διάλογοι (Q&A pairs)	❌	✅	Παραδείγματα σωστής απάντησης
Spreadsheets (CSV/Excel)	✅	❌	Τιμοκατάλογοι, πολιτικές

Βήμα 2: Data Cleaning

Τι αφαιρούμε: Headers/footers, disclaimers και legal boilerplate, κενές σελίδες, διπλότυπο περιεχόμενο.

Τι κρατάμε: Ουσιώδες περιεχόμενο, σαφείς τίτλους και δομή, αριθμητικά δεδομένα (τιμές, ημερομηνίες, κωδικοί).

Εργαλείο: Unstructured.io — αυτόματο parsing και cleaning για PDFs, Word, HTML, εικόνες.

Βήμα 3: Chunking — Πώς Κόβουμε τα Κείμενα

Το chunking χωρίζει τα κείμενα σε μικρά κομμάτια για το RAG. Είναι κρίσιμο και συχνά αγνοείται.

Μέθοδος	Πότε	Παράδειγμα
Fixed-size (512 tokens)	Γρήγορο setup	FAQ docs
Sentence-based	Φυσικό κείμενο	Hotel guide
Semantic (embeddings)	Πολύπλοκα έγγραφα	Legal contracts
Hierarchical	Δομημένα docs	Technical manuals

Χρυσός κανόνας: Chunk size = 256–512 tokens με 10–20% overlap για να μη χάνεις πλαίσιο μεταξύ chunks.

Βήμα 4: Dataset Construction για Fine-Tuning

Τα πιο διαδεδομένα formats:

Alpaca — instruction / input / output. Για simple Q&A.
ShareGPT (Προτιμώμενο για chatbots) — conversations με human → gpt turns.
ChatML — messages με roles: system / user / assistant. Για OpenAI-compatible μοντέλα.

Πόσα δείγματα χρειάζεσαι;

Στόχος	Ελάχιστο	Ιδανικό
Αλλαγή τόνου/ύφους	50	200–500
Εξειδικευμένη γνώση domain	200	500–2000
Πλήρης custom behavior	500	2000+

Εργαλείο annotation: Argilla — web UI για annotation, review και διαχείριση datasets.

Πηγές

Στάδιο 1 — RAG Pipeline

Το RAG είναι η καρδιά ενός enterprise AI system. Επιτρέπει στο μοντέλο να απαντάει με βάση τα δικά σου δεδομένα, όχι τη γενική γνώση του.

Πώς Λειτουργεί

Indexing: Τα έγγραφά σου μετατρέπονται σε vectors και αποθηκεύονται σε Vector Database.
Retrieval: Η ερώτηση του χρήστη μετατρέπεται σε vector και συγκρίνεται με τα αποθηκευμένα.
Generation: Τα πιο σχετικά chunks στέλνονται στο LLM μαζί με την ερώτηση για να παραχθεί η απάντηση.

Hybrid Search: Vector + BM25

Ο Vector Search (semantic) βρίσκει έννοιες: «ποιο είναι το καλύτερο κρασί;» → «red wine recommendations». Ο BM25 (keyword) βρίσκει ακριβείς λέξεις: «κωδικός #12345». Ο συνδυασμός τους — Hybrid Search — δίνει μέγιστη ακρίβεια.

Πηγή: Elasticsearch Hybrid Search Guide

Re-ranking: Cross-Encoder

Αφού το RAG βρει τα top-20 σχετικά chunks, ένα Cross-Encoder τα ξαναβαθμολογεί για να κρατήσει τα top-5. Είναι κρίσιμο για technical queries όπως κωδικούς παραγγελιών.

Εργαλείο: SBERT Cross-Encoder

Εργαλεία RAG

🟢 AnythingLLM — Για Αρχάριους

All-in-one desktop app (Windows/Mac/Linux)
Drag & drop PDFs, ενσωματωμένο RAG + chat interface
Υποστηρίζει τοπικά μοντέλα μέσω Ollama
Ιδανικό για: George's Hotel — γρήγορο setup χωρίς κώδικα

🔵 LlamaIndex — Για Προχωρημένους

Python framework για custom pipelines
Υποστηρίζει SQL, graphs, multi-modal
Ιδανικό για: Milano Logistica — σύνθετα queries, integration με databases

Τα 3 User Cases στο RAG

🏨 George's Boutique Hotel

RAG only — Gemma 3 4B — AnythingLLM
Dataset: Οδηγός ξενοδοχείου (PDF), τιμοκατάλογος (Excel), FAQ (Word) σε 3 γλώσσες.
Δεν χρειάζεται fine-tuning — το RAG αρκεί.

📦 Milano Logistica

RAG + Re-ranking — Qwen3 30B — LlamaIndex
Dataset: Export από ERP σε CSV/JSON, πολιτικές αποστολών σε PDF.
Hybrid Search + Cross-Encoder για μέγιστη ακρίβεια σε κωδικούς παραγγελιών.

Πηγές

Στάδιο 1.5 — Synthetic Data Generation

Το 90% των επιχειρήσεων δεν έχουν έτοιμα datasets. Η λύση: χρησιμοποιείς ένα ισχυρότερο μοντέλο (Teacher = Qwen3 30B) για να παράγει δεδομένα για το μικρότερο (Student = Gemma 3 4B).

Μέθοδος 1: Document-to-QA (Για Γνώση Domain)

Παίρνεις τα έγγραφά σου και ζητάς από το Qwen3 30B να δημιουργήσει ρεαλιστικά ζεύγη Ερώτησης-Απάντησης. Ζήτα 5 ζεύγη ανά chunk, με ποικιλία στη διατύπωση (formal, informal, urgent). Η απάντηση πρέπει να προέρχεται αυστηρά από το κείμενο — όχι από γενική γνώση. Output: JSONL format.

Μέθοδος 2: Self-Instruct / Evol-Instruct (Για Ύφος)

Ξεκινάς με 5–10 χειροκίνητα παραδείγματα (seeds) και ζητάς επέκταση. Ιδανικό για τη Sunny Design: δίνεις 3 παραδείγματα creative director απαντήσεων και ζητάς 10 νέα με ακριβώς το ίδιο minimalist, confident ύφος.

Μέθοδος 3: Back-Translation & Paraphrasing (Για Ποικιλία)

Αν έχεις λίγα δείγματα, τα πολλαπλασιάζεις: κάθε ερώτηση ξαναγράφεται σε 5 διαφορετικές διατυπώσεις — formal/informal, σύντομη/αναλυτική, τεχνική/απλή.

Ποιοτικός Έλεγχος

LLM-as-Judge: Χρησιμοποίησε ένα δεύτερο LLM για να βαθμολογήσει κάθε ζεύγος (1–5) για Ακρίβεια και Τόνο. Κράτα μόνο ό,τι παίρνει ≥4.
MinHash Deduplication: Αφαίρεσε πανομοιότυπες ερωτήσεις χρησιμοποιώντας το datasketch library. Κατώφλι ομοιότητας: 70%.

Εργαλείο: distilabel — το κορυφαίο open-source framework για synthetic data pipelines.

Πηγές

Στάδιο 2 — PEFT / LoRA Fine-Tuning

Όταν θέλεις το μοντέλο να μιλάει με συγκεκριμένο ύφος, χρησιμοποιείς Parameter-Efficient Fine-Tuning (PEFT).

Οι Τύποι των Adapters

LoRA (Low-Rank Adaptation)

Προσθέτει trainable matrices στα attention layers του μοντέλου.
Τα original weights παραμένουν παγωμένα — δεν χάνεις τη γενική γνώση.
70–80% λιγότερο VRAM από full fine-tuning.
Standard choice για τις περισσότερες περιπτώσεις.

QLoRA (Quantized LoRA) — Η πιο πρακτική επιλογή

4-bit quantization του base model + LoRA adapters σε full precision.
Επιτρέπει fine-tuning 30B μοντέλων σε RTX 4090 (24GB VRAM).
Μικρή (<5%) μείωση ποιότητας έναντι full LoRA.

DoRA, AdaLoRA, VeRA

DoRA: Αποσυνθέτει βάρη σε magnitude + direction. Πιο σταθερό σε domain shifts.
AdaLoRA: Δυναμικό rank ανά layer. Πιο αποδοτικό για domain-specific tasks.
VeRA: 10x λιγότερες trainable παράμετροι. Ιδανικό για απλά tasks με περιορισμένη μνήμη.

Βασικοί Hyperparameters

Hyperparameter	Τι κάνει	Τιμή εκκίνησης
`r` (rank)	Χωρητικότητα adapter — μεγαλύτερο = πιο ισχυρό	16–64
`lora_alpha`	Scaling factor — συνήθως 2×r	32–128
`lora_dropout`	Regularization για αποφυγή overfitting	0.05–0.1
`learning_rate`	Βήμα εκμάθησης	2e-4
`num_epochs`	Πόσες φορές βλέπει το dataset	3–5

Frameworks Fine-Tuning

🟢 Unsloth — Ταχύτητα & Απλότητα (Αρχάριοι)

2–5x ταχύτερο training, 70% λιγότερο VRAM χάρη σε custom CUDA kernels.
Single-GPU focused — ιδανικό για consumer hardware.
Υποστηρίζει Gemma 3, Qwen3, Llama, Mistral.

🔵 Axolotl — Production & Multi-GPU (Προχωρημένοι)

Multi-GPU & multi-node support με DeepSpeed/FSDP.
YAML-driven configuration — reproducible πειράματα.
Multimodal support (vision-language models).

🟡 LLaMA-Factory — Zero-Code & Web UI

Web UI για όσους δεν θέλουν κώδικα.
Χρησιμοποιεί Unsloth ως backend — αυτόματα γρήγορο.

Hardware Requirements

Μοντέλο	Method	VRAM	GPU
Gemma 3 4B	QLoRA (4-bit)	~6GB	RTX 3060 / 4060
Gemma 3 4B	LoRA (16-bit)	~12GB	RTX 3080 / 4070
Qwen3 30B	QLoRA (4-bit)	~20GB	RTX 4090
Qwen3 30B	LoRA (16-bit)	~60GB+	2× A100 / cloud

Χωρίς GPU; Χρησιμοποίησε Google Colab (δωρεάν T4 GPU) για Gemma 3 4B με QLoRA, ή RunPod / Lambda Labs για Qwen3 30B.

🎨 Sunny Design Ltd — Fine-Tuning σε Πράξη

50 seed examples (creative director replies) → distilabel → 500 synthetic pairs → QLoRA Gemma 3 4B με Unsloth → Creative Director voice στο Slack bot της εταιρείας.

Πηγές

Στάδιο 3 — Full Fine-Tuning: Η Κόκκινη Γραμμή

⚠️ Το Full Fine-Tuning (ενημέρωση όλων των παραμέτρων) είναι επικίνδυνο για τις περισσότερες επιχειρηματικές περιπτώσεις.

Catastrophic Forgetting

Το μοντέλο ξεχνάει τις γενικές γνώσεις του και γίνεται υπερ-ειδικευμένο στο dataset σου. Αν εκπαιδεύσεις με δεδομένα logistics, μπορεί να ξεχάσει πώς να μιλάει Ελληνικά. Το LoRA δεν έχει αυτό το πρόβλημα γιατί τα original weights παραμένουν παγωμένα.

Πότε να Χρησιμοποιήσεις Full Fine-Tuning

Εξειδικευμένες γλώσσες που το μοντέλο δεν γνωρίζει (αρχαία Ελληνικά, COBOL).
Νέες αρχιτεκτονικές tasks που δεν εντάσσονται στο Q&A pattern.
Τεράστιο dataset (100k+ δείγματα) και compute resources (πολλαπλά A100s).

Σύσταση: Για το 95% των επιχειρηματικών περιπτώσεων, χρησιμοποίησε QLoRA αντί full fine-tuning.

Στάδιο 4 — Production Pipeline

⚡ vLLM — High-Throughput Inference

Ο ταχύτερος inference engine για LLMs. Χρησιμοποιεί PagedAttention για να εξυπηρετεί πολλαπλούς χρήστες ταυτόχρονα με ελάχιστο VRAM waste.

🔀 LiteLLM — Unified API Proxy

Διαχείριση πολλαπλών μοντέλων και adapters μέσω ενός API — ακριβώς σαν OpenAI API. Ιδανικό για το George's Hotel: Adapter Α για Ελληνικά, Β για Αγγλικά, Γ για Γερμανικά — auto-routing ανά γλώσσα χρήστη.

📊 RAGAS — Evaluation

Μην μαντεύεις αν το RAG σου δουλεύει. Μέτρα το.

Metric	Τι μετράει	Τι σημαίνει χαμηλή τιμή
Faithfulness	Η απάντηση βασίζεται στο context;	Το μοντέλο «φαντάζεται» πληροφορίες
Answer Relevancy	Η απάντηση αφορά την ερώτηση;	Irrelevant ή off-topic απαντήσεις
Context Precision	Το retrieved context είναι σχετικό;	Χαμηλή ποιότητα retrieval
Context Recall	Βρέθηκε όλη η απαραίτητη πληροφορία;	Missing chunks — αναθεώρησε το chunking

Roadmap & Επόμενα Βήματα

Το Πλήρες Roadmap

Φάση	Τι κάνεις	Εργαλείο	Χρόνος
Α — Data Collection	Μάζεμα εγγράφων, exports, emails	Φάκελοι, Drive	1–2 μέρες
Β — Data Cleaning	Καθαρισμός PDFs, αφαίρεση θορύβου	Unstructured.io	1–2 μέρες
Γ — RAG Implementation	Setup vector store + hybrid search	AnythingLLM / LlamaIndex	3–5 μέρες
Δ — Synthetic Data	Παραγωγή Q&A pairs με teacher model	distilabel + Qwen3 30B	2–3 μέρες
Ε — Fine-Tuning	LoRA/QLoRA adapter training	Unsloth / Axolotl	1–2 μέρες
Ζ — Production	Deploy με vLLM + LiteLLM proxy	vLLM + LiteLLM	3–5 μέρες
Η — Evaluation	Μέτρηση RAGAS metrics + iteration	RAGAS	Συνεχές

Συνολικά: ~3–4 εβδομάδες για αρχάριους | ~1–2 εβδομάδες για developers.

🟢 Αν Είσαι Αρχάριος

Κατέβασε το AnythingLLM (δωρεάν, Windows/Mac/Linux).
Εγκατάστησε το Ollama και κατέβασε το Gemma 3: ollama pull gemma3:4b
Ανέβασε 3–5 PDFs της επιχείρησής σου στο AnythingLLM.
Δοκίμασε ερωτήσεις — δες αν οι απαντήσεις είναι ακριβείς.
Αν θέλεις custom ύφος, βρες έναν developer για το LoRA βήμα.

Πρώτος στόχος: 30 λεπτά — από μηδέν σε λειτουργικό RAG chatbot με τα δικά σου δεδομένα.

🔵 Αν Είσαι Προχωρημένος

Εβδομάδα 1: Data pipeline — Unstructured.io + LlamaIndex RAG + RAGAS baseline.
Εβδομάδα 2: Synthetic data με distilabel + Gemma 3 4B fine-tune με Unsloth.
Εβδομάδα 3: Production — vLLM + LiteLLM proxy + monitoring.
Εβδομάδα 4: Iteration — RAGAS evaluation + hyperparameter tuning.

AI Personalization

Περιεχόμενα

Εισαγωγή

Τα 3 User Cases

Τα 2 Μοντέλα

Μέρος 1: Η Φιλοσοφία — Context vs Behavior

RAG = «Τι ξέρει το μοντέλο»

LoRA = «Πώς μιλάει το μοντέλο»

Πότε χρειάζεσαι τι;

Πηγές

Στάδιο 0 — Data Curation: Το Θεμέλιο

Βήμα 1: Data Collection — Τι Μαζεύουμε

Βήμα 2: Data Cleaning

Βήμα 3: Chunking — Πώς Κόβουμε τα Κείμενα

Βήμα 4: Dataset Construction για Fine-Tuning

Πηγές

Στάδιο 1 — RAG Pipeline

Πώς Λειτουργεί

Hybrid Search: Vector + BM25

Re-ranking: Cross-Encoder

Εργαλεία RAG

🟢 AnythingLLM — Για Αρχάριους

🔵 LlamaIndex — Για Προχωρημένους

Τα 3 User Cases στο RAG

🏨 George's Boutique Hotel

📦 Milano Logistica

Πηγές

Στάδιο 1.5 — Synthetic Data Generation

Μέθοδος 1: Document-to-QA (Για Γνώση Domain)

Μέθοδος 2: Self-Instruct / Evol-Instruct (Για Ύφος)

Μέθοδος 3: Back-Translation & Paraphrasing (Για Ποικιλία)

Ποιοτικός Έλεγχος

Πηγές

Στάδιο 2 — PEFT / LoRA Fine-Tuning

Οι Τύποι των Adapters

LoRA (Low-Rank Adaptation)

QLoRA (Quantized LoRA) — Η πιο πρακτική επιλογή

DoRA, AdaLoRA, VeRA

Βασικοί Hyperparameters

Frameworks Fine-Tuning

🟢 Unsloth — Ταχύτητα & Απλότητα (Αρχάριοι)

🔵 Axolotl — Production & Multi-GPU (Προχωρημένοι)

🟡 LLaMA-Factory — Zero-Code & Web UI

Hardware Requirements

🎨 Sunny Design Ltd — Fine-Tuning σε Πράξη

Πηγές

Στάδιο 3 — Full Fine-Tuning: Η Κόκκινη Γραμμή

Catastrophic Forgetting

Πότε να Χρησιμοποιήσεις Full Fine-Tuning

Στάδιο 4 — Production Pipeline

⚡ vLLM — High-Throughput Inference

🔀 LiteLLM — Unified API Proxy

📊 RAGAS — Evaluation

Roadmap & Επόμενα Βήματα

Το Πλήρες Roadmap

🟢 Αν Είσαι Αρχάριος

🔵 Αν Είσαι Προχωρημένος

Πλήρης Βιβλιογραφία

Μοντέλα & Documentation

Data Preparation

RAG

Fine-Tuning

Production & Evaluation

Video Tutorials