50,000 rows · JSONL · Ready to download

Saudi Arabic
Conversations Dataset

50,000 synthetic customer service conversations in authentic Saudi Arabic dialects. Built for fine-tuning Arabic LLMs, chatbot training, and NLP research.

format: .jsonllanguage: Arabic (Saudi)license: commercial usepii: none
0+
Conversations
0
Saudi Dialects
0
Industry Sectors
~0MB
File Size
Dialects
Najdi (Riyadh/Qassim)~12,500
Hejazi (Jeddah/Makkah)~12,500
Sharqiyah (Eastern)~12,500
General / White Accent~12,500
Sectors
Fintech (Digital Wallet)~12,500
Telecom (Internet/5G)~12,500
Delivery (Food/Logistics)~12,500
E-Government (Simulated)~12,500
Row Schema (JSONL)
{
  "id":           "uuid",
  "status":       "completed",
  "metadata":     { "dialect": "Najdi", "sector": "Fintech", "sentiment": "Angry", "topic": "Transfer Failed" },
  "conversation": [ { "role": "user", "content": "..." }, { "role": "agent", "content": "..." } ],
  "slug":         "transfer-failed-a1b2c3"
}
Real data from the dataset

Sample Conversations

Visitors can browse real completed conversations and only download the first 500 examples in public preview format.

Example 1 · Late Delivery
Topic: Late DeliveryDialect: Najdi (Riyadh/Qassim)Sector: Delivery (Food/Logistics)Sentiment: Angry/Frustrated
Customer حولني على المشرف الحين، ما أبي أضيع وقتي معك. مهزلة والله اللي قاعد يصير في طلبي، ساعتين أنتظر وعشاي ما وصل!
Agent أبشري وحقك علينا يا أخت منال، معك خالد وبإذن الله ما تنهين المكالمة إلا وأنتِ راضية. بس لا هنتِ عطيني رقم الطلب عشان أشوف وش صاير بالضبط.
Customer رقم الطلب M2TSGAO، والطلب قيمته ١١٥ ريال ودافعته فيزا. وش ذا الاستهتار؟ السائق واقف في مكانه ما تحرك من نص ساعة!
Agent سمي، شيكت على النظام وفعلاً الطلب M2TSGAO متأخر عند المطعم والسائق ينتظرهم. ولا يهمك، الحين سحبت الطلب من السائق الأول وخصصت لك سائق
Customer وش ينفعني فيه السائق الجديد؟ الأكل أكيد برد الحين وخرب. أنا أبي فلوسي ترجع لي الحين ولا والله بصعد الموضوع لهيئة الاتصالات!
Agent حقك كامل وما نرضى بغير كذا. أبشرك كنسلت الطلب القديم تماماً، وبرجع لك الـ ١١٥ ريال كاملة في محفظتك في طلبي الحين، وتقدرين تطلبين من جديد ويوصلك حار.
Customer طيب والمحفظة وش بستفيد منها؟ أنا أبيها ترجع للفيزا. وبعدين وش يضمن لي إن الطلب الثاني ما يتأخر مثله؟
Agent طال عمرك، المبلغ نزل في المحفظة كحل فوري، وإذا تبينها للفيزا رفعت لك طلب استرداد للبنك وبتاخذ ٣ أيام عمل. وفوقها أضفت لك كود خصم خاص تعويضاً عن اللي صار.
Customer يعني الحين أقدر أطلب بالكود هذا ويطلع لي التوصيل مجاني؟ لأن الصراحة اللي صار اليوم كرهني في الخدمة.
Agent تم يا طويلة العمر، الكود يعطيك توصيل مجاني وخصم إضافي بعد. والمبلغ صار متاح في حسابك الحين تقدرين تستخدمينه فوراً لو حبيتي.
Customer زين، أشوف المبلغ نزل في المحفظة. أهم شي لا يتكرر ذا التأخير مرة ثانية لأننا تعبنا من كثر الشرح للسائقين.
Agent بإذن الله ما يتكرر، وتابعت ملاحظتك مع قسم العمليات بخصوص السائق والمطعم. تامرين على شيء ثاني يا أخت منال؟

Public preview currently exposes 100 completed conversations · download is capped at the first 500 rows.

What's inside

Every Row is Production-Grade

Each conversation includes rich metadata, authentic dialect markers, brand-specific vocabulary, and realistic resolution patterns — not template-generated filler.

12+ Topics

OTP failures, unknown charges, bill disputes, missing orders, account locks, transfer errors, SIM replacements, appointment issues, and more.

4 Sentiment Profiles

Angry/Frustrated, Urgent/Panic, Confused/Inquiring, Neutral/Polite — each with distinct opening styles and escalation patterns.

Realistic Outcomes

Not every case gets magically resolved. 40% full resolution, 30% partial fix, 20% escalation, 10% unresolved — mirroring real call center data.

18 Fictional Saudi Brands

Fictional but authentic-sounding brands across fintech wallets, telecom providers, food delivery apps, and e-government platforms — each with sector-accurate capabilities and limitations.

Who buys this

Built for Arabic AI Teams

LLM Fine-tuning

Drop the JSONL directly into your training pipeline. Format-ready for Hugging Face, Axolotl, and LLaMA-Factory.

Chatbot Training

Build Saudi customer service bots that actually sound local. Real dialect vocabulary, not translated MSA.

Arabic NLP Research

Sentiment analysis, dialect classification, named-entity extraction. Labeled metadata included per row.

100% Synthetic — no real user data
Zero PII — NDMO & GDPR safe
Dialect-validated — stop-word enforced
Immediate delivery via WhatsApp
Data quality

Every Row Passes 20+ Automated Checks

We don't just generate — we validate. Every conversation goes through a multi-layer quality gate before it enters the dataset.

95%
automated pass rate on latest batch
20+
quality checks per conversation
3x
retry-and-regenerate on failures

Dialect Purity

Levantine, Egyptian, and Maghrebi contamination is auto-rejected. Only authentic Saudi vocabulary passes.

Brand Realism

18 Saudi brands with enforced capability rules. Agents can't offer services their brand doesn't provide.

No Robotic Phrasing

Template phrases like "هل يمكنني مساعدتك" are banned. Every agent sounds like a real Saudi CSR.

Resolution Diversity

Not every case gets a magic fix. The system enforces realistic escalations, partial fixes, and honest limitations.

Natural Dialect Frequency

Dialect markers are frequency-capped. No conversation uses يا خوي 5 times — that's caricature, not data.

Structural Integrity

Turn order, turn count, verification flow, and brand mention — all validated before a row is marked complete.

Questions

Frequently Asked Questions

Simple pricing

One Dataset. One Price.

$299
one-time payment · instant delivery
  • 50,000 conversations (JSONL)
  • 4 Saudi dialects fully labeled
  • 4 sectors with real vocabulary
  • Metadata per row (dialect, sector, sentiment, topic)
  • Commercial use license
  • Delivered via WhatsApp file transfer
  • 20+ quality checks per row
  • Free 500-row preview included
Not satisfied? Full refund within 24 hours.
Buy on WhatsApp

Message us on WhatsApp — we'll confirm and send the file directly.