"إذا أراد العامل أن يؤدي عمله بشكل جيد، فعليه أولاً أن يشحذ أدواته." - كونفوشيوس، "مختارات كونفوشيوس. لو لينجونج"
الصفحة الأمامية > برمجة > ضبط نموذج اللغة الكبير الخاص بك (LLM) باستخدام ميسترال: دليل خطوة بخطوة

ضبط نموذج اللغة الكبير الخاص بك (LLM) باستخدام ميسترال: دليل خطوة بخطوة

تم النشر بتاريخ 2024-08-29
تصفح:859

Fine-Tuning Your Large Language Model (LLM) with Mistral: A Step-by-Step Guide

مرحبًا، أيها الزملاء المتحمسون للذكاء الاصطناعي! ؟ هل أنت مستعد لإطلاق الإمكانات الكاملة لنماذج اللغات الكبيرة (LLMs) الخاصة بك؟ اليوم، نحن نغوص في عالم الضبط الدقيق باستخدام ميسترال كنموذج أساسي لدينا. إذا كنت تعمل على مهام البرمجة اللغوية العصبية المخصصة وترغب في الارتقاء بنموذجك إلى المستوى التالي، فهذا الدليل مناسب لك! ?

؟ لماذا صقل LLM؟

يتيح لك الضبط الدقيق تكييف نموذج تم تدريبه مسبقًا مع مجموعة البيانات المحددة الخاصة بك، مما يجعله أكثر فعالية لحالة الاستخدام الخاصة بك. سواء كنت تعمل على برامج الدردشة الآلية، أو إنشاء المحتوى، أو أي مهمة أخرى في البرمجة اللغوية العصبية، فإن الضبط الدقيق يمكن أن يؤدي إلى تحسين الأداء بشكل كبير.

؟ لنبدأ مع ميسترال

أول الأشياء أولاً، فلنقم بإعداد بيئتنا. تأكد من تثبيت Python مع المكتبات الضرورية:

pip install torch transformers datasets

️ تحميل ميسترال

ميسترال هو نموذج قوي، وسوف نستخدمه كقاعدة لنا للضبط الدقيق. إليك كيفية تحميله:

from transformers import AutoModelForCausalLM, AutoTokenizer

# Load the Mistral model and tokenizer
model_name = "mistralai/mistral-7b"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

؟ إعداد مجموعة البيانات الخاصة بك

يتطلب الضبط الدقيق مجموعة بيانات مصممة خصيصًا لمهمتك المحددة. لنفترض أنك تقوم بضبط مهمة إنشاء النص. إليك كيفية تحميل مجموعة البيانات الخاصة بك وإعدادها:

from datasets import load_dataset

# Load your custom dataset
dataset = load_dataset("your_dataset")

# Tokenize the data
def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

tokenized_dataset = dataset.map(tokenize_function, batched=True)

؟ ضبط النموذج

الآن يأتي الجزء المثير! سنقوم بضبط نموذج ميسترال على مجموعة البيانات الخاصة بك. لهذا، سنستخدم Trainer API من Hugging Face:

from transformers import Trainer, TrainingArguments

# Set up training arguments
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
)

# Initialize the Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["test"],
)

# Start fine-tuning
trainer.train()

؟ تقييم النموذج الذي تم ضبطه بدقة

بعد الضبط الدقيق، من المهم تقييم مدى جودة أداء النموذج الخاص بك. إليك كيفية القيام بذلك:

# Evaluate the model
eval_results = trainer.evaluate()

# Print the results
print(f"Perplexity: {eval_results['perplexity']}")

؟ نشر النموذج المضبوط لديك

بمجرد أن تصبح راضيًا عن النتائج، يمكنك حفظ النموذج الخاص بك ونشره:

# Save your fine-tuned model
trainer.save_model("./fine-tuned-mistral")

# Load and use the model for inference
model = AutoModelForCausalLM.from_pretrained("./fine-tuned-mistral")

؟ التفاف

وهذا كل شيء! ؟ لقد نجحت في ضبط ماجستير إدارة الأعمال الخاص بك باستخدام ميسترال. الآن، قم بإطلاق العنان لقوة نموذجك في مهام البرمجة اللغوية العصبية (NLP) الخاصة بك. تذكر أن الضبط الدقيق هو عملية متكررة، لذا لا تتردد في تجربة مجموعات البيانات والعصور والمعلمات الأخرى المختلفة للحصول على أفضل النتائج.

لا تتردد في مشاركة أفكارك أو طرح الأسئلة في التعليقات أدناه. ضبط سعيد! ?


بيان الافراج يتم استنساخ هذه المقالة على: https://dev.to/abhinowwww/fine-tuning-your-large-language-model-llm-with-mistral-a-step-by-step-b2؟1 إذا كان هناك أي انتهاك ، فيرجى الاتصال بـ [email protected] لحذفها.
أحدث البرنامج التعليمي أكثر>

تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.

Copyright© 2022 湘ICP备2022001581号-3