مستندات n8n
74+ نود

گوگل جمینی

Google Gemini

هوش مصنوعی Gemini گوگل: متن، تصویر، ویدیو و صدا

هوش مصنوعی
متوسط
۰ بازدید
n8n 1.0+

نمای کلی

نود Google AI (Gemini) مدل‌های AI چندرسانه‌ای گوگل را در اختیار شما قرار می‌دهد.

قابلیت‌های کلیدی:

  • مکالمه هوشمند با Gemini
  • پردازش همزمان متن + تصویر + ویدیو + صدا
  • Context Window بزرگ (1 میلیون+ توکن)
  • تولید و ویرایش متن
  • تحلیل تصویر و ویدیو
  • خلاصه‌سازی اسناد بلند
  • Grounding با Google Search
  • Code Generation

مدل‌های Gemini:

  • Gemini 2.0 Flash: سریع و رایگان (محدود)
  • Gemini 1.5 Pro: قدرتمند با 1M token context
  • Gemini 1.5 Flash: سریع و ارزان

مزایای Gemini:

  • Tier رایگان سخاوتمندانه
  • Context Window 1 میلیون توکن (بزرگترین)
  • Multimodal واقعی (ویدیو + صدا)
  • یکپارچه با سرویس‌های گوگل
  • Grounding با جستجوی گوگل
  • پشتیبانی خوب از فارسی

کاربردها:

  • چت‌بات چندزبانه
  • تحلیل تصویر و ویدیو
  • تولید محتوا
  • ترجمه و خلاصه‌سازی
  • پردازش اسناد بسیار بلند
  • تحلیل فایل صوتی
  • جستجوی هوشمند با Grounding

احراز هویت

احراز هویت Google AI

روش 1: API Key (ساده‌ترین)

  1. 1به [Google AI Studio](https://aistudio.google.com/) بروید
  2. 2Get API Key کلیک کنید
  3. 3پروژه انتخاب یا بسازید
  4. 4API Key را کپی کنید

تنظیم در n8n:

  1. 1Credentials > Google AI (Gemini)
  2. 2API Key وارد کنید
  3. 3Test Connection بزنید

روش 2: Google Cloud (Enterprise)

  1. 1Google Cloud Console > Enable Vertex AI API
  2. 2Service Account بسازید
  3. 3JSON Key فایل دانلود کنید
  4. 4در n8n: Google Cloud Credentials

Tier رایگان:

code
Gemini 2.0 Flash:
  - 15 RPM (درخواست/دقیقه)
  - 1 میلیون توکن/دقیقه
  - 1,500 درخواست/روز
  - رایگان!

Gemini 1.5 Pro:
  - 2 RPM
  - 32,000 توکن/دقیقه
  - 50 درخواست/روز
  - رایگان!

قیمت‌های Pay-as-you-go:

code
Gemini 2.0 Flash:
  ورودی: $0.10 / 1M tokens
  خروجی: $0.40 / 1M tokens

Gemini 1.5 Pro:
  ورودی: $1.25 / 1M tokens (< 128K)
  خروجی: $5.00 / 1M tokens

نکات:

  • Tier رایگان برای تست و پروژه‌های کوچک عالی است
  • API Key را در جای امن نگه دارید
  • برای Production از Google Cloud استفاده کنید

عملیات‌های موجود

1

generateContent

مکالمه و تولید متن با Gemini

2

vision

پردازش تصویر و ویدیو

3

embedding

تبدیل متن به بردار عددی

کاربردهای متداول

1. چت‌بات رایگان

ساخت چت‌بات بدون هزینه:

code
Telegram Trigger (پیام)
  → Google AI (Generate Content)
    Model: gemini-2.0-flash (رایگان!)
    System: "یک دستیار فارسی‌زبان مفید و مودب هستی."
    User: {{$json.message}}
    Temperature: 0.7
    MaxTokens: 500
  → Telegram (پاسخ)

2. تحلیل تصویر محصول

بررسی عکس محصول:

code
Webhook (عکس محصول)
  → Google AI (Vision)
    Model: gemini-1.5-flash
    Image: {{$json.imageUrl}}
    Prompt: "این تصویر محصول را بررسی کن. JSON:
    {
      productType, color, condition, estimatedPrice,
      description: 'توصیف فارسی 2 جمله‌ای',
      tags: ['تگ1', 'تگ2']
    }"
  → MySQL (ذخیره اطلاعات)

3. خلاصه‌سازی ویدیو

تحلیل ویدیوی طولانی:

code
Google Drive (Download Video)
  → Google AI (Vision)
    Model: gemini-1.5-pro
    Video: Binary Video
    Prompt: "این ویدیو را تحلیل و فارسی خلاصه کن:
    1. موضوع اصلی
    2. نکات کلیدی
    3. خلاصه هر بخش"
  → Google Drive (Upload Summary)

4. تولید محتوای اینستاگرام

کپشن هوشمند:

code
Webhook (اطلاعات محصول + عکس)
  → Google AI (Vision + Text)
    Model: gemini-2.0-flash
    Image: {{$json.productImage}}
    Prompt: "با دیدن این عکس و اطلاعات، کپشن فارسی جذاب بنویس:
    محصول: {{$json.name}}
    قیمت: {{$json.price}} تومان
    شامل: هشتگ‌ها، ایموجی، CTA"
  → Telegram (ارسال برای تایید)

5. پردازش اسناد بلند

تحلیل قرارداد 200 صفحه‌ای:

code
Google Drive (Download PDF)
  → Code (استخراج متن)
  → Google AI (Generate Content)
    Model: gemini-1.5-pro (1M context!)
    System: "حقوقدان متخصص فارسی‌زبان هستی"
    User: "قرارداد زیر را بررسی و نکات مهم استخراج کن:
    {{$json.fullText}}"  // می‌تواند خیلی بلند باشد!
    MaxTokens: 4000
  → Gmail (ارسال تحلیل)

6. ترجمه با Grounding

ترجمه دقیق با جستجوی گوگل:

code
Webhook (متن)
  → Google AI (Generate Content)
    Model: gemini-2.0-flash
    System: "مترجم حرفه‌ای. اصطلاحات تخصصی را دقیق ترجمه کن.
    برای اصطلاحات نامطمئن، از Google Search استفاده کن."
    User: {{$json.text}}
    Grounding: Google Search (ON)
  → MySQL (ذخیره ترجمه)

7. OCR فارسی

خواندن متن از تصویر:

code
Webhook (عکس سند)
  → Google AI (Vision)
    Model: gemini-1.5-flash
    Image: {{$json.image}}
    Prompt: "تمام متن فارسی این تصویر را بخوان و تایپ کن.
    فرمت مرتب و خوانا حفظ شود."
  → MySQL (ذخیره متن)

8. تحلیل فایل صوتی

رونویسی و خلاصه جلسه:

code
Google Drive (Download Audio)
  → Google AI (Generate Content)
    Model: gemini-1.5-pro
    Audio: Binary Audio
    Prompt: "صدای این جلسه را گوش کن:
    1. متن کامل رونویسی کن
    2. خلاصه‌ای بنویس
    3. Action itemها استخراج کن"
  → Google Sheets (ذخیره خلاصه)

نکات حرفه‌ای

نکات حرفه‌ای

  1. 1مدل مناسب انتخاب کنید:
code
کار ساده + رایگان: gemini-2.0-flash
   کار پیچیده + بلند: gemini-1.5-pro
   سرعت بالا + ارزان: gemini-1.5-flash
  1. 1Context Window عظیم: 1M+ tokens:
code
// یک کتاب کامل در یک درخواست!
   // 1M tokens ≈ 750,000 کلمه
   // تحلیل ویدیوی 1 ساعته
   // بررسی کل codebase
  1. 1Multimodal: ترکیب انواع محتوا:
code
Contents: [
     {type: "text", text: "این عکس چیست؟"},
     {type: "image", source: imageBase64},
     {type: "text", text: "قیمت تخمینی؟"}
   ]
  1. 1Grounding: اتصال به جستجوی گوگل:
code
// پاسخ‌ها با اطلاعات به‌روز
   // لینک منابع ضمیمه می‌شود
  1. 1Safety Settings:
code
HARM_CATEGORY_HARASSMENT: BLOCK_NONE
   HARM_CATEGORY_HATE_SPEECH: BLOCK_MEDIUM_AND_ABOVE
   HARM_CATEGORY_SEXUALLY_EXPLICIT: BLOCK_LOW_AND_ABOVE
   HARM_CATEGORY_DANGEROUS_CONTENT: BLOCK_MEDIUM_AND_ABOVE
  1. 1Temperature:
code
0.0: استخراج داده، دسته‌بندی
   0.5: ترجمه، خلاصه
   1.0: تولید محتوا
   1.5-2.0: خلاقیت بالا (داستان)
  1. 1رایگان شروع کنید:
code
// Google AI Studio → Get API Key → شروع!
   // 1,500 درخواست رایگان در روز
   // بدون نیاز به کارت بانکی
  1. 1JSON Mode: خروجی ساختاریافته:
code
System: "فقط JSON معتبر برگردان."
   Generation Config: {response_mime_type: "application/json"}
  1. 1Caching: Claude و Gemini هر دو:
code
MongoDB → IF (cache exists) → Return
   → Gemini → Save to MongoDB → Return
  1. 1مقایسه با رقبا:
code
Context:  Gemini (1M) > Claude (200K) > GPT-4o (128K)
    هزینه:   Gemini رایگان > GPT-4o-mini > Claude Haiku
    سرعت:    Gemini Flash > GPT-4o-mini > Claude Haiku
    کیفیت:   Claude Opus ≈ GPT-4o ≈ Gemini Pro
  1. 1فارسی در Gemini: عملکرد خوبی دارد ولی System Prompt انگلیسی دقت بیشتری می‌دهد.
  1. 1Video Understanding: تحلیل ویدیو منحصر به Gemini:
code
// آپلود ویدیو + سوال = پاسخ!
    // تا 1 ساعت ویدیو در 1.5 Pro

رفع مشکلات

خطاهای رایج

1. خطای "API key not valid" (400)

علت: API Key نامعتبر

راه‌حل

  • از Google AI Studio کلید جدید بگیرید
  • مطمئن شوید Gemini API فعال است
  • کلید صحیح کپی شده باشد

2. خطای "Quota exceeded" (429)

علت: محدودیت رایگان تمام شده

راه‌حل

  • Tier رایگان محدودیت روزانه دارد
  • 24 ساعت صبر کنید
  • یا پلن Pay-as-you-go فعال کنید
  • Rate Limit: Wait Node اضافه کنید

3. خطای "Model not found"

علت: نام مدل اشتباه

راه‌حل

  • نام صحیح:
  • gemini-2.0-flash
  • gemini-1.5-pro
  • gemini-1.5-flash
  • بدون prefix models/

4. خطای "Invalid content"

علت: فرمت ورودی نادرست

راه‌حل

  • تصویر: JPEG, PNG, GIF, WEBP
  • ویدیو: MP4, AVI, MOV
  • صدا: MP3, WAV, FLAC
  • حجم: حداکثر 20MB (inline), 2GB (Cloud Storage)

5. پاسخ Safety Filter

علت: محتوا توسط فیلتر مسدود شده

راه‌حل

  • Safety Settings تنظیم کنید
  • Prompt را تغییر دهید
  • محتوای حساس اجتناب کنید

6. پاسخ خالی

علت: maxOutputTokens خیلی کم

راه‌حل

  • maxOutputTokens افزایش دهید
  • Prompt ساده‌تر بنویسید
  • مدل متفاوت امتحان کنید
اشتراک‌گذاری:

آیا این مستندات مفید بود؟