Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
teknopedia

teknopedia

teknopedia

teknopedia

teknopedia

teknopedia
teknopedia
teknopedia
teknopedia
teknopedia
teknopedia
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url
  1. Weltenzyklopädie
  2. ترنسفورمر (یادگیری عمیق) - ویکی‌پدیا، دانشنامهٔ آزاد
ترنسفورمر (یادگیری عمیق) - ویکی‌پدیا، دانشنامهٔ آزاد
از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از ترنسفورمرها (یادگیری ماشین))
یادگیری ماشین و
داده‌کاوی
موضوع‌ها
  • طبقه‌بندی آماری
  • خوشه‌بندی
  • تحلیل رگرسیون
  • روش تشخیص ناهنجاری
  • یادگیری قانون وابستگی
  • یادگیری تقویتی
  • پیش بینی ساختاریافته
  • مهندسی ویژگی
  • یادگیری ویژگی
  • یادگیری ماشین برخط
  • یادگیری نیمه‌نظارتی
  • یادگیری بی‌نظارت
  • Learning to rank
  • Grammar induction
یادگیری با نظارت
(طبقه‌بندی آماری • تحلیل رگرسیون)
  • یادگیری درخت تصمیم
  • Ensembles (تکنیک بگینگ, بوستینگ، جنگل تصادفی)
  • k-NN
  • رگرسیون خطی
  • دسته‌بندی کننده بیز ساده
  • شبکه‌های عصبی مصنوعی
  • رگرسیون لجستیک
  • پرسپترون
  • ماشین بردار مرتبط (RVM)
  • ماشین بردار پشتیبانی
خوشه‌بندی
  • کاهش و خوشه‌بندی ترازمند و بازکردی با بهره‌گیری از رده‌بندی
  • خوشه‌بندی سلسله‌مراتبی
  • خوشه‌بندی کی-میانگین
  • الگوریتم امید ریاضی–بیشینه کردن

  • DBSCAN
  • OPTICS
  • انتقال میانگین
کاهش ابعاد
  • تحلیل عاملی
  • CCA
  • تحلیل مؤلفه‌های مستقل
  • آنالیز افتراقی خطی
  • فاکتورگیری نامنفی ماتریس
  • تحلیل مؤلفه‌های اصلی
  • t-SNE
پیش‌بینی ساختاریافته
  • مدل‌های گرافیکی (شبکه‌های بیزی، میدان تصادفی شرطی، مدل پنهان مارکف)
روش تشخیص ناهنجاری
  • الگوریتم کی-نزدیکترین همسایه
  • فاکتور پرتی محلی
شبکه عصبی مصنوعی
  • خودرمزگذار
  • یادگیری عمیق
  • پرسپترون چندلایه
  • RNN
  • ماشین بولتزمن محدود شده
  • ترانسفورمر بینایی
  • SOM
  • شبکه عصبی پیچشی
یادگیری تقویتی
  • کیو-یادگیری
  • SARSA
  • یادگیری تفاوت زمانی
  • یادگیری تقویتی چندعاملی
  • خودبازی
یادگیری با انسان
  • یادگیری فعال
  • جمع‌سپاری
  • انسان در حلقه
  • RLHF
عیب‌یابی مدل
  • ضریب تعیین
  • ماتریس درهم‌ریختگی
  • منحی یادگیری (یادگیری ماشین)
  • منحنی مشخصه عملکرد سیستم
نظریه
  • Bias-variance dilemma
  • نظریه یادگیری محاسباتی
  • Empirical risk minimization
  • Occam learning
  • یادگیری احتمالا تقریبا صحیح
  • یادگیری آماری
  • نظریه VC
حوزه‌های یادگیری ماشین
  • NIPS
  • ICML
  • ML
  • JMLR
  • ArXiv:cs.LG
  • ن
  • ب
  • و
ترنسفورمرها (یادگیری ماشین)

ترنسفورمر یا مُبَدِّل، روشی است که به رایانه اجازه می‌دهد تا یک دنباله از نویسه‌ها را به دنباله دیگری از نویسه‌ها تبدیل کند. این روش می‌تواند برای مثال برای ترجمه متن از یک زبان به زبان دیگر استفاده شود. برای این کار، ترانسفورمور با استفاده از یادگیری ماشین بر روی مجموعه بزرگی از داده‌های نمونه آموزش داده می‌شود و سپس مدل آموزش‌دیده برای ترجمه استفاده می‌شود.

مبدل‌ها جزو معماری‌های یادگیری عمیق هستند. مبدل‌ها برای اولین بار در سال ۲۰۱۷ در کنفرانس پردازش اطلاعات عصبی معرفی شدند.

برخی دیگر از کاربردهای ترنسفورمرها عبارتند از:

  • تولید متن: ترنسفورمرها می‌توانند برای تولید متن‌های جدید، مانند نوشتن داستان یا شعر، استفاده شوند.
  • خلاصه‌سازی متن: ترنسفورمرها می‌توانند برای خلاصه‌سازی متن‌های طولانی و حفظ نکات کلیدی آنها استفاده شوند.

ترانسفورمر در مقایسه با معماری‌های حافظه بلندمدت کوتاه‌مدت (LSTM) کارایی بیشتری دارد و پایه و اساس بسیاری از مدل‌های یادگیری ماشین پیش‌آموزشی مانند BERT[۱] و GPT[۲] است. از مبدل‌ها همچنین به عنوان Evoformer در AlphaFold2 استفاده می‌شود.

ترنسفورمرها به دلیل موازی‌سازی آسان، سرعت و دقت بالا، به یکی از محبوب‌ترین مدل‌های یادگیری ماشین برای پردازش زبان طبیعی تبدیل شده‌اند. ترنسفورمرها در طیف وسیعی از کاربردهای دیگر مانند تشخیص گفتار، ترجمه ماشینی و پاسخ به سوالات نیز استفاده می‌شوند.

مانند شبکه عصبی بازگشتی (RNN)، ترنسفورمرها برای مدیریت داده‌های ورودی mdhmd، مانند زبان طبیعی، برای کارهایی مانند ترجمه و خلاصه متن طراحی شده‌اند. با این حال، برخلاف شبکه عصبی بازگشتیها، ترنسفورمرها لزوماً داده‌ها را به ترتیب پردازش نمی‌کنند. در عوض، مکانیسم توجه زمینه را برای هر موقعیتی در دنباله ورودی فراهم می‌کند. به عنوان مثال، اگر داده ورودی یک جمله زبان طبیعی باشد، ترانسفورمر نیازی به پردازش ابتدای جمله قبل از پایان ندارد. در عوض، زمینه ای را مشخص می‌کند که به هر کلمه در جمله معنا می‌بخشد. این ویژگی اجازه می‌دهد تا موازی سازی بیشتر از شبکه عصبی بازگشتیها باشد و بنابراین زمان آموزش را کاهش می‌دهد.[۳]

ترنسفورمرها در سال ۲۰۱۷ توسط تیمی در گوگل برینمعرفی شدند و به‌ طور فزاینده ای به عنوان بهترین مدل در حل مسائل NLP مورداستفاده قرار می‌گیرند و جایگزین مدل‌های شبکه عصبی بازگشتی مانند حافظه کوتاه‌مدت طولانی شدند. قابلیت موازی‌سازی آموزش در ترانسفورمرها امکان آموزش بر روی مجموعه داده‌های بزرگتر را می‌دهد که تا پیش از حضور آنها به سختی ممکن بود. این موضوع منجر به توسعه سیستم‌های از پیش آموزش‌دیده مانند برت (نمایش رمزگذار دوطرفه از ترنسفورمرها) و GPT (ترنسفورمر تولیدگر از پیش آموزش‌دیده)، که با مجموعه داده‌های زبانی بزرگ، مانند ویکی‌پدیا و Common Crawl آموزش دیده‌اند، و می‌توان آنها را برای کارهای خاص به‌خوبی تنظیم کرد.[۴]

پس زمینه

[ویرایش]
مبدل

قبل از ظهور ترنسفورمرها، در بیشتر سیستم‌های NLP پیشرفته، نسخه‌های اولیه مکانیسم توجه را به شبکه‌های عصبی بازگشتی دروازه‌دار (مانند حافظه کوتاه-مدت طولانی و واحد بازگشتی دروازه‌ای (اختصاری GRU)) اضافه کرده بودند. در شبکه های عصبی بازگشتی، مجموعه داده ها با توجه به توالی آنها مورد پردازش قرار میگیرند. ترنسفورمرها بر اساس مکانیسم توجه، و بدون استفاده از ساختار شبکه عصبی بازگشتی ساخته شده‌اند، و این واقعیت را برجسته می‌کند که مکانیسم‌های توجه تنها با استفاده از "توجه" می‌توانند با عملکرد شبکه عصبی بازگشتیها رقابت کنند.

پردازش متوالی

[ویرایش]

شبکه عصبی بازگشتیهای دروازه ای توکن‌ها را به صورت متوالی پردازش می‌کنند و یک بردار حالت را حفظ می‌کنند که حاوی نمایشی از داده‌هایی است که بعد از هر نشانه مشاهده می‌شود. برای پردازش علامت n {\textstyle n} {\textstyle n} ام، مدل حالتی را که جمله را تا توکن n − 1 {\textstyle n-1} {\textstyle n-1} نشان می‌دهد با اطلاعات نشانه جدید برای ایجاد یک حالت جدید، نشان دهنده جمله تا نشانه n {\textstyle n} {\textstyle n}. از نظر تئوری، اطلاعات یک توکن می‌تواند به‌طور دلخواه در طول توالی منتشر شود، اگر در هر نقطه، وضعیت به رمزگذاری اطلاعات متنی در مورد نشانه ادامه دهد. در عمل، این مکانیسم ناقص است: مسئله گرادیان محوشونده وضعیت مدل را در پایان یک جمله طولانی بدون اطلاعات دقیق و قابل استخراج دربارهٔ نشانه‌های قبلی ترک می‌کند. وابستگی محاسبات توکن به نتایج محاسبات توکن‌های قبلی نیز موازی کردن محاسبات روی سخت‌افزار یادگیری عمیق مدرن را دشوار می‌کند. این می‌تواند آموزش شبکه عصبی بازگشتیها را ناکارآمد کند.

توجه

[ویرایش]

این مشکلات با مکانیسم‌های توجه برطرف شد. مکانیسم‌های توجه به یک مدل اجازه می‌دهند از حالت در هر نقطه قبلی در طول دنباله استفاده کند. لایه توجه می‌تواند به همه حالت‌های قبلی دسترسی داشته باشد و آنها را با توجه به اندازه‌گیری مرتبط بودن اندازه‌گیری کند، و اطلاعات مرتبطی در مورد توکن‌های دور ارائه دهد.

مثال واضحی از ارزش توجه در ترجمه ماشینی است، که در آن زمینه برای تعیین معنای یک کلمه در جمله ضروری است. در سیستم ترجمه انگلیسی به فرانسوی، احتمالاً اولین کلمه خروجی فرانسوی به شدت به چند کلمه اول ورودی انگلیسی بستگی دارد. با این حال، در یک مدل کلاسیک حافظه طولانی کوتاه-مدت، برای تولید اولین کلمه خروجی فرانسوی، مدل فقط بردار حالت کلمه انگلیسی «آخرین» را به مدل داده می‌شود. از نظر تئوری، این بردار می‌تواند اطلاعات مربوط به کل جمله انگلیسی را رمزگذاری کند و تمام دانش لازم را به مدل بدهد. در عمل، این اطلاعات اغلب به خوبی توسط حافظه طولانی کوتاه-مدت حفظ می‌شود. یک مکانیسم توجه می‌تواند برای رفع این مشکل اضافه شود: رمزگشا به بردارهای وضعیت هر کلمه ورودی انگلیسی دسترسی دارد، نه فقط آخرین کلمه، و می‌تواند وزن‌های توجه را یاد بگیرد که میزان توجه به هر بردار حالت ورودی انگلیسی را تعیین می‌کند.

هنگامی که به شبکه عصبی بازگشتی اضافه می‌شود، مکانیسم‌های توجه عملکرد را افزایش می‌دهند. توسعه معماری ترانسفورمر نشان داد که مکانیسم‌های توجه به خودی خود قدرتمند هستند و پردازش متوالی مکرر داده‌ها برای دستیابی به دستاوردهای کیفیت شبکه عصبی بازگشتی با توجه ضروری نیست. ترنسفورمرها از مکانیزم توجه بدون شبکه عصبی بازگشتی استفاده می‌کنند، همه نشانه‌ها را همزمان پردازش می‌کنند و وزن توجه بین آنها را در لایه‌های متوالی محاسبه می‌کنند. از آنجایی که مکانیسم توجه فقط از اطلاعات مربوط به نشانه‌های دیگر از لایه‌های پایین‌تر استفاده می‌کند، می‌توان آن را برای همه نشانه‌ها به صورت موازی محاسبه کرد که منجر به بهبود سرعت تمرین می‌شود.

معماری

[ویرایش]

معماری رمزگذار-رمزگشا

[ویرایش]

مانند مدل‌های قبلی seq2seq، مدل اولیه ترانسفورمر از معماری «رمزگذار-رمزگشا» استفاده می‌کرد. رمزگذار از لایه‌های رمزگذاری تشکیل شده‌است که ورودی را به‌طور مکرر یکی پس از دیگری پردازش می‌کند، در حالی که رمزگشا شامل لایه‌های رمزگشایی است که همان کار را با خروجی رمزگذار انجام می‌دهد.

وظیفه هر لایه رمزگذار تولید رمزگذاری‌هایی است که حاوی اطلاعاتی در مورد اینکه کدام بخش از ورودی‌ها با یکدیگر مرتبط هستند. رمزگذاری‌های خود را به عنوان ورودی به لایه رمزگذار بعدی ارسال می‌کند. هر لایه رمزگشا برعکس عمل می‌کند، تمام رمزگذاری‌ها را می‌گیرد و از اطلاعات متنی آنها برای تولید یک دنباله خروجی استفاده می‌کند.

برای هر ورودی، توجه، ارتباط هر ورودی دیگر را می‌سنجد و از آنها برای تولید خروجی استفاده می‌کند.[۳][۵] هر لایه رمزگشا دارای مکانیزم توجه اضافی است که اطلاعات را از خروجی‌های رمزگشاهای قبلی، قبل از اینکه لایه رمزگشا اطلاعات را از رمزگذاری‌ها ترسیم کند، می‌گیرد. .

هر دو لایه رمزگذار و رمزگشا دارای یک شبکه عصبی پیش‌خور برای پردازش اضافی خروجی‌ها هستند و شامل اتصالات باقی‌مانده و مراحل عادی‌سازی لایه هستند.[۵]

توجه ضرب داخلی مقیاس شده

[ویرایش]

بلوک‌های ساختمان ترانسفورمر واحدهای توجه نقطه-محصول مقیاس شده هستند. هنگامی که یک جمله به یک مدل ترانسفورمر منتقل می‌شود، وزن توجه بین هر نشانه به‌طور همزمان محاسبه می‌شود. واحد توجه، جاسازی‌هایی را برای هر نشانه در زمینه ایجاد می‌کند که حاوی اطلاعاتی در مورد خود نشانه به همراه ترکیب وزنی از نشانه‌های مرتبط دیگر است که هر کدام با وزن توجه خود وزن دارند.

برای هر واحد توجه، مدل ترانسفورمر سه ماتریس وزن را یادمی‌گیرد. وزن پرس و جو W Q {\displaystyle W_{Q}} {\displaystyle W_{Q}}، وزن کلید W K {\displaystyle W_{K}} {\displaystyle W_{K}} و وزن مقدار W V {\displaystyle W_{V}} {\displaystyle W_{V}}. برای هر نشانه i {\displaystyle i} {\displaystyle i}، ورودی جاسازی کلمه x i {\displaystyle x_{i}} {\displaystyle x_{i}} با هر یک از سه ماتریس وزن ضرب می‌شود تا یک بردار پرس و جو تولید شود q i = x i W Q {\displaystyle q_{i}=x_{i}W_{Q}} {\displaystyle q_{i}=x_{i}W_{Q}}، یک بردار کلید k i = x i W K {\displaystyle k_{i}=x_{i}W_{K}} {\displaystyle k_{i}=x_{i}W_{K}}، و یک بردار مقدار v i = x i W V {\displaystyle v_{i}=x_{i}W_{V}} {\displaystyle v_{i}=x_{i}W_{V}}. وزن توجه با استفاده از پرس و جو و بردارهای کلید محاسبه می‌شود: وزن توجه a i j {\displaystyle a_{ij}} {\displaystyle a_{ij}} از نشانه i {\displaystyle i} {\displaystyle i} تا نشانه j {\displaystyle j} {\displaystyle j} حاصل ضرب نقطه ای بین q i {\displaystyle q_{i}} {\displaystyle q_{i}} و k j {\displaystyle k_{j}} {\displaystyle k_{j}}. وزن‌های توجه بر جذر ابعاد بردارهای کلیدی تقسیم می‌شوند، d k {\displaystyle {\sqrt {d_{k}}}} {\displaystyle {\sqrt {d_{k}}}}، که گرادیان‌ها را در طول تمرین تثبیت می‌کند و از یک بیشینه هموار عبور می‌کند که وزن‌ها را عادی می‌کند. این واقعیت که W Q {\displaystyle W_{Q}} {\displaystyle W_{Q}} و W K {\displaystyle W_{K}} {\displaystyle W_{K}} ماتریس‌های متفاوتی هستند باعث می‌شود توجه غیر متقارن باشد: اگر نشانه i {\displaystyle i} {\displaystyle i} به نشانه j {\displaystyle j} {\displaystyle j} (یعنی q i   c d o t k j {\displaystyle q_{i}\ cdotk_{j}} {\displaystyle q_{i}\ cdotk_{j}} بزرگ است، این لزوماً به این معنی نیست که نشانه j {\displaystyle j} {\displaystyle j} به نشانه i {\displaystyle i} {\displaystyle i} (یعنی q j ⋅ k i {\displaystyle q_{j}\cdot k_{i}} {\displaystyle q_{j}\cdot k_{i}} خواهد آمد k_i </math> می‌تواند کوچک باشد). خروجی واحد توجه برای نشانه i {\displaystyle i} {\displaystyle i} مجموع وزنی بردارهای ارزش همه نشانه‌ها است که با a i j {\displaystyle a_{ij}} {\displaystyle a_{ij}} وزن شده‌است، توجه از نشانه i {\displaystyle i} {\displaystyle i} به هر نشانه.

محاسبه توجه برای همه نشانه‌ها را می‌توان به عنوان یک محاسبه ماتریس بزرگ با استفاده از بیشینه هموار بیان کرد که به دلیل بهینه‌سازی عملیات ماتریس محاسباتی که به سرعت عملیات ماتریس را محاسبه می‌کند برای آموزش مفید است. ماتریس‌های Q {\displaystyle Q} {\displaystyle Q}، K {\displaystyle K} {\displaystyle K} و V {\displaystyle V} {\displaystyle V} به‌عنوان ماتریس‌هایی تعریف می‌شوند که در آن ردیف‌های i {\displaystyle i} {\displaystyle i} بردار هستند. به ترتیب k i {\displaystyle k_{i}} {\displaystyle k_{i}} و v i {\displaystyle v_{i}} {\displaystyle v_{i}} و q i {\displaystyle q_{i}} {\displaystyle q_{i}}

Attention ( Q , K , V ) = softmax ( Q K T d k ) V {\displaystyle {\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}} {\displaystyle {\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}}

توجه چند سر

[ویرایش]

یک مجموعه از ماتریس‌های ( W Q , W K , W V ) {\displaystyle \left(W_{Q},W_{K},W_{V}\right)} {\displaystyle \left(W_{Q},W_{K},W_{V}\right)} «سر توجه» نامیده می‌شود و هر لایه در یک مدل ترانسفورمر دارای سرهای توجه متعددی است. در حالی که هر سر توجه به نشانه‌های مربوط به هر نشانه توجه می‌کند، با سرهای توجه متعدد، مدل می‌تواند این کار را برای تعاریف مختلف «ارتباط» انجام دهد. علاوه بر این، میدان تأثیر نشان دهنده ارتباط می‌تواند به تدریج در لایه‌های متوالی گشاد شود. بسیاری از سرهای توجه ترانسفورمر روابط مرتبطی را رمزگذاری می‌کنند که برای انسان معنادار است. برای مثال، سرهای توجه می‌توانند بیشتر به کلمه بعدی توجه کنند، در حالی که دیگران عمدتاً از افعال به مفعول مستقیم خود توجه می‌کنند.[۶] محاسبات برای هر سر توجه را می‌توان به صورت موازی انجام داد، که امکان پردازش سریع را فراهم می‌کند. خروجی‌های لایه توجه به هم متصل می‌شوند تا به لایه‌های شبکه عصبی پیش‌خور منتقل شوند.

رمزگذار

[ویرایش]

هر رمزگذار از دو جزء اصلی تشکیل شده‌است: یک مکانیسم توجه به خود و یک شبکه عصبی پیشخور. مکانیسم توجه به خود کدهای ورودی را از رمزگذار قبلی می‌پذیرد و ارتباط آنها را با یکدیگر برای تولید کدهای خروجی می‌سنجد. شبکه عصبی پیشخور بیشتر هر کدگذاری خروجی را به صورت جداگانه پردازش می‌کند. این کدهای خروجی سپس به رمزگذار بعدی به عنوان ورودی آن و همچنین به رمزگشاها ارسال می‌شود.

رمزگذار اول اطلاعات موقعیتی و جاسازی‌ها دنباله ورودی را به‌جای رمزگذاری به عنوان ورودی خود می‌گیرد. اطلاعات موقعیت برای ترانسفورمر برای استفاده از ترتیب ترتیب ضروری است، زیرا هیچ بخش دیگری از ترانسفورمر از این استفاده نمی‌کند.[۳]

رمزگشا

[ویرایش]

هر رمزگشا از سه جزء اصلی تشکیل شده‌است: مکانیسم توجه به خود، مکانیسم توجه روی رمزگذاری‌ها و شبکه عصبی پیش‌خور. رمزگشا به روشی مشابه رمزگذار عمل می‌کند، اما مکانیسم توجه اضافی درج شده‌است که در عوض اطلاعات مربوطه را از رمزگذاری‌های تولید شده توسط رمزگذارها می‌گیرد.[۳][۵]

مانند رمزگذار اول، رمزگشای اول به جای رمزگذاری، اطلاعات موقعیتی و جاسازی‌های دنباله خروجی را به عنوان ورودی خود می‌گیرد. ترانسفورمر نباید از خروجی فعلی یا آینده برای پیش‌بینی یک خروجی استفاده کند، بنابراین دنباله خروجی باید تا حدی پوشانده شود تا از این جریان اطلاعات معکوس جلوگیری شود.[۳]آخرین رمزگشا با یک تبدیل خطی و لایه بیشینه هموار، برای تولید احتمالات خروجی از روی واژگان.

جایگزین‌ها

[ویرایش]

آموزش معماری‌های مبتنی بر ترانسفورمر می‌تواند گران باشد، به خصوص برای ورودی‌های طولانی.[۷] معماری‌های جایگزین شامل Reformer است (که بار محاسباتی را از O ( N 2 ) {\displaystyle O(N^{2})} {\displaystyle O(N^{2})} به O ( N ln ⁡ N ) {\displaystyle O(N\ln N)} {\displaystyle O(N\ln N)}) کاهش می‌دهد. یا مدل‌هایی مانند ETC/ BigBird (که می‌تواند آن را به O ( N ) {\displaystyle O(N)} {\displaystyle O(N)} کاهش دهد)[۵] که در آن N {\displaystyle N} {\displaystyle N} طول توالی. این کار با استفاده از درهم‌سازی حساس به محلی (به انگلیسی: locality-sensitive hashing) و لایه‌های برگشت‌پذیر انجام می‌شود.[۵] یک معیار برای مقایسه معماری ترانسفورمر در اواخر سال ۲۰۲۰ معرفی شد.[۸]

آموزش

[ویرایش]

ترنسفورمرها معمولاً تحت یادگیری نیمه‌نظارتی شامل یادگیری بی‌نظارت پیش آموزش و سپس تنظیم دقیق نظارت شده قرار می‌گیرند. به دلیل در دسترس بودن محدود داده‌های آموزشی برچسب‌گذاری‌شده، معمولاً پیش‌آموزش بر روی مجموعه داده‌های بزرگ‌تری نسبت به تنظیم دقیق انجام می‌شود. وظایف پیش‌آموزشی و تنظیم دقیق معمولاً عبارتند از:

  • مدل‌سازی زبان[۹]
  • پیش‌بینی جمله بعدی[۹]
  • پاسخ به پرسش[۹]
  • درک مطلب
  • تحلیل احساسات[۱۰]
  • پارافریزی[۱۰]

برنامه‌های کاربردی

[ویرایش]

ترانسفورمر موفقیت زیادی در پردازش زبان طبیعی (NLP) داشته‌است، به عنوان مثال وظایف ترجمه ماشینی و سری‌های زمانی پیش‌بینی[۵] بسیاری از مدل‌های از پیش آموزش دیده مانند GPT-2، GPT-3، برت (مدل زبانی), XLNet و RoBERTa توانایی ترنسفورمرها را برای انجام طیف گسترده‌ای از وظایف مرتبط با NLP نشان می‌دهند و پتانسیل یافتن برنامه‌های کاربردی در دنیای واقعی را دارند[۱۱][۱۲][۵]

اینها ممکن است شامل موارد زیر باشد:

  • ترجمه ماشینی
  • خلاصه‌سازی اسناد
  • تولید سند
  • شناسایی نهاد نامگذاری شده[۵]
  • آنالیز دنباله بیولوژیک
  • نوشتن برنامه‌های رایانه‌ای
  • درک تصویری (ویدیویی)

علاوه بر برنامه های کاربردی NLP، در زمینه های دیگری مانند بینایی کامپیوتر یا برنامه های تاشوندگی پروتئین (مانند AlphaFold ) نیز موفق بوده است.

در سال ۲۰۲۰، نشان داده شد که معماری ترانسفورمر، به‌طور خاص GPT-2، می‌تواند برای بازی شطرنج تنظیم شود[۱۳] ترنسفورمرها برای پردازش تصویر با نتایج قابل رقابت با شبکه عصبی پیچشی به کار رفته‌اند.[۵]

پیاده‌سازی‌ها

[ویرایش]

مدل ترانسفورمر در چارچوب‌های یادگیری عمیق استاندارد مانند تنسورفلو و پای‌تورچ پیاده‌سازی شده‌است.

ترنسفورمر یک کتابخانه است که توسط هاگینگ فیس (به فارسی: شکلک خندان) تولید شده است و معماری‌های مبتنی بر ترانسفورمر و مدل‌های از پیش آموزش‌دیده را ارائه می‌دهد.

جستارهای وابسته

[ویرایش]
  • درک
  • واحد بازگشتی دروازه‌ای
  • GPT-3
  • وو دائو
  • ترانسفورمرهای بینایی

منابع

[ویرایش]
  1. ↑ Bidirectional Encoder Representations from Transformers
  2. ↑ Generative Pretrained Transformer
  3. ↑ ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام :0 وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
  4. ↑ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
  5. ↑ ۵٫۰ ۵٫۱ ۵٫۲ ۵٫۳ ۵٫۴ ۵٫۵ ۵٫۶ ۵٫۷ ۵٫۸ https://teknopedia.ac.id/wiki/Transformer_(machine_learning_model)
  6. ↑ Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (August 2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Florence, Italy: Association for Computational Linguistics: 276–286. doi:10.18653/v1/W19-4828.
  7. ↑ Kitaev, Nikita; Kaiser, Łukasz; Levskaya, Anselm (2020). "Reformer: The Efficient Transformer". arXiv:2001.04451 [cs.LG].
  8. ↑ Tay, Yi; Dehghani, Mostafa; Abnar, Samira; Shen, Yikang; Bahri, Dara; Pham, Philip; Rao, Jinfeng; Yang, Liu; Ruder, Sebastian; Metzler, Donald (2020-11-08). "Long Range Arena: A Benchmark for Efficient Transformers". arXiv:2011.04006 [cs.LG].
  9. ↑ ۹٫۰ ۹٫۱ ۹٫۲ https://teknopedia.ac.id/wiki/Transformer_(machine_learning_model)
  10. ↑ ۱۰٫۰ ۱۰٫۱ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel (2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 353–355. arXiv:1804.07461. doi:10.18653/v1/w18-5446. S2CID 5034059.
  11. ↑ Yang, Zhilin Dai, Zihang Yang, Yiming Carbonell, Jaime Salakhutdinov, Ruslan Le, Quoc V. (2019-06-19). XLNet: Generalized Autoregressive Pretraining for Language Understanding. OCLC 1106350082.{{cite book}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)
  12. ↑ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel (2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 353–355. arXiv:1804.07461. doi:10.18653/v1/w18-5446. S2CID 5034059.
  13. ↑ Noever, David; Ciolino, Matt; Kalin, Josh (2020-08-21). "The Chess Transformer: Mastering Play using Generative Language Models". arXiv:2008.04057 [cs.AI].

ادامه مطلب

[ویرایش]
  • Hubert Ramsauer et al. (2020), "Hopfield Networks is All You Need", preprint submitted for ICLR 2021. آرخیو:2008.02217; see also authors' blog
– Discussion of the effect of a transformer layer as equivalent to a Hopfield update, bringing the input closer to one of the fixed points (representable patterns) of a continuous-valued Hopfield network

پیوند به بیرون

[ویرایش]
  • Alexander Rush, The Annotated transformer, Harvard NLP group, ۳ آوریل ۲۰۱۸
  • ن
  • ب
  • و
هوش مصنوعی مولد
مفهوم
  • ترانسفورمر بینایی
  • ترنسفورمر
  • ترنسفورمر تولیدگر از پیش آموزش‌دیده
  • خودرمزگذار متغیر* خودرمزگذار
  • دگرنمایی واژه* شبکه عصبی مصنوعی
  • شبکه‌های زایای دشمن‌گونه
  • مدل زبانی بزرگ
  • مهندسی پرسش
  • یادگیری تقویتی از بازخورد انسانی
  • یادگیری خودنظارتی
  • یادگیری عمیق
  • RAG
مدل‌ها
متنی
  • جی‌پی‌تی
    • او۱
    • ۱
    • ۲
    • ۳
    • ۴
    • ۴او
    • جی
    • چت‌جی‌پی‌تی
  • جمینای
  • کلود
  • گراک
  • لاما
  • میسترال لارج
  • DBRX
  • PanGu-Σ
  • Granite
تصویری
  • استیبل دیفیوژن
  • دال ئی
  • میدجرنی
  • Flux
  • Ideogram
ویدئویی
  • دریم ماشین
  • سورا
  • Veo
  • Kling
  • Hailuo AI
  • Gen-3 Alpha
موسیقی
  • Suno AI
  • Udio
شرکت‌ها
  • آنتروپیک
  • استبیلیتی ای‌آی
  • اوپن‌ای‌آی
  • ایکس‌ای‌آی
  • دیپ‌سیک
  • دیپ‌مایند
  • کوایشو
  • گروه علی‌بابا
  • متا ای‌آی
  • میسترال ای‌آی
  • هاگینگ فیس
  • Baichuan
  • ElevenLabs
  • MiniMax
  • Moonshot AI
  • Runway
  • Synthesia
  • Zhipu AI
رده
برگرفته از «https://fa.teknopedia.teknokrat.ac.id/w/index.php?title=ترنسفورمر_(یادگیری_عمیق)&oldid=40824635»
رده‌ها:
  • شبکه‌های عصبی مصنوعی
  • معماری شبکه‌های عصبی
  • نرم‌افزارهای گوگل
رده‌های پنهان:
  • صفحه‌های دارای خطا در ارجاع
  • صفحه‌های با یادکرد خراب (فقدان منبع)
  • نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان
  • مقاله‌های دارای پیوند با میان‌ویکی
  • مقاله‌های دارای واژگان به زبان انگلیسی

  • indonesia
  • Polski
  • العربية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصرى
  • Nederlands
  • 日本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • країнська
  • Tiếng Việt
  • Winaray
  • 文
  • Русский
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id