آموزش هادوپ (Hadoop)

آموزش هادوپ

آپاچی هادوپ (Apache Hadoop) یک چارچوب نرم‌افزاری است که از استفاده از داده‌ها برای برنامه‌های توزیع‌شده تحت نرم‌افزار آزاد حمایت می‌نماید. این سامانه قابلیت کار با هزاران گره و چندین پتابایت از داده را داراست. هادوپ با الهام از نگاشت‌کاهش و مقالات مربوط به سامانهٔ پروندهٔ گوگل((Google File System)) شرکت گوگل طراحی و پیاده‌سازی شده‌است.
هادوپ یک پروژهٔ سطح بالای آپاچی است که توسط گسترهٔ وسیعی از مشارکت‌کنندگان حمایت و استفاده می‌شود و از زبان برنامه‌سازی جاوا استفاده می‌نماید. شرکت یاهو به عنوان بزرگترین مشارکت‌کننده، از هادوپ به صورت گسترده در امور تجاری‌اش استفاده می‌کند.

عناوین آموزش هادوپ:
– معرفی Hadoop
– تکنولوژی های Hadoop
– آشنایی با مفهوم HDFS (مخفف Hadoop Distributed File System) سیستم فایل توزیع شده هادوپ
– معرفی MapReduce
– نصب Apache Hadoop به صورت Single Node
– نصب Apache Hadoop به صورت Multi Node
– عیب یابی، مدیریت و بهینه سازی Hadoop
– مدیریت HDFS
توسعه MapReduce
– آشنایی با سیستم Pig
– توسعه با Pig
– معرفی Hive (زبان SQL مربوط به Hadoop)
– توسعه با Hive
– مقدمه ای بر HBase (به عنوان پایگاه داده Hadoop)
– توسعه با HBase
– معرفی Zookeeper
– معرفی Sqoop
– آشنایی Local Hadoop Cloudera CDH VM
– آشنایی Cloud Hadoop Amazon EMR
– آشنایی Cloud Hadoop Microsoft HDInsight

هادوپ یک چارچوب برنامه‌نویسیِ رایگان و مبتنی بر جاوا است که ما را در پردازش مجموعه‌های عظیمی از داده‌ها در یک محیط پردازش توزیعی پشتیبانی می‌کند. هادوپ بخشی از پروژه آپاچی است که بنیاد نرم‌افزار آپاچی آن را حمایت می‌کند.
به گزارش زمان تحول، هادوپ این امکان را در اختیار ما قرار می‌دهد تا اپلیکیشن‌هایی را روی سیستم‌هایی مجهز به هزاران نود (node ) و حاوی هزاران ترابایت داده به اجرا درآوریم. سیستم فایل توزیعی هادوپ این امکان را فراهم می‌آورد تا سرعت انتقال داده‌ها در میان نودها افزایش یابد و سیستم بتواند در صورت ازکارافتادگی یک نود همچنان بی‌وقفه به کار خود ادامه بدهد. این رویکرد عملا خطر فاجعه‌بار خرابی سیستم را حتی وقتی تعداد قابل ملاحظه‌ای از نودها غیرفعال می‌شوند، کاهش می‌دهد.
ایده هادوپ ملهم از نرم‌افزار مپ ردیوس (MapReduce )گوگل است. مپ ردیوس یک چارچوب نرم‌افزاری است که در آن اپ‌ها به بخش‌های کوچک‌تر تقسیم می‌شوند. هر کدام از این بخش‌ها (که همچنین بخش یا بلوک نامیده می‌شوند) می‌تواند روی هر نودی در یک مجموعه‌ خوشه‌ای از نودها اجرا شود. «داگ کاتینگ» خالق هادوپ این نام را از نام فیل اسباب‌بازی کودکش گرفته است. اکوسیستم کنونی هادوپ آپاچی تشکیل شده است از هادوپ کرنل (Kernel)، مپ ردیوس، سیستم فایل توزیعی هادوپ (HDFS) و چند پروژه مرتبط دیگر مثل آپاچی هایو (Hive)، زوکیپر (Zookeeper) و… چارچوب هادوپ مورد استفاده بازیگران بزرگ مثل گوگل، یاهو و ای‌بی‌ام قرار می‌گیرد. این شرکت‌ها از این چارچوب برای اپ‌های مرتبط با موتورهای جست‌وجو و تبلیغات بهره می‌گیرند. سیستم‌های عامل ترجیحی برای هادوپ ویندوز یا لینوکس است هرچند با BSD و OSX نیز کار می‌کند

هادوپ چارچوبی بازمتن برای نوشتن و اجرای برنامه‌های توزیع شده است که حجم بالایی از داده را پردازش می‌کنند. رایانش توزیع شده زمینه‌ای گسترده و متنوع است اما هادوپ ویژگی‌هایی متفاوت دارد:
دسترس‌پذیر است: هادوپ روی کلاسترهای بزرگ از سرورهای معمولی (در دسترس) یا روی سرویس‌های رایانش ابری همچون سرویس EC2 آمازون (Elastic Compute Cloud) اجرا می‌شود.
مقاوم است: زیرا بر روی سخت‌افزارهایی معمولی اجرا می‌شود، هادوپ بدون اینکه نشان دهد از عهده خرابی گره‌ها بر می‌آید.زیرا فرض می‌کندکه عناصر رایانشی و ذخیره‌سازی از کار خواهند افتاد، بنابرایم چندین کپی از داده‌ای که روی آن دارد کار می‌کند را نگه می‌دارد تا اطمینان حاصل کند که پردازش می‌تواند باز توزیع شود.
مقیاس‌پذیر است: هادوپ همچنان که حجم داده‌ها افزایش می‌یابد با افزودن گره‌های جدید به کلاستر به صورت خطی گسترش می‌یابد و با این کار اجازه عملیات روی هزاران گیگابایت از داده‌ها را می‌دهد.
ساده است: هادوپ به کاربران این اجازه را می‌دهد که به سرعت کًدهای موازی کارا بنویسند.
به خاطر ویژگی‌های یاد شده هادوپ به سرعت و به گستردگی از سوی شرکت‌ها و مؤسسات مختلف پذیرفته شده است.در پیوست ب فهرست برخی از این شرکت‌ها و مؤسسات آورده شده است.
همانگونه که در بالا هم گفته شده هادوپ روی سرورهای معمولی کار می‌کند، که استفاده آن را ارزان کرده و برای کاربرد هر کسی امکان‌پذیر ‌می‌سازد.

سایت اوراکل فارسی راه اندازی شد.برای مشاهده سایت اینجا کلیک نمایید.

جهت دانلود دوره های آموزشی تصویری با موضوع آموزش هادوپ روی موضوعات زیر کلیک نمایید.

محسن صفابخش

محسن صفابخش

با سلام محسن صفابخش هستم .کارشناس و متخصص داده هایی با حجم و مقیاس کلان ازینرو در حال حاضر در یکی از بزرگتربن سایت های ایران در زمینه مدیریت و نگهداری از دیتابیس های اوراکل آن مشغول به فعالیت می باشم.

More Posts - Website

Follow Me:
LinkedInGoogle PlusYouTube

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *