دسترسی به مجموعه داده های Huggingface در Databricks

در پی وبلاگ ما در مورد کشیدن مجموعه داده های GitHub به Databricks ، بسیاری از کاربران ممکن است دریابند که مجموعه داده مورد نیاز برای پروژه خود در HuggingFace قرار دارد. بغل کردن چهره یک بستر برجسته در جامعه AI و Learning Machine است که به دلیل کتابخانه گسترده خود از مدل ها و مجموعه داده های از قبل آموزش دیده شناخته شده است. این ابزارهایی برای پردازش زبان طبیعی (NLP) ، بینایی رایانه ، صوتی و کارهای چند حالته فراهم می کند و آن را به یک منبع همه کاره برای توسعه دهندگان و محققان تبدیل می کند. این پلتفرم با اجازه کاربران برای به اشتراک گذاشتن و کشف مدل ها ، مجموعه داده ها و برنامه ها ، همکاری را تقویت می کند و از این طریق پیشرفت و استقرار راه حل های AI را تسریع می کند. بغل کردن پشته منبع باز Face از روشهای مختلفی از جمله متن ، تصویر ، فیلم و صدا پشتیبانی می کند و راه حل های رایگان و سازمانی را برای تأمین نیازهای مختلف ارائه می دهد.
بغل کردن چهره دارای چندین ادغام پیش فرض با پایگاه داده است که امکان مصرف فوق العاده مستقیم از مجموعه داده های موجود و مدل های ML را در کاتالوگ وحدت شما فراهم می کند. ما می توانیم از اسکریپت بارگیری مجموعه داده های بغل در بغل کردن استفاده کنیم. موارد زیر را برای وارد کردن اسکریپت های صورت مورد نیاز بغل کنید:
from datasets import load_dataset
from pyspark.sql import functions as F
پس از راه اندازی ، باید یک فهرست حافظه پنهان مداوم را تعریف کنیم. ذخیره سازی یک تکنیک اساسی برای بهبود عملکرد سیستم های انبار داده با جلوگیری از نیاز به بازپرداخت یا واکشی همان داده ها چندین بار است. در Databricks SQL ، ذخیره سازی می تواند به طور قابل توجهی اجرای پرس و جو را سرعت بخشیده و استفاده از انبار را به حداقل برساند و در نتیجه هزینه های کمتری و استفاده از منابع کارآمدتر باشد.
# Define a persistent cache directory
cache_dir = "dbfs/cache/"
پس از تعریف یک فهرست حافظه نهان ، کد را برای بارگیری مجموعه داده ای که از بغل کردن صورت انتخاب کرده اید ، وارد کنید. در اینجا من یک مجموعه داده فیلم را با نمرات ژانر ، زبان و محبوبیت با 723K مدخل می کشم. اگر محاسبه یک نگرانی است ، می توانید از استدلال تقسیم شده برای کشیدن درصدی از مجموعه داده که کمتر از 100 ٪ است استفاده کنید.
dataset = load_dataset("wykonos/movies", cache_dir=cache_dir, split="train[:25%]")
پس از بارگیری مجموعه داده ، می توانید آن را در یک قاب داده بارگذاری کرده و هرگونه دستکاری جرقه ای یا تجزیه و تحلیل داده ها را انجام دهید. هنگامی که با داده ها خوب هستید ؛ پیش بروید و آن را به عنوان یک جدول در کاتالوگ وحدت خود ذخیره کنید تا بتوانیم با تجزیه و تحلیل ML بیشتر اجرا کنیم.
df = spark.createDataFrame(dataset)
df.write.mode("overwrite").saveAsTable(f"{path_table}" + "." + f"{table_name}")
کشیدن داده ها از بغل کردن صورت فقط شروع است. مقدار واقعی از آزمایشات یادگیری ماشین است که ما روی این داده ها اجرا خواهیم کرد. با بغل کردن کتابخانه گسترده مدل ها و مجموعه داده های از قبل آموزش دیده ، می توانیم امکانات جدید را در هوش مصنوعی و یادگیری ماشین کشف کنیم. با ادغام چهره بغل کردن با پایگاه داده ، می توانیم به راحتی مجموعه داده ها و مدل های ML را در فهرست وحدت خود قرار دهیم و راه را برای آزمایش های نوآورانه و نتایج تأثیرگذار هموار کنیم.