
VALL-E که اوایل این هفته توسط محققان مایکروسافت فاش شد، بر اساس فناوری قبلی هوش مصنوعی معرفی شده توسط متا به نام EnCodec ساخته شده است. اگرچه VALL-E با ابزارهای معمولی تبدیل متن به گفتار شما متفاوت است. در حالی که امروزه ابزارهای تبدیل متن به گفتار معمولاً با دستکاری شکل موج برای ایجاد گفتار کار می کنند، VALL-E می تواند کدهای کدک صوتی واقعی را از هر دو پیام متنی و صوتی تولید کند. اساساً، میتوانید به VALL-E اجازه دهید ابتدا به نمونهای از صحبت کردن یک فرد گوش دهد (فقط باید حداقل سه ثانیه طول بکشد)، و سپس نحوه شنیدن صدای آنها را تجزیه و تحلیل کرده و آن را به آنچه که محققان هستند تجزیه میکند.
با استفاده از این نشانههای صوتی، میتوانید به VALL-E یک پیام متنی بدهید، که در آن VALL-E میتواند یک کلیپ صوتی تولید کند که هم در عین حفظ الگوهای صوتی گوینده، هم پیام را بیان میکند و هم از محیط آکوستیک از نزدیک تقلید میکند. صدا نمونه و حتی با تغییر دادن دستورات مورد استفاده در هنگام تولید نتیجه، تغییراتی از صدای نمونه تولید کنید.
میتوانید نمونههای صوتی VALL-E را در زیر مشاهده کنید:
به گفته محققان، VALL-E روزی می تواند برای برنامه های کاربردی تبدیل متن به گفتار بسیار بهتر از برنامه های موجود امروزی استفاده شود. همچنین میتوان از آن برای ایجاد محتوای صوتی با جفت کردن آن با ابزارهای هوش مصنوعی دیگر مانند چت انسانی مدل GPT-3 استفاده کرد. پتانسیل استفاده از آن برای ویرایش گفتار نیز وجود دارد، با استفاده از VALL-E برای تغییر ضبط سخنرانی یا مکالمه یک فرد. خوشبختانه، مایکروسافت در حال حاضر آن را به روی عموم باز نمیکند، که احتمالاً چیز خوبی است زیرا مردم میتوانند به راحتی از VALL-E به دلایل مضرتر سوء استفاده کنند.
محققان همچنین اضافه کردند که احتمالاً به دنبال ساخت یک مدل تشخیص هستند که می تواند تشخیص دهد که آیا یک کلیپ صوتی واقعی است یا یک نسل VALL-E: