"این خوب است به شنیدن صدای خود را، شما می دانید آن را تا مدت طولانی است
اگر من تماس های خود را دریافت کنید، سپس همه چیز را اشتباه می رود .
صدای شما در سراسر خط به من می دهد احساس عجیب و غریب"
- بلاندی، "منتظر پای تلفن"
در سال 1978 ، دبی هری گروه موج جدید خود Blondie را با قصه دلهره آور به صدر جدول رساند تا صدای دوست پسرش را از دور بشنود و اصرار کند که او را "قطع تلفن" نگذارد.
اما این سؤال پیش می آید: اگر سال 2020 بود چه می شد و او با از بین رفتن بسته های متناوب ، صدای جی تی وی ، تأخیر در شبکه و انتقال بسته های توالی از طریق VOIP صحبت می کرد؟
ما هرگز نمی دانیم
اما گوگل این هفته جزئیات فناوری جدیدی را برای برنامه محبوب صوتی و تصویری Duo خود اعلام کرده است که به اطمینان از انتقال صاف تر صدا و کاهش شکافهای لحظه ای که بعضاً اتصالات مبتنی بر اینترنت کمک می کند ، کمک می کند. ما دوست داریم فکر کنیم که دبی تأیید کند.
همه ما صدای جت اینترنت صدا را تجربه کرده ایم. این اتفاق می افتد وقتی که یک یا چند بسته از دستورالعمل ها شامل یک جریان از دستورالعمل های صوتی با تاخیر یا خارج از نظم بین تماس گیرنده و شنونده رخ می دهد. روش هایی که از بافر بسته های صوتی و هوش مصنوعی استفاده می کنند عموماً می توانند بیش از 20 میلی ثانیه یا کمتر از لرزنده باشند. اما وقتی بسته های مفقود شده تا 60 میلی ثانیه و بیشتر شود ، وقفه ها قابل توجه تر می شوند.
گوگل می گوید تقریباً همه تماس ها برخی از بسته های داده را از دست می دهند: یک پنجم از تماس ها 3 درصد از صوتی خود را از دست می دهند و یک دهم 8 درصد از دست می دهند.
این هفته ، محققان گوگل در بخش DeepMind گزارش دادند که آنها برای حل این مشکلات از برنامه ای به نام WaveNetEQ استفاده کرده اند. این الگوریتم در پر کردن شکافهای صوتی لحظه ای با عناصر گفتاری مصنوعی اما با صدای طبیعی برتری دارد. با تکیه بر یک کتابخانه گسترده از داده های گفتار ، WaveNetEQ شکاف های صدا تا 120 میلی ثانیه را پر می کند. معاوضه کمی چنین صدا concealments از دست دادن بسته (PLC) نامیده می شود.
وی افزود: "WaveNetEQ یک مدل تولیدی مبتنی بر فناوری WaveRNN DeepMind است ،" وبلاگ AI گوگل در تاریخ 1 آوریل گزارش داد ، "که با استفاده از یک مجموعه بزرگ از داده های گفتار برای ادامه واقع گرایانه بخش های گفتار کوتاه آموزش داده می شود و این امکان را می دهد تا به طور کامل فرم موج خام گفتار گمشده را تولید کند."
در این برنامه صداها از 100 بلندگو به 48 زبان مورد تجزیه و تحلیل قرار گرفته است و به جای ویژگی های یک زبان خاص ، " ویژگی های گفتار انسان به طور کلی ، به صفر رسیده است" .
علاوه بر این ، تجزیه و تحلیل صدا در محیطهایی ارائه شده است که طیف گسترده ای از سر و صدای زمینه را به شما می دهد تا از شناسایی دقیق سخنرانان در پیاده روهای شلوغ شهر ، ایستگاه های قطار یا کافه تریا اطمینان حاصل شود .
کلیه پردازش WaveNetEQ باید بر روی تلفن گیرنده اجرا شود تا خدمات رمزگذاری به خطر نیفتد. گوگل ادعا می کند که تقاضای اضافی در سرعت پردازش حداقل است. WaveNetEQ "به اندازه کافی سریع برای اجرای یک تلفن سریع است ، در حالی که هنوز کیفیت عالیترین صدا و PLC با صدای طبیعی تر را نسبت به سایر سیستم هایی که در حال حاضر استفاده می شوند ، فراهم کرده است."
گوگل اواز یا موسیقی دو افزایش صدا ترک خواهد کرد شما در تلفن حلق آویز
، ,های ,یک ,صدای ,کند ,صدا ,بسته های ,از دست ,می کند ,های گفتار ,می دهد