Sztuczna inteligencja Google rozdzieli zmiksowane głosy

Sztuczna inteligencja Google rozdzieli zmiksowane głosy

14 listopada 2020 0 przez Rafał Skrzypek

Sztuczna inteligencja Google o nazwie SoundFilter potrafi oddzielić dowolny dźwięk ze zmiksowanego nagrania. Naukowcy twierdzą, że wystarczy jej krótka próbka czystego dźwięku, aby potem odseparować go z zaszumionego nagrania.

Badacze są przekonani, że system eliminujący hałas i zakłócenia, taki jak SoundFilter, może być zastosowany do stworzenia szeregu przydatnych narzędzi. Google użył dźwięku z tysięcy własnych spotkań i filmów w YouTube do treningu algorytmu redukcji szumów w Google Meet. Jednocześnie zespół badaczy z Carnegie Mellon stworzył SI „sound-action-vision”. Na podstawie dźwięku potrafi ona przewidzieć, gdzie przemieści się obiekt poddany działaniu siły zewnętrznej.

Sztuczna inteligencja Google

Podobną technologię dwa lata temu zaprezentowała NVIDIA, ale w ich wypadku SI pracuje w architekturze CUDA i służy do wyciszania dźwięków tła w rozmowach. Oba rozwiązania mogą pracować w chmurze, ale SI Google nie wymaga tak „intensywnego” treningu.

Na razie jednorazowo

Sztuczna inteligencja Google traktuje zadanie rozdzielania dźwięków jako jednorazowy problem uczenia się. Model otrzymuje dane wejściowe w postaci zmiksowanego audio do przefiltrowania i pojedynczy krótki przykład dźwięku, który trzeba odfiltrować. SI pracuje w architekturze sieci neuronowej typu fala-fala, którą można trenować przy użyciu próbek audio bez konieczności stosowania etykiet typu źródła.

Przykład używany do szkolenia SI SoundFilter składa się z trzech części:

  • Dźwięk docelowy, który zawiera tylko jedną ścieżkę;
  • Miks audio, który zawiera dwa różne elementy, z których jeden to dźwięk docelowy;
  • Kondycjonowanie sygnału audio, który jest kolejnym elementem zawierającym ten sam rodzaj dźwięku, co docelowy.

W ramach eksperymentów naukowcy wyszkolili SI na dwóch zbiorach danych open source. Pierwszy z nich to FSD50L (zbiór ponad 50 000 dźwięków), a drugi LibriSpeech (około 1000 godzin mowy w języku angielskim).

Google jest najbardziej znane ze swojej wyszukiwarki oraz systemu operacyjnego Android. Jednak gigant z Mountain View prowadzi również wiele badań, szczególnie w dziedzinie sztucznej inteligencji. Naukowcy z Google opracowali np. sztuczną inteligencję, która może wykrywać raka płuc. SoundFilter to dopiero początek prac. Dalsze badania mogą pomóc w znalezieniu nowych zastosowań dla tego modelu SI.

Źródło: VentureBeat