Obejrzeć dźwięk, czyli o roli i znaczeniu badań fonoskopijnych

dr hab. Wiktor Gonet, źródło: archiwum własne

Do mieszkania dłużnika przyszło po pieniądze dwóch wierzycieli. Dłużnik przez domofon poznał ich po głosie i w panice wykręcił numer alarmowy Policji. Jednakże nie zdążył przeprowadzić rozmowy, ponieważ w tym momencie do pomieszczenia wpadło dwóch mężczyzn uzbrojonych w pistolet i nóż. Telefon z nawiązanym połączeniem pozostawał na stole i transmitował przebieg zdarzenia do Policji, gdzie odgłosy zdarzenia zostały automatycznie nagrane. Wejście z sąsiednich pomieszczeń kilku osób (matka dłużnika wraz ze swoim konkubentem i dwoje dzieci) przepłoszyło napastników, którzy wyszli na korytarz bloku mieszkalnego. W ślad za nimi pośpieszył z nożem w ręku dłużnik. Dało się słyszeć krzyki i trwające kilka chwil odgłosy szamotaniny. Wreszcie dłużnik wrócił, głośno zawodząc: „Zabiłem ich, zabiłem ich”. W aktach sprawy sformułowano dwie hipotezy: zabójstwo nastąpiło w wyniku obrony koniecznej, lub jako wynik ataku dłużnika. Biegłemu postawiono zadanie, by na podstawie nagranych odgłosów stwierdził on, która hipoteza jest potwierdzona przez fakty – analizę akustyczną zdarzeń.

Z dr hab. Wiktorem Gonetem, założycielem firmy PROFONICA Ekspertyzy Fonoskopijne, biegłym sądowym w latach 1992–2019, emerytowanym pracownikiem naukowym UMCS – rozmawia Anna Ruszczyk.

Czym zajmuje się fonoskopia i jakie jest jej zastosowanie na potrzeby organów ścigania?

Fonoskopia, z Greki „oglądanie dźwięków”, zajmuje się badaniem zapisów zjawisk akustycznych znajdujących się w zakresie zainteresowania organów ścigania. Takiego zapisu można dokonać jawnie lub z ukrycia. Należy zauważyć, że w przypadku nagrań prywatnych prawo nie pozwala na dokonywanie nagrań z ukrycia, w których nagrywający nie występuje. Legalne jest jedynie nagrywanie rozmowy, w której osoba nagrywająca bierze udział. Zakres dalszego korzystania z nagrań oraz działania służb specjalnych i ich zakres zbierania dowodów regulują odrębne przepisy prawne. Nagrania mogą być przechowywane na nośnikach pamięci takich jak pendrive’y, płyty CD lub DVD, dyski twarde przenośne lub stałe znajdujące się w komputerach. Należy podkreślić, że często strony w postępowaniu lub organa sądownicze domagają się przedstawienia nagrań „autentycznych”. Oczywiście, w przypadku zarówno nagrań analogowych jak i cyfrowych nie można oddzielić nagrania od nośnika, zatem stwierdzenia autentyczności nagrań można dokonać tylko wtedy, gdy znajdują się w oryginalnym urządzeniu nagrywającym. Jeśli nagranie zostało skopiowane i znajduje się na nośniku niezwiązanym z urządzeniem nagrywającym, badać można jego integralność i ciągłość, a nie autentyczność.

Jakie kryterium decyduje o autentyczności nagrania?

Ważnym kryterium autentyczności jest to, że zapis nagrania na nośniku i przechowywanie tego nośnika jest odpowiednio udokumentowane, tj. czy w drodze od miejsca nagrania, poprzez pracownię biegłego aż do Sądu nastąpiło zachowanie tzw. „łańcucha nadzoru”. W każdym punkcie przekazywania nagrania powinna zostać sporządzona notatka służbowa stwierdzająca, kto, w jakim celu i jak długo miał dostęp do nagrania. Najczęściej badanie fonoskopijne zmierza ku dokonaniu porównania pomiędzy zapisem dokonanym na miejscu zdarzenia, czyli nagraniem dowodowym, a nagraniem porównawczym mowy i głosu osoby, która jest identyfikowana, uzyskanym w trakcie sesji nagraniowej przeprowadzonej przez biegłego albo przez technika zgodnie z instrukcją dostarczoną przez biegłego. W chwili obecnej fonoskopia dysponuje urządzeniami do nagrań, dzięki którym uzyskuje się nagrania bardzo wysokiej jakości. Ważne jest jednak zapewnienie pomieszczenia bez pogłosu i hałasów płynących z zewnątrz (rozmowy za oknem lub w korytarzu). Samo przetwarzanie zapisu akustycznego również jest dokonywane na sprzęcie bardzo wysokiej jakości, przy częstotliwości próbkowania 44,1 kHz. Odpowiedni dobór metod i technik badania umożliwia podejmowanie decyzji o wysokiej mocy dowodowej – jednak ta tematyka wykracza poza ramy tego wywiadu.

Przy użyciu jakich metod analizowane są dźwięki dowodowe?

Dźwięki dowodowe mogą być analizowane z trzech podstawowych perspektyw badawczych, np. badania procesu produkcji dźwięków mowy przez mówców, badania samych dźwięków (słów, fraz), dostępnych w formie plików dźwiękowych oraz badania percepcji tych dźwięków. Najważniejszym przedmiotem badań fonoskopijnych jest badanie samych dźwięków, które niosą w sobie zapis charakterystycznych cech wypowiedzi zależnych od mówcy. Główną metodą badań fonoskopijnych jest analiza akustyczna, która umożliwia wizualizację nagrań na ekranie komputerowej stacji roboczej eksperta. Przy użyciu specjalistycznego oprogramowania komputerowego możliwe jest badanie niuansów zapisanej mowy, a wizualizacja pozwala na wyodrębnienie ich aspektów niesłyszalnych w konglomeracie zjawisk akustycznych. Najczęściej robi się to, badając wizualizacje w formie oscylogramów, spektrogramów, przekrojów chwilowych, wykresów LTAS i innych. W kręgach polskich specjalistów od fonoskopii przy określaniu metody używanej w fonoskopii, spotykany jest termin „metoda językowo-pomiarowa”. Jak wiadomo, każdą dyscyplinę nauki musi określić jej przedmiot i metoda badań. Przytoczone wyżej określenie wprawdzie odnosi się do metody (pomiarowa), ale również i do przedmiotu badań (język). Zatem informacja o przedmiocie badań nie powinna pojawić się w informacji o metodzie. W miejsce takiego opisu, który miesza metodę z przedmiotem badań, powinno się wprowadzić oddzielnie informacje o przedmiocie badań określanym z różnych punktów widzenia (mowa/wymowa, fonetyka artykulacyjna/fonetyka akustyczna, fonetyka/fonologia/morfologia, fonetyka segmentalna/suprasegmentalna, mowa współczesna/mowa dialektalna/mowa patologiczna). Te wszystkie pola badawcze, jako przedmiot badań, powinny znaleźć się w kręgu zainteresowania biegłych z dziedziny fonoskopii. Natomiast kwestia metody badań wymaga oddzielnego opisu i odnośników do metody odsłuchowej audytywna/pomiarowa, obiektywna/subiektywna, racjonalna/empiryczna, indukcyjna/dedukcyjna, itd. Metoda działania nowoczesnej fonoskopii powinna opierać się na następujących przymiotach: metoda odsłuchowa, pomiarowa, obiektywna z elementami subiektywizmu, badanie stopnia poprawności mowy, w sposób empiryczny, indukcyjno-dedukcyjny.

Zatem co jest przedmiotem badania fonoskopijnego?

Przedmiotem badania fonoskopijnego jest zapis głosu i mowy. Cechy głosu wypływają głównie z działania krtani (częstotliwość podstawowa) i innych części toru głosowego (komór rezonansowych). To tutaj zostaje zdefiniowany tembr głosu – właściwość osobnicza trudna do pomiaru i opisu obiektywnego. Do cech mowy należą warstwy wypowiedzi zależne od wymiarów, konfiguracji i działania tzw. organów mowy, czyli tych elementów toru głosowego, które używane są podczas artykulacji. W badaniu dźwięków mowy stosujemy opis zarówno wartości mierzalnych, takich jak tempo mowy czy wahania częstotliwości podstawowej, jak i niemierzalnego tembru głosu. Badanie nagrań również obejmuje warstwę lingwistyczną, czyli treść i formę wypowiedzi. Wynik zapisu treści tekstu często bywa nazywany „stenogramem”. Jest to określenie niewłaściwe, ponieważ w rzeczywistości odnosi się do systemu ręcznego albo maszynowego zapisu wypowiadanych słów i zdań, w polskim sądownictwie nie używanego. Zamiast tego określenia wprowadza się coraz szerzej określenie „transkrypcja” lub „transkrypt”. Na podstawie informacji akustycznych zawartych w nagraniach można również badać cechy ich wytwórcy – konkretnego człowieka. Cechy akustyczne nagrań dotyczące badanej osoby, to cechy takie jak sposób i tempo wypowiedzi, zakres częstotliwości podstawowej, naturalność i dokładność wymowy, obecność cech patologicznych. Badamy również stan psychofizyczny mówcy w chwili wypowiadania materiału dowodowego i porównawczego wyrażony przez stopień zdenerwowania i stresu, który wpływa na cechy wypowiedzi.

Czy możliwe jest dokonanie komputerowej manipulacji nagrania głosu?

Oczywiście. Kilka lat temu badałem sprawę w której sekretarka w pewnej firmie pośredniczyła w dużej transakcji dotyczącej importu samochodów od swojego znajomego, eksportera z Niemiec, dla swojego szefa. Obaj kontrahenci nie znali się osobiście. Szef za transakcję zapłacił z góry, za poręczeniem sekretarki, ale samochody nie nadchodziły. Kontakt z organizatorem był tylko telefoniczny i następował tylko wtedy, gdy sekretarka znajdowała się poza firmą. Twierdziła ona również, że sama też rozmawia z eksporterem, ale zawsze tylko wtedy, gdy znajduje się poza biurem. Te zależności czasowe rozmów eksportera zwróciły uwagę biegłego na konieczność zbadania korelacji czasowej rozmów telefonicznych i wyjść sekretarki. Ponadto biegły zwrócił uwagę, że tembr głosu eksportera brzmiał nienaturalnie, co zasugerowało biegłemu, że doszło do komputerowej manipulacji nagraniem głosu udającego eksportera. Analiza stylistyczna wykazała, że posługuje się on kobiecym stylem mowy, co zostało potwierdzone częścią eksperymentalną, w której odtworzono oryginalne brzmienie głosu eksportera. Okazało się, iż po tej operacji głos „eksportera” zmienił się w głos… sekretarki, która tym zmienionym głosem, za pomocą odpowiedniego oprogramowania prowadziła rozmowy telefoniczne jako w rzeczywistości nieistniejący eksporter. Dlatego rozmawiała z szefem tylko wtedy, gdy wychodziła poza firmę. Oczywiście, w rzeczywistości do rozmów sekretarki z rzekomym eksporterem, gdy znajdowała się poza firmą, nigdy nie dochodziło.

Jakich jeszcze informacji może dostarczyć badanie fonoskopijne?

Jednym z pól badań jest środowisko, w którym dźwięki się rozchodzą – plan, kształt i charakterystyki akustyczne pomieszczeń. Dokładna analiza pozwala na rozwiązanie wielu zagadek nagrań. Dobrym przykładem takiego badania fonoskopijnego jest opinia przygotowana przeze mnie kilka lat temu. Oto szkic sytuacji. Do mieszkania dłużnika przyszło po pieniądze dwóch wierzycieli. Dłużnik przez domofon poznał, że to wierzyciele i w panice wykręcił numer alarmowy Policji. Jednakże nie zdążył przeprowadzić rozmowy, ponieważ do pomieszczenia w tym momencie wpadło dwóch mężczyzn uzbrojonych w pistolet i nóż. Telefon z nawiązanym połączeniem pozostawał na stole i transmitował przebieg zdarzenia do Policji, gdzie odgłosy zdarzenia zostały automatycznie nagrane. Wejście z sąsiednich pomieszczeń kilku osób (matka dłużnika wraz ze swoim konkubentem i dwoje dzieci) przepłoszyło napastników, którzy wyszli na korytarz bloku mieszkalnego. W ślad za nimi pośpieszył z nożem w ręku dłużnik. Dało się słyszeć krzyki i trwające kilka chwil odgłosy szamotaniny. Wreszcie dłużnik wrócił, głośno zawodząc: „Zabiłem ich, zabiłem ich”. W aktach sprawy sformułowano dwa pytania śledcze: czy zabójstwo nastąpiło w wyniku obrony koniecznej, czy ataku dłużnika. Biegłemu postawiono zadanie, by na podstawie nagranych odgłosów stwierdził on, która hipoteza jest potwierdzona przez fakty – analizę akustyczną zdarzeń. Podczas badania akustycznego biegły skupił się na właściwościach akustycznych pomieszczenia wewnątrz mieszkania i kolejnych części korytarza. Wynik wykazał, że w miarę oddalania się od drzwi mieszkania, pogłos rósł, osiągał maksimum i zmniejszał się. Możliwe było określenie, który krzyk należał do dłużnika, a które – do wierzycieli oraz ich zestawienie czasowo-przestrzenne, oraz kształt i kierunek zadania ran kłutych. Dłużnik twierdził, że działał w ramach obrony koniecznej. Aby uznać, że mamy do czynienia z taką właśnie sytuacją, biegły oczekiwał, że odgłosy pochodzące od dłużnika i wierzycieli będą miały podobny współczynnik pogłosu, a kierunek zadania ran będzie poziomy, zadawany od przodu, adekwatny do modelowanej sytuacji. Hipoteza przeciwna, tj. przyjmująca, że opisywana scena ukazuje atak dłużnika na uciekających wierzycieli, będzie musiała być potwierdzona przez obserwację, że pogłos głosów pochodzących od uciekających wierzycieli rośnie szybciej, niż pogłos głosu dłużnika. Rzeczywisty kierunek zadania ran – od tyłu, ukośnie od góry – wskazywał, że dłużnik gonił wierzycieli, którzy znajdowali się na schodach niżej od niego i kilkakrotnie wkłuł im nóż od góry w okolice ramienia i szyi. Wskazywało na to położenie ran i kierunek ciosów nożem, które zadane w takiej pozycji wprowadzają ostrze do tętnic szyjnych, które wypompowują krew z dużą prędkością, szybko prowadząc do wykrwawienia. Zatem ciosy zadane z tyłu, od góry nie wynikły z obrony koniecznej, tylko z chęci eliminacji zagrażających dłużnikowi wierzycieli. Zatem analiza pogłosu wskazała na wzajemne umiejscowienie względem siebie dłużnika i wierzycieli i ocenę, kto z obecnych uciekał, a kto prowadził pościg i czy ciosy u trzech osób powstały w celu obrony koniecznej, czy w wyniku ataku.

Kto może zostać ekspertem z zakresu fonoskopii?

Ekspertem w zakresie fonoskopii może zostać osoba, posiadająca wiedzę, wykształcenie lub praktykę w kilku związanych ze sobą dziedzinach: fonetyce artykulacyjnej i akustycznej oraz fonologii. Dla porządku pragnę dodać, iż często różne firmy dla ekspertów fonoskopii używają określenia „fonoskop”. Jest to użycie całkowicie błędne, albowiem fonoskop to urządzenie służące do badania fal dźwiękowych. Prawidłowym określeniem jest ekspert/biegły w dziedzinie/w zakresie fonoskopii. Biegli w zakresie fonoskopii powinni charakteryzować się szeroką wiedzą z dziedziny akustyki oraz znajomością fonetyki i fonologii ogólnej oraz opisu fonetycznego i fonologicznego danego języka. Stąd powinny to być osoby, które ukończyły dwa fakultety i posiadają tytuł doktora w jednej z nich. Konieczna jest również znajomość transkrypcji fonetycznej oraz dialektologii danego języka. Nie istnieją studia podyplomowe przygotowujące biegłych w dziedzinie fonoskopii. Oprócz wymagań formalnych, do efektywnego odsłuchu nagrań konieczne jest również posiadanie przez adepta fonoskopii doskonałego słuchu, obecnego u jednej na wiele tysięcy osób. Dużą rolę w kształceniu biegłych w opisywanej dziedzinie może również odegrać nauczyciel („mistrz”) posiadający tytuł biegłego, stopień naukowy doktora oraz wykształcenie pedagogiczne.

W jaki sposób rozwój techniki przyczynił się do zmian metod badawczych w tej dziedzinie kryminalistyki?

Do początku lat 90’ dowody były rejestrowane w sposób analogowy na taśmach magnetofonowych na których zapis stanowił łatwo zniszczalny artefakt. Taki sposób rejestracji determinował sposób ich analizy, który polegał na oględzinach pod lupą lub w specjalnym urządzeniu taśm zawierających nagrania. Ślady manipulacji nagraniem na taśmie były łatwo wykrywalne. W latach 90’ do szerokiego użycia weszły nagrania cyfrowe. Nagrania cyfrowe zapisywane są na dysk lub nośnik cyfrowy taki jak płyta CD lub pendrive, a badanie nagrania cyfrowego, które nie jest przedmiotem fizycznym, odbywa się w przestrzeni pamięci komputera. Ten fakt umożliwia łatwe dokonanie podstawowych operacji analitycznych, takich jak „rozciągnięcie” nagrania, filtrowanie jego fragmentów lub całości, obejrzenie jego widma.

Czy istnieje możliwość edycji nagrania post factum?

Podobnie jak w przypadku rozwoju metod badawczych, rewolucja cyfrowa lat 90’ ułatwiła również dokonywanie edycji post factum nagrań przedstawianych do analizy biegłym. Jednak pomimo ułatwienia edycji, dokonanie bezśladowych zmian w nagraniu w celu jego zafałszowania stanowi czynność bardzo trudną. Należy również podkreślić, iż tak samo jak każda zbrodnia musi mieć motyw, tak również każda manipulacja treścią nagrania musi mieć swój powód, uzasadnienie i zatem – jeśli do niej dochodzi – musiałaby być przeprowadzona w miejscu istotnym dla treści tekstu. I tak na przykład nie miałaby sensu manipulacja polegająca na usunięciu przysłówka dosyć ze zdania On jest dosyć miły i pogodny, bo taka manipulacja nie zmieniłaby ani sensu głównego zdania, ani jego ogólnego wydźwięku. Owszem, miałoby sens wprowadzenie partykuły przeczącej ‘nie’, skopiowanej z innego miejsca nagrania i uzyskanie zdania On nie jest dosyć miły pogodny, ale wtedy powstałby dysonans na poziomie akcentu i przycisku zdaniowego, bowiem w zdaniu niezaprzeczonym akcent pada na słowo jest: „JEST dosyć miły i pogodny” podczas gdy w zdaniu zaprzeczonym akcent pada na partykułę przeczącą nie: „On NIE jest dosyć miły i pogodny”. W zdaniu uzyskanym z montażu i wstawienia partykuły przeczącej ‘nie’ uzyskamy zdanie o wadliwej strukturze akcentowej, od razu wychwytywalne jako nienaturalnie brzmiące: On NIE JEST dosyć miły i pogodny. Podobnie nienaturalny rezultat dałoby wstawienie przedrostka nie- do przymiotnika miły, bo ta operacja dodałaby drugi akcent wyrazowy NIE+MI+ły. Kolejnym przykładem może być np. próba zamiany liczby mnogiej na pojedynczą w trybie rozkazującym. Mogłoby się wydawać, iż np. w słowie pozwólmy wystarczy „odciąć” przyrostek my, ale taka przeróbka będzie od razu zdemaskowana poprzez inne rozłożenie akcentu, łatwo identyfikowane zarówno audytywnie, jak i akustycznie. Pomijając fakt, iż każde usunięcie słowa, a tym bardziej przestawienie kilku słów może pozostawić ślady akustyczne w nagraniu, należy podkreślić, iż dokonanie zmian na poziomie leksykalnym w kilku zdaniowym akapicie jest zadaniem z pewnością bardzo trudnym, bowiem im dłuższy jest tekst dowodowy, tym bardziej wymagające jest przeprowadzenie jego zafałszowania. Szczególnie języki fleksyjne, a do takich należy język polski, z uwagi na fakt istnienia odmiany praktycznie wszystkich semantycznie wypełnionych części mowy, czyni takie zadanie jeszcze trudniejszym, niżby miało być wykonane np. w jęz. angielskim. Np. jeśli chcielibyśmy wprowadzić partykułę przeczącą ‘nie’ do zdania Janek kupił sobie nowy czerwony samochód, to owa operacja pociągnęłaby za sobą konieczność zmiany sufiksów koniugacyjnych i deklinacyjnych (zaznaczone wytłuszczonym drukiem): Janek nie kupił sobie nowego czerwonego samochodu. Zatem już z tego przykładu jasno widać, jak trudne – na granicy niemożliwości – jest zafałszowanie tekstu choćby z powodu konieczności wprowadzenia zmian w pozostałych częściach tekstu. Z drugiej strony możliwe jest dokonanie montażu na poziomie frazy lub zdania, gdzie treść elementów przestawianych nie ulega zmianom. Oprócz zmian w umiejscowieniu i dynamice akcentów podczas prób wstawienia fragmentu pochodzącego z innej części nagrania, należy skontrolować około 30 innych parametrów, co znacznie utrudnia, a nawet – w większości przypadków – uniemożliwia uzyskanie zadowalającego efektu.

Jak pracochłonne i czasochłonne jest przygotowanie ekspertyzy fonoskopijnej?

Dokonywanie ekspertyz fonoskopijnych jest bardzo pracochłonne i czasochłonne. W zależności od jakości nagrań, czynności, które obejmuje zlecenie, badanie 1 minuty nagrania może zająć 1 – 3 godzin pracy. W tym czasie, w zależności od potrzeb, biegły dokonuje różnego rodzaju filtracji mających na celu usunięcie zakłóceń lub zbliżenie jakości nagrania porównawczego do jakości nagrania dowodowego. Zatem praca nad ekspertyzą fonoskopijną 10-minutowego fragmentu nagrania, obejmującą korektę jakości i zapis treści słownych może zająć od 10 do 30 godzin pracy.

W jakim kierunku Pana zdaniem będą się rozwijały badania fonoskopijne w przyszłości?

Rozwój badań fonoskopijnych związany jest z rozwojem metod dokonywania nagrań dowodowych przez sprzęt nagrywający, dzięki którym łatwiej będzie uzyskiwać nagrania o lepszej jakości. W dziedzinie korekty jakości z pewnością nastąpi rozwój automatycznych metod korekcji opartej na sztucznej inteligencji. Podobnie w działalności identyfikacyjnej, nauka będzie koncentrować uwagę na wykorzystaniu nowoczesnego oprogramowania, sztucznej inteligencji czy zgromadzenie specjalistycznych fonetycznych baz danych.

Dziękuję za rozmowę

Dr hab. Wiktor Gonet ukończył studia w UMCS, gdzie uzyskał tytuł magistra fonetyki i fonologii angielskiej. Praca doktorska, napisana pod kierunkiem prof. Wiktora Jassema z Pracowni Fonetyki Akustycznej IPPT PAN w Poznaniu dotyczyła fonetyki angielskiej badanej metodą akustyczną. W swoich publikacjach, a było ich ok. 50, dr Wiktor Gonet zajął się m. in. porównaniem wymowy głosek polskich i angielskich, doskonaląc swój warsztat akustyczny i statystyczny, oraz opracowując metodologię przeprowadzania porównań głosek języka. Ukoronowaniem działalności naukowej dr. Wiktora Goneta jest książka pt. Explorations in the Acoustics of English Sounds, wydana w roku 2016 przez Maria Skłodowska University Press, prezentująca opisy polskiej i angielskiej wymowy przeprowadzone metodą akustyczną. Wśród prac naukowych dr hab. Wiktora Goneta znajdują się również prace z dziedziny fonoskopii, którym to polem zajmował się on od roku 1992 (pierwsza opinia ad hoc). Następnie działał jako biegły przy kilku Sądach Okręgowych, aż do roku 2019, kiedy przeszedł na emeryturę. W tym czasie sporządził blisko 500 opinii, w 2013 założył firmę PROFONICA Ekspertyzy Fonoskopijne i wykształcił następcę.

Facebook