Fizycy badają literaturę, okazuje się, że ważne są przecinki i kropki

Nasze języki są strukturami bardziej kompletnymi, niż się nam dotąd wydawało? - Tak! Wynika to z analiz częstotliwości występowania wyrazów w najsłynniejszych dziełach literatury. Naukowcy z Krakowa pokazali, że w takich analizach nad wyraz ważne są... znaki interpunkcyjne.
 Fizycy badają literaturę, okazuje się, że ważne są przecinki i kropki
/ pixabay.com
Z dobrym przybliżeniem można powiedzieć, że za 80 proc. naszych sukcesów - odpowiada 20 proc. naszych starań. Ta słynna zależność sprawdza się w zaskakująco wielu dziedzinach. Widać ją na przykład we wszystkich językach, zarówno w mowie, jak i w piśmie: za 80 proc. długości wypowiedzi odpowiada zaledwie 20 proc. najpopularniejszych słów. Opisująca to zjawisko zależność była jednym z pierwszych poznanych praw potęgowych i dziś nosi nazwę prawa Zipfa.

Szybko się okazało, że w rzeczywistości nie jest ona tak banalna, jakby mogłoby się na pierwszy rzut oka wydawać. Naukowcy z Instytutu Fizyki Jądrowej Polskiej Akademii Nauk (IFJ PAN) w Krakowie właśnie wykazali, że pewne zagadkowe cechy prawa Zipfa, od dziesięcioleci intrygujące zwłaszcza osoby zajmujące się statystyczną analizą tekstów literackich, są konsekwencją niedoceniania roli jednego ze składników języka - interpunkcji. O badaniach poinformowali przedstawiciele IFJ PAN w przesłanym PAP komunikacie.

KSIĄŻKOWE FRAKTALE I SŁÓW GIĘCIE
"Mniej więcej rok temu za pomocą szczegółowych analiz statystycznych wykazaliśmy, że długości zdań w literaturze, czyli odległości między kropkami, wykazują bardzo złożone zależności o charakterze multifraktalnym, szczególnie wyraźnie widoczne w dziełach należących do gatunku określanego jako nurt świadomości (http://naukawpolsce.pap.pl/aktualnosci/news,408115,fizycy-odkryli-multifraktale-min-w-dzielach-jamesa-joycea.html). Był to intrygujący rezultat, który skłonił nas do przyjrzenia się z większą uwagą roli innych znaków interpunkcyjnych, zwłaszcza w kontekście prawa Zipfa. Wyniki, które teraz otrzymaliśmy, każą nam w nowy sposób spojrzeć nie tylko na rolę interpunkcji w języku, ale nawet na sam język" - mówi prof. Stanisław Drożdż z IFJ PAN i Politechniki Krakowskiej.

Wykresy obrazujące prawo Zipfa w przypadku tekstów wykonuje się według mało skomplikowanej procedury. Dla każdego wyrazu zlicza się, jak często występuje on w tekście. Temu wyrazowi, który występuje najczęściej, przyporządkowuje się rząd 1, kolejnemu – rząd 2 itd. Prawo Zipfa mówi, że prawdopodobieństwo wystąpienia wyrazu jest odwrotnie proporcjonalne do jego rzędu: im większy rząd, tym prawdopodobieństwo to jest mniejsze. Wykresy przedstawiające tę zależność mają (na skali logarytmicznej) postać prostej.

Od czasu spopularyzowania przez amerykańskiego lingwistę George'a Zipfa, jego prawo nie przestaje zadziwiać. Jak coś tak skomplikowanego, jak struktury tworzone za pomocą języka, można opisać tak prostym prawem? Zagadek było więcej. Dość wcześnie zauważano, że wykresy dotyczące częstotliwości występowania wyrazów dla rzędów bliskich jedności odginają się nieco w dół od prostej.

Owo odgięcie szczególnie intrygowało Benoit Mandelbrota, wielkiego francuskiego matematyka, który zajmował się tym zagadnieniem przez wiele lat. Zaproponował on nawet własną poprawkę do oryginalnego prawa Zipfa, lepiej odwzorowującą odgięcie (warto w tym miejscu wspomnieć, że to m.in. prace nad prawem Zipfa pchnęły Mandelbrota ku koncepcji fraktali).


NIE SZLI NA SKRÓTY
W swoich najnowszych badaniach fizycy z IFJ PAN poddali analizie teksty napisane w sześciu językach indoeuropejskich, należących do grup germańskiej (angielski i niemiecki), romańskiej (francuski i włoski) i słowiańskiej (polski i rosyjski). Użyto dzieł literackich z archiwów Projektu Gutenberg (www.gutenberg.org). Wszędzie usunięto kropki po skróconych wyrazach (np. w skrócie "np."), zlikwidowano przypisy, numery stron i inne znaki o charakterze bardziej typograficznym.

„Ostatecznie znakami interpunkcyjnymi uwzględnianymi w naszych analizach były przecinki, dwukropki i średniki, a za znaki kończące zdania uznaliśmy kropki, wykrzykniki, pytajniki i wielokropki” - precyzuje dr hab. Jarosław Kwapień (IFJ PAN), jeden ze współautorów publikacji w „Information Sciences”.

Wśród badanych dzieł znalazły się m.in.: „1984” George'a Orwella, „Moby Dick” Hermana Melville'a, „Ulisses” Jamesa Joyce'a, „Podróże Guliwera” Jonathana Swifta, „Przeminęło z wiatrem” Margaret Mitchell, „Tako rzecze Zaratustra” Friedricha Nietzschego, „Proces” Franza Kafki, „Czarodziejska góra” Thomasa Manna, „Madame Bovary” Gustavea Flauberta, „Upiór w operze” Gastona Leroux, „Wahadło Foucault” Umberto Eco, „Przedwiośnie” Stefana Żeromskiego, „Ziemia obiecana” Władysława Reymonta, „Lalka” Bolesława Prusa, „Anna Karenina” i „Wojna i pokój” Lwa Tołstoja, a także „Bracia Karamazow” Fiodora Dostojewskiego.

INTERPUNKCJA SIĘ LICZY
Uwzględnienie znaków interpunkcyjnych doprowadziło do interesującego rezultatu: zakrzywienie wykresu Zipfa dla wyrazów o rzędach bliskich jedności praktycznie zniknęło. Nowe wykresy układały się niemal dokładnie wzdłuż prostej, a więc zgodnie z pierwotną postacią prawa Zipfa. Poprawka do tego prawa, wprowadzona przez Mandelbrota, okazała się w ogóle zbędna.

„Gdy znaki interpunkcyjne zaczynamy traktować jak wyrazy, to one zaczynają zajmować rzędy bliższe jedności i zakrzywienie wykresów Zipfa w zasadzie znika. Zatem po uwzględnieniu interpunkcji każdy badany przez nas język zaczyna wyglądać jak twór bardziej spójny! Dlatego uzasadnione wydaje się stwierdzenie, że interpunkcja jest dla języka równie ważna jak słowa, a język bez niej staje się po prostu niekompletny” - mówi prof. Drożdż.



TO CIĄGLE NIE JEST TAKIE PROSTE

Nowe wykresy nadal wykazują kilka interesujących cech. Na przykład w językach słowiańskich po uwzględnieniu znaków interpunkcyjnych wykres Zipfa układa się praktycznie idealnie wzdłuż prostej, podczas gdy w czterech pozostałych co prawda wyraźnie się prostuje, lecz w nieco mniejszym stopniu i pewne odchylenie wciąż jest widoczne, zwłaszcza w języku angielskim.

„Może w trakcie analiz tekstów w językach niesłowiańskich nie uwzględniliśmy ich jakichś dodatkowych, specyficznych cech?” - zastanawia się prof. Drożdż. Rozważa też inną, ciekawszą interpretację: „Może być też tak, że przyczyna niepełnej redukcji zakrzywienia tkwi w samym języku. Na przykład w angielskim może mieć źródło w łatwo dostrzegalnej tendencji autorów do ograniczania liczby znaków interpunkcyjnych. Jeśli ten ostatni powód jest prawdziwy, może warto się zastanowić, czy nadmierne redukowanie interpunkcji na pewno jest działaniem korzystnym i czy czasami nie niszczy wewnętrznej integralności języka?” - pyta badacz.

Odkrycie fizyków z IFJ PAN potencjalnie może mieć znaczenie wykraczające poza badania lingwistyczne. Odchylenie części wykresu Zipfa od prostej dla rzędów bliskich jedności jest obserwowane w wielu dziedzinach i ma różnoraką, nie zawsze do końca dobrze zrozumianą naturę. Skoro w wykresach przygotowanych na podstawie dzieł literackich zniknęło ono po uwzględnieniu czynnika powszechnego, lecz dotychczas uważanego za nieistotny, być może także w niektórych innych przypadkach można byłoby je usunąć poprzez uwzględnienie w analizach elementu do tej pory uznawanego za pozbawiony większej roli.

PAP - Nauka w Polsce

 

POLECANE
Dziennikarz opublikował listę urzędników wrocławskiego ratusza z dyplomem z Collegium Humanum z ostatniej chwili
Dziennikarz opublikował listę urzędników wrocławskiego ratusza z dyplomem z Collegium Humanum

"Lista urzędników wrocławskiego ratusza, która ma dyplom MBA Collegium Humanum, a którym studia opłacił magistrat" – pisze na platformie X dziennikarz śledczy Marcin Torz i publikuje dokument.

Opozycja przejęłaby władzę – są wyniki przełomowego sondażu z ostatniej chwili
Opozycja przejęłaby władzę – są wyniki przełomowego sondażu

Jak wynika z najnowszego sondażu przeprowadzonego na zlecenie „Super Expressu”, gdyby wybory odbyły się w tym tygodniu, w Parlamencie doszłoby do rewolucyjnej roszady - władzę przejęłaby obecna opozycja.

Jan Tomaszewski trafił do szpitala. Zapomniałem, ile mam lat z ostatniej chwili
Jan Tomaszewski trafił do szpitala. "Zapomniałem, ile mam lat"

Jan Tomaszewski wyjawił w rozmowie z dziennikiem "Fakt", że trafił do szpitala. – Nie spojrzałem na PESEL. Zapomniałem, ile mam lat... – przyznał.

Booking.com na dywaniku KE. Za nieuczciwe praktyki dostanie karę z ostatniej chwili
Booking.com na dywaniku KE. Za nieuczciwe praktyki dostanie karę

Koniec z nieuczciwą konkurencją: platforma Booking.com od czwartku musi w pełni przestrzegać unijnych przepisów o rynkach cyfrowych – poinformowała w czwartek KE. Oznacza to m.in. że serwis nie może już zobowiązywać hoteli i innych usługodawców do oferowania niższych cen tylko na platformie.

Konfederacja na podium. Jest najnowszy sondaż z ostatniej chwili
Konfederacja na podium. Jest najnowszy sondaż

Koalicja Obywatelska wyprzedza PiS, a Konfederacja zajmuje trzecie miejsce – wynika z badania przeprowadzonego przez pracownię Research Partner.

Polskie emerytury w europejskim ogonie. Kto nas przegonił? pilne
Polskie emerytury w europejskim ogonie. Kto nas przegonił?

Średnia emerytura w Europie według danych Eurostatu wynosiła 1294 euro miesięcznie. Lecz, jak wiadomo, emerytury w poszczególnych krajach Europy znacznie się różnią i odbiegają w dwie strony od średniej statystycznej. Gdzie na tej liście znajduje się przeciętny polski emeryt?

Sikorski straszył mnie więzieniem. Ale opłacało się. Waszczykowski o bazie antyrakietowej w Redzikowie z ostatniej chwili
"Sikorski straszył mnie więzieniem. Ale opłacało się". Waszczykowski o bazie antyrakietowej w Redzikowie

"Negocjacje nt bazy antyrakietowej trwały od 2007. Dziś jest szczęśliwy koniec. Po drodze Donald Tusk nazywał mnie agentem amerykańskim, Radosław Sikorski straszył więzieniem" – pisze na platformie X były minister spraw zagranicznych Witold Waszczykowski.

Straż Graniczna sprawdziła zatrudnienie cudzoziemców gorące
Straż Graniczna sprawdziła zatrudnienie cudzoziemców

Funkcjonariusze gdańskiej i elbląskiej Straży Granicznej skontrolowali legalność zatrudnienia w miejscowej firmie, gdzie zatrudnionych było 186 cudzoziemców. Okazało się, że 76 pracowało nielegalnie.

Akcja CBA na wrocławskim lotnisku. Kolejne zatrzymanie z ostatniej chwili
Akcja CBA na wrocławskim lotnisku. Kolejne zatrzymanie

Dzisiaj po południu do sprawy nieprawidłowości w Collegium Humanum na polecenie prokuratora agenci CBA na terenie wrocławskiego lotniska zatrzymali kolejną osobę – przekazał rzecznik MSWiA Jacek Dobrzyński.

Wyłudzenie „na niedźwiedzia”. Ubezpieczyciele przecierali oczy ze zdumienia Wiadomości
Wyłudzenie „na niedźwiedzia”. Ubezpieczyciele przecierali oczy ze zdumienia

Cztery osoby zostały aresztowane pod zarzutem wyłudzenia wypłaty odszkodowania od ubezpieczyciela po rzekomym zniszczeniu 3 samochodów przez rozjuszonego niedźwiedzia.

REKLAMA

Fizycy badają literaturę, okazuje się, że ważne są przecinki i kropki

Nasze języki są strukturami bardziej kompletnymi, niż się nam dotąd wydawało? - Tak! Wynika to z analiz częstotliwości występowania wyrazów w najsłynniejszych dziełach literatury. Naukowcy z Krakowa pokazali, że w takich analizach nad wyraz ważne są... znaki interpunkcyjne.
 Fizycy badają literaturę, okazuje się, że ważne są przecinki i kropki
/ pixabay.com
Z dobrym przybliżeniem można powiedzieć, że za 80 proc. naszych sukcesów - odpowiada 20 proc. naszych starań. Ta słynna zależność sprawdza się w zaskakująco wielu dziedzinach. Widać ją na przykład we wszystkich językach, zarówno w mowie, jak i w piśmie: za 80 proc. długości wypowiedzi odpowiada zaledwie 20 proc. najpopularniejszych słów. Opisująca to zjawisko zależność była jednym z pierwszych poznanych praw potęgowych i dziś nosi nazwę prawa Zipfa.

Szybko się okazało, że w rzeczywistości nie jest ona tak banalna, jakby mogłoby się na pierwszy rzut oka wydawać. Naukowcy z Instytutu Fizyki Jądrowej Polskiej Akademii Nauk (IFJ PAN) w Krakowie właśnie wykazali, że pewne zagadkowe cechy prawa Zipfa, od dziesięcioleci intrygujące zwłaszcza osoby zajmujące się statystyczną analizą tekstów literackich, są konsekwencją niedoceniania roli jednego ze składników języka - interpunkcji. O badaniach poinformowali przedstawiciele IFJ PAN w przesłanym PAP komunikacie.

KSIĄŻKOWE FRAKTALE I SŁÓW GIĘCIE
"Mniej więcej rok temu za pomocą szczegółowych analiz statystycznych wykazaliśmy, że długości zdań w literaturze, czyli odległości między kropkami, wykazują bardzo złożone zależności o charakterze multifraktalnym, szczególnie wyraźnie widoczne w dziełach należących do gatunku określanego jako nurt świadomości (http://naukawpolsce.pap.pl/aktualnosci/news,408115,fizycy-odkryli-multifraktale-min-w-dzielach-jamesa-joycea.html). Był to intrygujący rezultat, który skłonił nas do przyjrzenia się z większą uwagą roli innych znaków interpunkcyjnych, zwłaszcza w kontekście prawa Zipfa. Wyniki, które teraz otrzymaliśmy, każą nam w nowy sposób spojrzeć nie tylko na rolę interpunkcji w języku, ale nawet na sam język" - mówi prof. Stanisław Drożdż z IFJ PAN i Politechniki Krakowskiej.

Wykresy obrazujące prawo Zipfa w przypadku tekstów wykonuje się według mało skomplikowanej procedury. Dla każdego wyrazu zlicza się, jak często występuje on w tekście. Temu wyrazowi, który występuje najczęściej, przyporządkowuje się rząd 1, kolejnemu – rząd 2 itd. Prawo Zipfa mówi, że prawdopodobieństwo wystąpienia wyrazu jest odwrotnie proporcjonalne do jego rzędu: im większy rząd, tym prawdopodobieństwo to jest mniejsze. Wykresy przedstawiające tę zależność mają (na skali logarytmicznej) postać prostej.

Od czasu spopularyzowania przez amerykańskiego lingwistę George'a Zipfa, jego prawo nie przestaje zadziwiać. Jak coś tak skomplikowanego, jak struktury tworzone za pomocą języka, można opisać tak prostym prawem? Zagadek było więcej. Dość wcześnie zauważano, że wykresy dotyczące częstotliwości występowania wyrazów dla rzędów bliskich jedności odginają się nieco w dół od prostej.

Owo odgięcie szczególnie intrygowało Benoit Mandelbrota, wielkiego francuskiego matematyka, który zajmował się tym zagadnieniem przez wiele lat. Zaproponował on nawet własną poprawkę do oryginalnego prawa Zipfa, lepiej odwzorowującą odgięcie (warto w tym miejscu wspomnieć, że to m.in. prace nad prawem Zipfa pchnęły Mandelbrota ku koncepcji fraktali).


NIE SZLI NA SKRÓTY
W swoich najnowszych badaniach fizycy z IFJ PAN poddali analizie teksty napisane w sześciu językach indoeuropejskich, należących do grup germańskiej (angielski i niemiecki), romańskiej (francuski i włoski) i słowiańskiej (polski i rosyjski). Użyto dzieł literackich z archiwów Projektu Gutenberg (www.gutenberg.org). Wszędzie usunięto kropki po skróconych wyrazach (np. w skrócie "np."), zlikwidowano przypisy, numery stron i inne znaki o charakterze bardziej typograficznym.

„Ostatecznie znakami interpunkcyjnymi uwzględnianymi w naszych analizach były przecinki, dwukropki i średniki, a za znaki kończące zdania uznaliśmy kropki, wykrzykniki, pytajniki i wielokropki” - precyzuje dr hab. Jarosław Kwapień (IFJ PAN), jeden ze współautorów publikacji w „Information Sciences”.

Wśród badanych dzieł znalazły się m.in.: „1984” George'a Orwella, „Moby Dick” Hermana Melville'a, „Ulisses” Jamesa Joyce'a, „Podróże Guliwera” Jonathana Swifta, „Przeminęło z wiatrem” Margaret Mitchell, „Tako rzecze Zaratustra” Friedricha Nietzschego, „Proces” Franza Kafki, „Czarodziejska góra” Thomasa Manna, „Madame Bovary” Gustavea Flauberta, „Upiór w operze” Gastona Leroux, „Wahadło Foucault” Umberto Eco, „Przedwiośnie” Stefana Żeromskiego, „Ziemia obiecana” Władysława Reymonta, „Lalka” Bolesława Prusa, „Anna Karenina” i „Wojna i pokój” Lwa Tołstoja, a także „Bracia Karamazow” Fiodora Dostojewskiego.

INTERPUNKCJA SIĘ LICZY
Uwzględnienie znaków interpunkcyjnych doprowadziło do interesującego rezultatu: zakrzywienie wykresu Zipfa dla wyrazów o rzędach bliskich jedności praktycznie zniknęło. Nowe wykresy układały się niemal dokładnie wzdłuż prostej, a więc zgodnie z pierwotną postacią prawa Zipfa. Poprawka do tego prawa, wprowadzona przez Mandelbrota, okazała się w ogóle zbędna.

„Gdy znaki interpunkcyjne zaczynamy traktować jak wyrazy, to one zaczynają zajmować rzędy bliższe jedności i zakrzywienie wykresów Zipfa w zasadzie znika. Zatem po uwzględnieniu interpunkcji każdy badany przez nas język zaczyna wyglądać jak twór bardziej spójny! Dlatego uzasadnione wydaje się stwierdzenie, że interpunkcja jest dla języka równie ważna jak słowa, a język bez niej staje się po prostu niekompletny” - mówi prof. Drożdż.



TO CIĄGLE NIE JEST TAKIE PROSTE

Nowe wykresy nadal wykazują kilka interesujących cech. Na przykład w językach słowiańskich po uwzględnieniu znaków interpunkcyjnych wykres Zipfa układa się praktycznie idealnie wzdłuż prostej, podczas gdy w czterech pozostałych co prawda wyraźnie się prostuje, lecz w nieco mniejszym stopniu i pewne odchylenie wciąż jest widoczne, zwłaszcza w języku angielskim.

„Może w trakcie analiz tekstów w językach niesłowiańskich nie uwzględniliśmy ich jakichś dodatkowych, specyficznych cech?” - zastanawia się prof. Drożdż. Rozważa też inną, ciekawszą interpretację: „Może być też tak, że przyczyna niepełnej redukcji zakrzywienia tkwi w samym języku. Na przykład w angielskim może mieć źródło w łatwo dostrzegalnej tendencji autorów do ograniczania liczby znaków interpunkcyjnych. Jeśli ten ostatni powód jest prawdziwy, może warto się zastanowić, czy nadmierne redukowanie interpunkcji na pewno jest działaniem korzystnym i czy czasami nie niszczy wewnętrznej integralności języka?” - pyta badacz.

Odkrycie fizyków z IFJ PAN potencjalnie może mieć znaczenie wykraczające poza badania lingwistyczne. Odchylenie części wykresu Zipfa od prostej dla rzędów bliskich jedności jest obserwowane w wielu dziedzinach i ma różnoraką, nie zawsze do końca dobrze zrozumianą naturę. Skoro w wykresach przygotowanych na podstawie dzieł literackich zniknęło ono po uwzględnieniu czynnika powszechnego, lecz dotychczas uważanego za nieistotny, być może także w niektórych innych przypadkach można byłoby je usunąć poprzez uwzględnienie w analizach elementu do tej pory uznawanego za pozbawiony większej roli.

PAP - Nauka w Polsce


 

Polecane
Emerytury
Stażowe