Prawo Zipfa – Wikipedia, wolna encyklopedia

Rozkład Zipfa
Funkcja rozkładu prawdopodobieństwa
Ilustracja
Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
Dystrybuanta
Ilustracja
Dystrybuanta dla N=10
Parametry

(liczba rzeczywista)

Nośnik

Funkcja rozkładu prawdopodobieństwa

Dystrybuanta

Wartość oczekiwana (średnia)

Moda

Entropia

Funkcja tworząca momenty

Funkcja charakterystyczna

Odkrywca

George Kingsley Zipf (1935, 1949)

Prawo Zipfaprawo empiryczne głoszące, że wiele rodzajów danych tworzonych przez ludzi lub odnoszących się do ich zachowań cechuje charakterystyczny rozkład wartości, w którym dystrybucja częstotliwości występowania poszczególnych wartości jest odwrotnie proporcjonalna do ich rangi statystycznej[1].

Pod koniec XIX wieku francuski stenograf i leksykograf Jean-Baptiste Estoup, badając zasady stenografii, ustalił podstawowe zasady statystyczne dotyczące tekstu. Twierdzenia francuskiego badacza zweryfikował i uściślił amerykański lingwista George Kingsley Zipf[2].

Prawo Zipfa dla języków naturalnych

[edytuj | edytuj kod]

Pierwotnie prawo to zostało sformułowane dla języków naturalnych, w których zaobserwowano, że gdy na podstawie ich korpusów językowych ustali się wykaz wyrazów ułożonych w malejącym porządku częstotliwości ich występowania, to ranga (numer porządkowy) wyrazu jest odwrotnie proporcjonalna do częstotliwości, zatem iloczyn częstotliwości i rangi powinien być wielkością stałą[2]. Przykładowo: w korpusie Browna(inne języki) dla języka angielskiego w wersji amerykańskiej, najczęściej występujące słowo „the” stanowi aż 7% wszystkich słów, drugie w kolejności „of” stanowi 3,5%, trzecie „a” 1,75%, zaś pierwsze 135 słów składa się na 50% objętości całego korpusu[3].

Matematycznie można to wyrazić w formie równania:

gdzie jest to ranga wyrazu w tekście lub grupie tekstów, a częstotliwość jego występowania[2].

W odpowiednio obszernych korpusach językowych wartość stałej jest charakterystyczna dla danego języka, a prawo jest spełnione niemal doskonale dla pierwszych najczęściej występujących 200–300 słów. W poszczególnych tekstach zależy ona natomiast od stylu i tematyki. Porównanie rozkładu Zipfa obliczonego dla korpusu języka z rozkładem dla danego tekstu pozwala na ocenę stylu autora i jego zrozumiałość przez przeciętnego czytelnika. Im bardziej rozkład dla analizowanego tekstu jest zgodny z rozkładem ogólnym dla języka, w którym go napisano, tym jest on bardziej zrozumiały dla większości osób posługujących się na co dzień tym językiem[4].

Inne przykłady działania prawa

[edytuj | edytuj kod]

Podobne zależności są też obserwowane dla częstości występowania wyrażeń matematycznych w tekstach technicznych[5], częstości występowania wysokości nut w zapisach utworów muzycznych[6], a nawet danych nie odnoszących się bezpośrednio do wytworów ludzi, ale związanych z ich aktywnością takich jak ranking wielkości miast, liczby osób zatrudnionych w przedsiębiorstwach, rozkładu wysokości dochodów osobistych, czy popularności stacji telewizyjnych[7].

Zobacz też

[edytuj | edytuj kod]

Przypisy

[edytuj | edytuj kod]
  1. Dawid Powers, Applications and explanations of Zipf’s law, aclweb.org, 1988 [dostęp 2021-05-30].
  2. a b c Ziomek 1990 ↓, s. 145.
  3. Aman Ullah, David E.A. Giles, Handbook of Empirical Economics and Finance, CRC Press, 19 kwietnia 2016, ISBN 978-1-4200-7036-1 [dostęp 2021-05-30] (ang.).
  4. Ziomek 1990 ↓, s. 146.
  5. André Greiner-Petter i inni, Discovering Mathematical Objects of Interest – A Study of Mathematical Notations, „Proceedings of The Web Conference 2020”, WWW '20, Taipei, Taiwan: Association for Computing Machinery, 2020, s. 1445–1456, DOI10.1145/3366423.3380218, ISBN 978-1-4503-7023-3 [dostęp 2021-05-30].
  6. Damian H. Zanette, Zipf’s law and the creation of musical context, „arXiv:cs”, 7 czerwca 2004, arXiv:cs/0406015 [dostęp 2021-05-30].
  7. Steven T. Piantadosi, Zipf’s word frequency law in natural language: A critical review and future directions, „Psychonomic bulletin & review”, 21 (5), 2014, s. 1112–1130, DOI10.3758/s13423-014-0585-6, ISSN 1069-9384, PMID24664880, PMCIDPMC4176592 [dostęp 2021-05-30].

Bibliografia

[edytuj | edytuj kod]