Wyszukiwarki internetowe – historia rozwoju i przyszłość (cz. 2) - era HTML

Powracamy do historii i etapów rozwoju wyszukiwarek internetowych. Dziś jest to nieodłączne narzędzie do odnajdywania informacji w sieci. Wyszukiwarki internetowe nie zawsze jednak wyglądały tak jak dzisiaj i nierzadko trzeba było sporo wysiłku, aby odnaleźć ciekawe materiały w bezmiarze cyfrowego oceanu. W początkach rozwoju nie istniały bowiem zaawansowane algorytmy, które w ułamku sekundy potrafią wyszukać miliony stron tematycznych. Inna sprawa, że problem wynikał z samego faktu, że stron WWW nie było jeszcze w sieci tak dużo jak obecnie. W pierwszej kolejności skoncentrujemy się na wyszukiwarkach internetowych ery HTML, które powstały jeszcze przez rokiem 1990, a więc przed narodzinami pierwszej witryny online.

Archie pierwszą wyszukiwarką internetową ery HTML na świecie?

Przy okazji artykułu Historia powstania Internetu wspominaliśmy o wyszukiwarce internetowej o nazwie Archie. Została stworzona w 1990 roku przez Petera J. Deutscha oraz Alana Emtage’a, zaś jej zadaniem było wyszukiwanie plików znajdujących się na serwerach FTP. Na ówczesne czasy była to rewolucja, z czym dodatkowo wiąże się znacznie większa niż obecnie popularność serwerów FTP, które w kolejnych latach ustąpiły miejsca serwisom służącym do magazynowania plików (m.in. Rapidshare, Megaupload).

Zadaniem wyszukiwarki Archie było tworzenie bazy danych, opierając się na wszystkich nazwach plików umieszczonych na anonimowych serwerach FTP. Pierwotnie wyszukiwanie było ograniczone do wpisywania uniksowych poleceń, zaś w kolejnych etapach rozwoju dodano dostęp przez pocztę elektroniczną, telnet, następnie przez klienta Archie, aż w końcu za pośrednictwem stron internetowych. Jako ciekawostkę warto dodać, że do dziś zachowała się archiwalna polska wersja Archie.

Gopher, Veronica i Jughead z funkcją indeksowania dokumentów

Archie stał się prawdziwym kamieniem milowym, motywującym kolejnych twórców do ulepszania kolejnych projektów związanych z wyszukiwaniem informacji w sieci. Największym problemem Archie był brak możliwości indeksowania plików, jednak już rok później, a dokładnie w 1991 roku, pojawiła się taka możliwość. Naukowcy z Uniwersytetu  Minnesoty stworzyli protokół warstwy aplikacji TCP/IP o nazwie Gopher, który umożliwiał indeksowanie nieskomplikowanych dokumentów tekstowych.

Niedługo po wypłynięciu projektu na światło dzienne pojawiły się nowe systemy o nazwach Veronica i Jughead, które umożliwiły odnajdywanie na podstawie słów kluczowych referencji w indeksach utworzonych przez Google. Internet zmierzał jednak w kierunku rozwoju stron WWW, przez co już wkrótce rola i sposób działania wyszukiwarek internetowych miały się odmienić na dobre.

Wandex – pierwsza współczesna wyszukiwarka internetowa HTML i roboty indeksujące WWW Wanderer

Zaledwie dwa lata po stworzeniu protokołu Gopher, a dokładniej w 1993 roku, Matthew Gray stworzył pierwszą wyszukiwarkę, która współpracowała z odnośnikami hipertekstowymi html o nazwie Wandex. W praktyce wyszukiwarka za pośrednictwem odnośników hipertekstowych html odnajdywała interesujące użytkowników strony internetowe. Było to możliwe dzięki powstaniu pierwszego robota indeksującego o nazwie WWW Wanderer. Koncepcję jego działania w kolejnych latach rozwinęły takie firmy jak Google, Bing czy Yahoo – obecni liderzy w branży wyszukiwarek internetowych. Potrafił on m.in. indeksować adresy URL stron internetowych, stając się bazą dla kolejnych wyszukiwarek wspomnianych już gigantów branży.

JumpStation i Excite – wyszukiwarki ery HTML analizujące zawartości stron internetowych

Wandex - choć był kolejnym krokiem do przodu - to jednak wciąż pozbawiony był najważniejszych znanych dziś rozwiązań. Największym problemem był brak możliwości analizowania zawartości stron – wyszukiwanie informacji odbywało się wyłącznie dzięki indeksowaniu adresów URL. Problem ten został w końcu rozwiązany dzięki możliwościom oferowanym przez wyszukiwarki html JumpStation oraz Excite (wcześniej pod nazwą Architext). Na szczególną uwagę zasługuje pierwszy z wymienionych – JumpStation indeksował zarówno tytuły, jak i nagłówki dokumentów w oparciu na trzech podstawowych modułach. Były to crawler – inaczej robot/pająk pobierający dokumenty z sieci, indekser – moduł analizujący i oceniający oraz searchera – interfejs wyszukujący danej wyszukiwarki.

WebCrawler jako pierwszy indeksuje pełną zawartość dokumentów

Wreszcie w 1994 roku Brian Pinkerton stworzył pierwszą wyszukiwarkę (o nazwie WebCrawler), która indeksowała pełną zawartość dokumentów. Jej podstawową funkcją była możliwość wyszukiwania wybranych słów znajdujących się w treści strony internetowej.

W kolejnej części artykułu skoncentrujemy się na możliwościach współczesnych wyszukiwarek internetowych, wskazując przyszłość i drogę rozwoju.