Obecnie w świecie sztucznej inteligencji możemy zetknąć się z nowymi pojęciami w obszarze IT.

Dziś postaram się jasno wyjaśnić dwa z nich: baza wektorowa i embedding.
Będąc zwykłą programistką front-end, która próbuje pisać aplikacje oparte o AI oraz tworzyć automatyzacje, zagłębiając temat, natknęłam się właśnie na te dwa pojęcia.
Baza wektorowa? Czym właściwie różni się od zwykłej bazy danych?

Baza danych vs baza wektorowa — jaka jest różnica?

Baza danych to klasyczny sposób przechowywania informacji — dane zapisane są w tabelkach: teksty, liczby, daty.


Przykład:
Najprostsza baza danych, dobrze nam znana, to np. arkusz Excel: kolumny to “imię”, “nazwisko”, “adres”, a każdy wiersz to dane jednej osoby.


Baza wektorowa natomiast przechowuje dane w formie wektorów, czyli zestawów liczb, które opisują właściwości obiektów.


Przykład:
Masz tysiące zdjęć kotów i psów. W bazie wektorowej każde zdjęcie jest opisane liczbami — np. długość uszu, kolor sierści, rozmiar zwierzaka.
Dzięki temu można znaleźć podobne zdjęcia, nawet jeśli nie znamy ich opisu.
Podsumowując:

  • Baza danych = przechowuje teksty i liczby.
  • Baza wektorowa = przechowuje liczbowe reprezentacje rzeczy (wektory).

⠀⠀
Mam nadzieję, że w dość prosty sposób udało mi się pokazać różnicę pomiędzy bazą danych a bazą wektorową.
Przejdźmy teraz do drugiego zagadnienia — embeddingu.

Co to jest embedding?

Embedding to sposób zamiany “czegoś” (np. tekstu, obrazu, dźwięku) na wektor liczb.
(Od razu widać, że pasuje nam to idealnie do baz wektorowych!)
Dlaczego to ważne?
Komputery znacznie lepiej “rozumieją” liczby niż teksty czy obrazy.
Embedding pozwala zamienić np. całe zdanie na zestaw liczb, który zachowuje jego sens.
Przykład:

  • Zdanie “Pies biegnie po łące” po embeddingu może wyglądać np. jak [0.32, -0.17, 0.56, …] — czyli jako ciąg liczb.
  • Podobne zdanie “Szczeniak biega na polu” będzie miało podobny wektor.
Dlaczego? Bo oba zdania znaczą prawie to samo.
    Po co to wszystko?
  • Dzięki embeddingom AI może wyszukiwać podobne dokumenty.
  • Może zrozumieć, że dwa różne teksty oznaczają prawie to samo.
  • W bazie wektorowej możemy błyskawicznie znaleźć najbardziej podobne treści, bez konieczności wpisywania idealnych słów kluczowych.

Dlaczego bazy wektorowe zyskały popularność?

Bazy wektorowe istnieją od dawna, ale dopiero teraz zrobiło się o nich naprawdę głośno. Dlaczego?


1. Rozwój sztucznej inteligencji
Nowoczesne modele AI, jak ChatGPT, muszą szybko szukać podobnych informacji — miliony tekstów, zdjęć, dokumentów.
Klasyczna baza danych by sobie z tym nie poradziła.


2. Wzrost znaczenia wyszukiwania semantycznego
Ludzie coraz częściej szukają “sensu”, a nie dokładnych słów.
Przykład: wpisujesz “fajne miejsca na urlop” — oczekujesz inspiracji, nie tylko stron ze słowem “fajne”.
Baza wektorowa dzięki embeddingom rozumie znaczenie, a nie tylko dosłowne brzmienie.


3. Potrzeba pracy na ogromnych zbiorach danych
Danych przybywa lawinowo.
Tradycyjne wyszukiwanie (po słowach kluczowych) nie wystarcza, a bazy wektorowe potrafią w sekundę znaleźć najbardziej trafne odpowiedzi — nawet jeśli nie podasz idealnego hasła.

Jak działa wyszukiwanie w bazie wektorowej — krok po kroku?

1. Zamiana pytania na wektor
Twoje pytanie (np. “ładne miejsca na wakacje”) jest zamieniane na wektor liczb — embedding.


2. Porównanie z istniejącymi wektorami
Baza wektorowa przechowuje wcześniej zapisane wektory (np. miejsc turystycznych, artykułów, zdjęć) i sprawdza, które są najbardziej podobne do Twojego.


3. Wyszukanie najbardziej podobnych
System wybiera wyniki, które są najbliższe Twojemu pytaniu — nawet jeśli nie używasz tych samych słów.


4. Prezentacja wyników
Na podstawie najbardziej podobnych danych AI generuje odpowiedź lub przedstawia wyniki (np. propozycje miejsc na wakacje).
⠀
Prosty przykład:

  • Pytasz: “fajne góry na wypad”.
  • Baza wektorowa znajduje opisy Zakopanego i Dolomitów, bo ich embeddingi są podobne do Twojego pytania, mimo że nie napisałaś nigdzie słowa “Zakopane”.

Podsumowanie

  • Baza danych = miejsce, gdzie przechowujemy uporządkowane teksty i liczby.
  • Baza wektorowa = sposób na przechowywanie “esencji” rzeczy w postaci liczb, które łatwo porównywać.
  • Embedding = tłumaczenie tekstu, obrazu lub dźwięku na liczby tak, by maszyny mogły zrozumieć ich znaczenie.

⠀To podstawowe klocki, z których buduje się nowoczesne systemy AI.
Jeśli już je poznamy to jesteśmy na początku bardzo ciekawej drogi. Cała reszta to tylko dokładanie kolejnych warstw wiedzy i oczywiście użycie tej wiedzy w praktyce.

Kategorie: AI

0 komentarzy

Dodaj komentarz

Avatar placeholder

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *