Kwantowe rozwiązanie do rozpoznawania polskiego alfabetu
W ostatnich latach obserwujemy bezprecedensowy rozwój dwóch potężnych dziedzin technologii: sztucznej inteligencji oraz informatyki kwantowej. Naukowcy z Wojskowej Akademii Technicznej i Uniwersytetu Zielonogórskiego postanowili połączyć te dwa światy, wykorzystując Kwantową Konwolucyjną Sieć Neuronową (QCNN) przeznaczoną do klasyfikacji polskich liter odręcznych. Wyniki ich prac ukazały się w materiałach z Międzynarodowej Konferencji Nauk Obliczeniowych.
Tradycyjnie do testowania algorytmów rozpoznawania pisma używa się bazy MNIST, która zawiera cyfry o niskiej rozdzielczości (24 × 24 piksele). Jest to jednak zestaw niewystarczający dla bardziej złożonych zadań, zwłaszcza gdy w grę wchodzą unikalne cechy narodowych alfabetów. Polskie pismo odręczne, z jego charakterystycznymi znakami takimi jak ą, ę, ó, ś, ż, wymaga bardziej precyzyjnego podejścia.
Polskie znaki i ograniczenia klasycznych rozwiązań
W odpowiedzi na te potrzeby dr inż. Joanna Wiśniewska i dr hab. inż. Marek Sawerwain, prof. UZ opracowali zbiór PolLettDS, który zawiera 4160 obrazów cyfr oraz małych i wielkich liter alfabetu polskiego (łącznie 35 liter, w tym dodane q, v, x). Co istotne, obrazy te mają wyższą rozdzielczość niż w standardowych bazach – 64 × 64 piksele w skali szarości. Połowa danych została wprowadzona za pomocą tabletu graficznego, a druga połowa została odręcznie napisana na papierze i zeskanowana.
Mniej znaczy więcej
„Największą innowacją zaprezentowanego rozwiązania jest fakt, że klasyfikacja odbywa się na surowych danych, bez konieczności stosowania zaawansowanych technik klasycznego wstępnego przetwarzania, takich jak redukcja wymiarowości metodą PCA. Zamiast tego wykorzystaliśmy zjawisko superpozycji i technikę kodowania amplitudy”
– wyjaśnia dr Wiśniewska.
„Dzięki takiemu podejściu obraz o wymiarach 64x64 piksele można zakodować przy użyciu zaledwie 12 kwantowych bitów (kubitów). Jest to możliwe, ponieważ liczba potrzebnych kubitów rośnie jedynie logarytmicznie w stosunku do liczby pikseli. W klasycznym komputerze przechowywanie i przetwarzanie tak szczegółowych danych wymaga znacznie większych zasobów pamięciowych”
– dodaje naukowczyni.
Architektura zaproponowanej sieci QCNN składa się z naprzemiennych warstw konwolucyjnych (splotowych) i warstw poolingowych (łączących). Naukowcy zaprojektowali ją tak, aby operacje odbywały się na sąsiadujących kubitach, co jest kluczowe dla współczesnych, wciąż niedoskonałych, maszyn kwantowych typu NISQ (ang. Noisy Intermediate-Scale Quantum).
Proces nauki i kwantowy test podobieństwa
Nauka sieci polega na optymalizacji parametrów (łącznie 225) przy użyciu algorytmu COBYLA. Proces ten dąży do zminimalizowania funkcji kosztu opartej na tzw. Fidelity – mierze wierności/podobieństwa – która określa, jak blisko jest uzyskany stan kwantowy do idealnego wzorca reprezentującego daną etykietę (np. literę „A” czy „Ż”).
Autorzy wskazują, że ostateczna klasyfikacja może być realizowana w całości w modelu kwantowym za pomocą tzw. SWAP-Testu. Pozwala on porównać dwa rozkłady prawdopodobieństwa i określić stopień ich podobieństwa poprzez pomiar tylko jednego kubitu. Takie podejście znacząco redukuje błędy związane z szumem i dekoherencją, które są plagą dzisiejszych procesorów kwantowych.
Czy komputer kwantowy „widzi” jak człowiek?
Eksperyment numeryczny przeprowadzony przy użyciu pakietu NVIDIA CUDA-Q na karcie graficznej RTX 6000 ADA przyniósł bardzo obiecujące rezultaty. Naukowcy uzyskali wysoką jakość klasyfikacji i osiągnęli wartość Fidelity powyżej 0,9 dla wielu klas, co świadczy o ogromnym potencjale kwantowych rozwiązań.
Analiza tzw. macierzy pomyłek ujawniła jednak pewne trudności, które, jak się okazuje, są niemal identyczne z tymi, z jakimi borykają się ludzie. Sieć miewała problemy z odróżnieniem:
cyfry 0 od małej i wielkiej litery o,
liter Z, Ź, Ż, zwłaszcza przy mniej starannym piśmie odręcznym.
„Pomimo tych drobnych niedoskonałości, sieć QCNN przy stosunkowo małej liczbie parametrów (225) wykazała zdolność do efektywnego kategoryzowania znaków do aż 80 różnych klas”
– mówi dr Wiśniewska.
Przyszłość kwantowej AI
Badania naukowców pokazują, że choć symulacja uczenia kwantowego na klasycznych procesorach wciąż jest dużym obciążeniem obliczeniowym (np. strojenie parametrów dla jednej litery trwało od 200 do 250 sekund), to sam proces przewidywania może być niezwykle wydajny.
Zastosowanie QCNN do rozpoznawania polskiego alfabetu to dopiero początek. Autorzy planują dalszą rozbudowę zbioru PolLettDS oraz testy na realnym sprzęcie kwantowym, aby zmierzyć się z problemem szumu w maszynach NISQ. Rozwiązania te otwierają drogę do nowej ery analizy danych wizualnych, optymalizacji i modelowania zjawisk fizycznych, gdzie granica między tym, co klasyczne, a tym, co kwantowe, staje się coraz bardziej zacierać. Dzięki elastycznej strukturze sieci QCNN, przyszłe systemy będą mogły nie tylko rozpoznawać nasze pismo, ale robić to z precyzją, która do tej pory była poza zasięgiem technologii.
Tekst: Paulina Arciszewska-Siek
fot. źródło: Adobe Stock






