Grafy, język i ryzyko: nowe podejście do analizy relacji semantycznych w tekstach technicznych

W dniu 28 maja 2025 r. na Wydziale Cybernetyki odbyła się obrona rozprawy doktorskiej mgr. inż. Michała Gałuszy w dziedzinie Informatyka Techniczna i Telekomunikacja. W pracy: Identification of hidden semantic relations in texts using relations’ patterns, której promotorem był prof. dr hab. inż. Andrzej Walczak, autor rozprawy wykazał, że możliwe jest skuteczne identyfikowanie ukrytych relacji semantycznych w tekstach narracyjnych bez konieczności trenowania dedykowanego dużego modelu językowego (LLM), poprzez zastosowanie autorskiego, wieloetapowego podejścia opartego na analizie grafowej.

Problem badawczy: jak odkrywać ukryte znaczenia bez trenowania LLM?
Rozprawa mgr. inż. Michała Gałuszy podejmuje istotny i złożony problem automatycznego rozpoznawania relacji semantycznych w tekstach narracyjnych – zwłaszcza tych opisujących działanie, awarie i ryzyka w złożonych systemach technicznych. Praca wpisuje się w nurt badań nad przetwarzaniem języka naturalnego (NLP) i modelowaniem ryzyka, proponując rozwiązania odpowiadające na wyzwania związane z fragmentarycznością, niejednoznacznością i brakiem jednoznacznej struktury językowej w dokumentach technicznych.
Problem badawczy dotyczy identyfikacji ukrytych relacji semantycznych w tekstach przy braku dedykowanych, uczonych wcześniej modeli językowych. Jest to szczególnie ważne, ponieważ wiele realnych scenariuszy nie posiada sformalizowanych danych treningowych, a dostępne narzędzia NLP nie są przystosowane do analizy kontekstowej rozciągającej się poza pojedyncze zdania.

Architektura rozwiązania: od Semantic Frame Graph po model A-V-H
Praca została podzielona na część teoretyczną i empiryczną, obejmującą łącznie sześć rozdziałów. Kluczowe elementy metodyki obejmują:

  1. Semantic Frame Graph (SFG) – grafowe odwzorowanie znaczeń semantycznych wyekstrahowanych z tekstu, zbudowane w oparciu o analizę ról semantycznych i koherencji dialogu.
  2. Intermediate Relationship Graph (IRG) – struktura pośrednia, w której identyfikowane są wzorce propagacji ryzyka pomiędzy komponentami systemu na podstawie relacji wykrytych w SFG.
  3. Asset-Vulnerability-Hazard (A-V-H) Graph – końcowy model sieciowy, który odwzorowuje zależności między zasobami, podatnościami, a potencjalnymi zagrożeniami w analizowanym systemie.

 

Badania zostały przeprowadzone bez konieczności trenowania dedykowanego dużego modelu językowego (LLM), co stanowi znaczące osiągnięcie pod względem efektywności i elastyczności zastosowań. Zamiast tego, autor wykorzystał dostępne klasyfikatory językowe i modele uogólnione, integrując je w spójny pipeline, który przetwarza teksty w sposób sekwencyjny i hierarchiczny.

W rozprawie przeprowadzono również analizę złożoności czasowej kluczowych algorytmów, a zaproponowane podejście zostało ocenione na przykładach z rzeczywistych zbiorów danych, m.in. z repozytorium DocRED oraz scenariuszy incydentów technicznych (np. z systemu eMARS). W badaniach autor porównał efektywność własnych metod z wynikami generowanymi przez różne modele LLM (w tym Mistral, Flan-T5), analizując m.in. spójność dialogu, skuteczność wykrywania relacji i jakość generowanych grafów semantycznych.
Główne wnioski: trafność, skalowalność i potencjał zastosowań międzysektorowych.

Wyniki pracy wykazały, że:

  • Możliwe jest skuteczne wykrywanie złożonych relacji semantycznych bez konieczności tworzenia dedykowanego modelu językowego.
  • Opracowany pipeline (SFG → IRG → A-V-H) pozwala na odwzorowanie przepływu ryzyka i interakcji między elementami systemu w sposób spójny z rzeczywistymi scenariuszami.
  • Uzyskane grafy umożliwiają analizę semantycznych metapowiązań i przyczynowo-skutkowych relacji z rozproszonej informacji tekstowej.
  • Zastosowana metoda znajduje zastosowanie nie tylko w kontekście analizy bezpieczeństwa, ale również w medycynie, finansach czy zarządzaniu kryzysowym.

 

Recenzje: innowacyjna koncepcja z wysokim potencjałem praktycznym
Oceniający pracę dr hab. inż. Dominik Strzałka, prof. PRz, podkreślił, że propozycja doktora Gałuszy stanowi wartościowy wkład do dyscypliny informatyki technicznej i telekomunikacji, a metoda może być szeroko stosowana w analizie ryzyka systemowego. W recenzji prof. Mirosława Kutyłowskiego z Politechniki Wrocławskiej zaakcentowano innowacyjność podejścia i jego potencjalną uniwersalność.

Zdaniem trzeciego recenzenta dr. hab. inż. Grzegorza Borowika, prof. NASK:

„Autor rozprawy doktorskiej proponuje nowe podejście do wykrywania relacji ryzyka w dokumentach, co stanowi oryginalne rozwiązanie problemu naukowego. Wprowadzenie nowatorskiej metody ekstrakcji relacji ryzyka z tekstów, z wykorzystaniem technik przetwarzania języka naturalnego, świadczy o istotnym wkładzie badawczym w dziedzinie analizy ryzyka. Przeprowadzone eksperymenty, polegające na zastosowaniu zaproponowanej metody do analizy rzeczywistych dokumentów, potwierdzają praktyczność i skuteczność rozwiązania. Takie podejście może znaleźć zastosowanie w sferze gospodarczej, wspomagając procesy zarządzania ryzykiem poprzez automatyzację identyfikacji relacji ryzyka w dużych zbiorach dokumentów.”

Tekst: Paweł Moszczyński, Magdalena Moszczyńska
Fot. WCY

LLM, relacje semantyczne, grafy, język, ryzyko, analiza relacji semantycznych, teksty techniczne