Op 8 juli vond de derde workshop van “The European Language Resource Coordination” (ELRC) in België plaats. De organisatie van deze workshop is in handen van het LT3 Language and Translation Technology Team van de Universiteit Gent. ELRC is een Europees initiatief om taaldata te verzamelen met als doel de Europese (ver)taaltechnologie te verbeteren. Hierbij wordt vooral gemikt op openbare diensten, die ook zelf gebruik kunnen maken van de Europese automatische vertaalsystemen.
Nathalie De Sutter, managing partner van Untranslate, zetelde in het panel over “Language data creation, management and sharing: existing practices and challenges”. Ze deelde er haar ervaring met taaldata. Nathalie is namelijk naast gastlector bij verschillende universiteiten in België, ook consultant bij verschillende overheidsinstanties, waar ze betrokken is bij het delen van datasets die onder meer gebruikt worden bij het ontwikkelen van NLP-toepassingen. Daarnaast getuigde ze als vertaalcoördinator bij Untranslate ook over de uitdagingen die het gebruik van taaldata met zich meebrengt. Wat zijn de juridische voorwaarden? Hoe de originele bestandsformaten converteren zodat ze beantwoorden aan de industriestandaarden en geïmporteerd kunnen worden in CAT(Computer Aided Translation)-tools? Hoe zorg je ervoor dat de data, die continu in ontwikkeling is, steeds up-to-date blijft, en tenslotte: hoe vind je je weg in de gigantische hoeveelheid bronnen, tools en informatie beschikbaar op het internet?
Het panel werd gevolgd door een interactieve sessie waarbij de deelnemers aan de workshop vragen konden stellen. Dat kon na de boeiende presentaties van Prof. Dr. Véronique Hoste, Prof. Dr. Lieve Macken, François Thunus en Dr. Tom Vanallemeersch.
Zo is iedereen weer bijgepraat over de huidige status van AI, neurale machinevertaling en het platform van CEF (het MT-systeem van de Europese Commissie)!
Voor meer info, bezoek https://lr-coordination.eu/belgium3