First/první Previous/předcházející Home Next/další Last/poslední

      Dvojjazyčné CC TMX s češtinou
 01  Služby Evropské komise a Opus





Jazykové zdroje a jazykové služby  
  • Jazykové zdroje jsou dlouhodobě k dispozici.


  • Jazykové služby Evropské komise jsou k dispozici od 1. dubna 2020. Službu eTranslation jsem použil k překladu dvou referátů (souborů PDF), viz níže.



  • Prvním mým oficiálním zdrojem
    jsou TMX z JRC EC ve formátu TMX.
     



    V dubnu 2021 ještě nejsou
    TMX za rok 2020
    k dispozici ke stažení.
     



    Aktuální TMX si vytvářím
    z HTML souborů EuroLexu
      pomocí programu LF-Aligner, který stáhne vybrané jazykové verze, pokud jsou do nich dokumenty přeloženy.



    První službou EC, kterou používám
    je eTranslation


    Nyní služba podporuje 30 jazyků.
     



    Druhou službou EC, kterou používám
    je CEF Speech


    Nyní služba podporuje 3 jazyky:

    angličtinu, francouzštinu a němčinu.
     



    Jinými zdroji jsou tématické TMX   Vytváří je na zakázku z dat EurLexu Farkas András, autor programů LF Aligner a TMLookup.



    Nejvíce zdrojů TMX je na webu Opus  

    http://opus.nlpl.eu/

    Data zde nepravidelně přibývají po různých konferencích, kdy jsou představeny nové sady dat a jsou publikovány referáty o vědecké práci.



    Originál PDF

    2020.lrec-1.467_EN

    a automatické překlady
     

    OpusTools and Parallel Corpus Diagnostics

    EN CS DE PL SK
    2020.lrec-1.467_EN.PDF 2020.lrec-1.467_CS.PDF 2020.lrec-1.467_DE.PDF 2020.lrec-1.467_PL.PDF 2020.lrec-1.467_SK.PDF



    Originál PDF

    W19-5435_EN

    a automatické překlady
     

    Low-Resource Corpus Filtering using Multilingual Sentence Embeddings

    EN CS DE PL SK
    W19-5435_EN.PDF W19-5435_CS.PDF W19-5435_DE.PDF W19-5435_PL.PDF W19-5435_SK.PDF

    First/první Previous/předcházející Články / Articles Next/další Last/poslední

    Copyright Ing. Milan Čondák 21.04.2021