Wordlisten API

Wortschatz API

https://api.wortschatz-leipzig.de/ws/swagger-ui/index.html

curl -X 'GET' \
  'https://api.wortschatz-leipzig.de/ws/words/eng_wikipedia_2012_1M/randomword/?limit=6' \
  -H 'accept: application/json'

[ { "corpusName": "afr-za_web_2018_1M", "description": "Afrikaans Web subcorpus (South Africa) based on material from 2018 (1,000,000 sentences)", "description_deu": "Afrikaans Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 516795, "numberOfTokens": 18179626, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "afr_wikipedia_2018_300K", "description": "Afrikaans Wikipedia subcorpus based on material from 2018 (300,000 sentences)", "description_deu": "Afrikaans Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 286313, "numberOfTokens": 5706275, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "amh_wikipedia_2018_30K", "description": "Amharic Wikipedia subcorpus based on material from 2018 (30,000 sentences)", "description_deu": "Amharisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (30.000 Sätze)", "numberOfSentences": 30000, "numberOfTypes": 98637, "numberOfTokens": 405193, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "ara-tn_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Tunisia) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Tunesien) basierend auf Texten gecrawlt 2018", "numberOfSentences": 3314583, "numberOfTypes": 1445301, "numberOfTokens": 74127526, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-dz_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Algeria) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Algerien) basierend auf Texten gecrawlt 2018", "numberOfSentences": 3009490, "numberOfTypes": 1342279, "numberOfTokens": 73607235, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-international_newscrawl-OSIAN_2018", "description": "ara-international_newscrawl-OSIAN_2018", "description_deu": "ara-international_newscrawl-OSIAN_2018", "numberOfSentences": 1337556, "numberOfTypes": 680918, "numberOfTokens": 28829944, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-de_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Germany) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Deutschland) basierend auf Texten gecrawlt 2018", "numberOfSentences": 1145154, "numberOfTypes": 565927, "numberOfTokens": 24140236, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara_newscrawl_2013_1M", "description": "Arabic news subcorpus based on material crawled in 2013 (1,000,000 sentences)", "description_deu": "Arabisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 871269, "numberOfTokens": 20759565, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "ara_wikipedia_2018_1M", "description": "Arabic Wikipedia subcorpus based on material from 2018 (1,000,000 sentences)", "description_deu": "Arabisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 1006181, "numberOfTokens": 19419287, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "ara-middleeast_newscrawl-OSIAN_2018", "description": "ara-middleeast_newscrawl-OSIAN_2018", "description_deu": "ara-middleeast_newscrawl-OSIAN_2018", "numberOfSentences": 873723, "numberOfTypes": 596459, "numberOfTokens": 20328100, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-ir_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Iran) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Iran) basierend auf Texten gecrawlt 2018", "numberOfSentences": 865789, "numberOfTypes": 569873, "numberOfTokens": 20599830, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-fr_newscrawl-OSIAN_2018", "description": "Arabic news corpus (France) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Frankreich) basierend auf Texten gecrawlt 2018", "numberOfSentences": 752604, "numberOfTypes": 403190, "numberOfTokens": 16363272, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-ma_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Morocco) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Marokko) basierend auf Texten gecrawlt 2018", "numberOfSentences": 537227, "numberOfTypes": 613187, "numberOfTokens": 12340176, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-eg_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Egypt) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Ägypten) basierend auf Texten gecrawlt 2018", "numberOfSentences": 384866, "numberOfTypes": 305440, "numberOfTokens": 8959240, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-com_newscrawl-OSIAN_2018", "description": "Arabic news corpus based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus basierend auf Texten gecrawlt 2018", "numberOfSentences": 359915, "numberOfTypes": 344434, "numberOfTokens": 7122716, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-tr_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Turkey) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Türkei) basierend auf Texten gecrawlt 2018", "numberOfSentences": 267302, "numberOfTypes": 265176, "numberOfTokens": 5804479, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-ru_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Russia) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Russland) basierend auf Texten gecrawlt 2018", "numberOfSentences": 233641, "numberOfTypes": 222805, "numberOfTokens": 5093442, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-se_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Sweden) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Schweden) basierend auf Texten gecrawlt 2018", "numberOfSentences": 229562, "numberOfTypes": 260894, "numberOfTokens": 5386761, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-ps_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Palestine) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Palästinensische Autonomiegebiete) basierend auf Texten gecrawlt 2018", "numberOfSentences": 145869, "numberOfTypes": 257161, "numberOfTokens": 3157609, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-iq_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Iraq) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Irak) basierend auf Texten gecrawlt 2018", "numberOfSentences": 139074, "numberOfTypes": 183866, "numberOfTokens": 2858360, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-jo_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Jordan) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Jordanien) basierend auf Texten gecrawlt 2018", "numberOfSentences": 133712, "numberOfTypes": 279650, "numberOfTokens": 2862698, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-ca_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Canada) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Kanada) basierend auf Texten gecrawlt 2018", "numberOfSentences": 119353, "numberOfTypes": 179990, "numberOfTokens": 2575617, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-sy_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Syria) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Syrien) basierend auf Texten gecrawlt 2018", "numberOfSentences": 112883, "numberOfTypes": 159008, "numberOfTokens": 2682146, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-uk_newscrawl-OSIAN_2018", "description": "Arabic news corpus (United Kingdom) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Vereinigtes Königreich) basierend auf Texten gecrawlt 2018", "numberOfSentences": 112464, "numberOfTypes": 170870, "numberOfTokens": 2292744, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-qa_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Qatar) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Katar) basierend auf Texten gecrawlt 2018", "numberOfSentences": 36326, "numberOfTypes": 118104, "numberOfTokens": 760419, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-ae_newscrawl-OSIAN_2018", "description": "Arabic news corpus (United Arab Emirates) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Vereinigte Arabische Emirate) basierend auf Texten gecrawlt 2018", "numberOfSentences": 35128, "numberOfTypes": 114764, "numberOfTokens": 795451, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-au_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Australia) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Australien) basierend auf Texten gecrawlt 2018", "numberOfSentences": 32735, "numberOfTypes": 100922, "numberOfTokens": 655229, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-sa_newscrawl-OSIAN_2018", "description": "Arabic news corpus (Saudi Arabia) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Saudi-Arabien) basierend auf Texten gecrawlt 2018", "numberOfSentences": 15627, "numberOfTypes": 73265, "numberOfTokens": 331018, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "ara-cn_newscrawl-OSIAN_2018", "description": "Arabic news corpus (People’s Republic of China) based on material crawled in 2018", "description_deu": "Arabisches Nachrichten-Korpus (Volksrepublik China) basierend auf Texten gecrawlt 2018", "numberOfSentences": 7639, "numberOfTypes": 30248, "numberOfTokens": 166327, "thanksTo": "Language expert,Imad Zeroual,http://zeroual.oujda-nlp-team.net", "posTagger": "", "annotations": "" }, { "corpusName": "arg_wikipedia_2018_30K", "description": "Aragonese Wikipedia subcorpus based on material from 2018 (30,000 sentences)", "description_deu": "Aragonesisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (30.000 Sätze)", "numberOfSentences": 30000, "numberOfTypes": 73301, "numberOfTokens": 577703, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "asm_wikipedia_2018_30K", "description": "Assamese Wikipedia subcorpus based on material from 2018 (30,000 sentences)", "description_deu": "Assamesisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (30.000 Sätze)", "numberOfSentences": 30000, "numberOfTypes": 72404, "numberOfTokens": 433390, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "ast_wikipedia_2018_300K", "description": "Leonese Wikipedia subcorpus based on material from 2018 (300,000 sentences)", "description_deu": "Asturisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 302250, "numberOfTokens": 5998979, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "aze_wikipedia_2018_1M", "description": "Azerbaijani Wikipedia subcorpus based on material from 2018 (1,000,000 sentences)", "description_deu": "Aserbeidschanisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 829203, "numberOfTokens": 13251773, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "bak_wikipedia_2018_100K", "description": "Bashkir Wikipedia subcorpus based on material from 2018 (100,000 sentences)", "description_deu": "Baschkirisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (100.000 Sätze)", "numberOfSentences": 100000, "numberOfTypes": 158361, "numberOfTokens": 1360727, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "bar_wikipedia_2018_100K", "description": "Bavarian Wikipedia subcorpus based on material from 2018 (100,000 sentences)", "description_deu": "Bairisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (100.000 Sätze)", "numberOfSentences": 100000, "numberOfTypes": 217072, "numberOfTokens": 1563769, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "bel_wikipedia_2018_300K", "description": "Belarusian Wikipedia subcorpus based on material from 2018 (300,000 sentences)", "description_deu": "Weißrussisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 394596, "numberOfTokens": 4357019, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "ben_community_2017", "description": "Bengali community corpus. Please be aware that community corpora are updated in irregular intervals.", "description_deu": "Bengali community corpus. Please be aware that community corpora are updated in irregular intervals.", "numberOfSentences": 1200255, "numberOfTypes": 645461, "numberOfTokens": 16632554, "thanksTo": "", "posTagger": "", "annotations": "coocSim" }, { "corpusName": "ben_newscrawl_2014_300K", "description": "Bengali news subcorpus based on material crawled in 2014 (300,000 sentences)", "description_deu": "Bengali Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2014 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 211253, "numberOfTokens": 4043381, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "ben_wikipedia_2018_300K", "description": "Bengali Wikipedia subcorpus based on material from 2018 (300,000 sentences)", "description_deu": "Bengali Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 320340, "numberOfTokens": 3939930, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "bih_wikipedia_2018_10K", "description": "Wikipedia subcorpus based on material from 2018 (10,000 sentences)", "description_deu": "Bihari Wikipedia-Teilkorpus basierend auf Texten von 2018 (10.000 Sätze)", "numberOfSentences": 10000, "numberOfTypes": 20966, "numberOfTokens": 164994, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "bik_wikipedia_2018_10K", "description": "Bikol Wikipedia subcorpus based on material from 2018 (10,000 sentences)", "description_deu": "Bikol Wikipedia-Teilkorpus basierend auf Texten von 2018 (10.000 Sätze)", "numberOfSentences": 10000, "numberOfTypes": 29322, "numberOfTokens": 173505, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "bos_wikipedia_2018_300K", "description": "Bosnian Wikipedia subcorpus based on material from 2018 (300,000 sentences)", "description_deu": "Bosnisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 392159, "numberOfTokens": 4792427, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "bre_wikipedia_2018_100K", "description": "Breton Wikipedia subcorpus based on material from 2018 (100,000 sentences)", "description_deu": "Bretonisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (100.000 Sätze)", "numberOfSentences": 100000, "numberOfTypes": 136185, "numberOfTokens": 1691625, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "bua_wikipedia_2018_10K", "description": "Buriat Wikipedia subcorpus based on material from 2018 (10,000 sentences)", "description_deu": "Burjatisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (10.000 Sätze)", "numberOfSentences": 10000, "numberOfTypes": 36970, "numberOfTokens": 140778, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "bul_news_2011_1M", "description": "Bulgarian news subcorpus based on material from 2011 (1,000,000 sentences)", "description_deu": "Bulgarisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 375600, "numberOfTokens": 17021864, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "bul_newscrawl_2011_1M", "description": "Bulgarian news subcorpus based on material crawled in 2011 (1,000,000 sentences)", "description_deu": "Bulgarisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 485464, "numberOfTokens": 16860193, "thanksTo": "", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "bul_wikipedia_2018_1M", "description": "Bulgarian Wikipedia subcorpus based on material from 2018 (1,000,000 sentences)", "description_deu": "Bulgarisches Wikipedia-Teilkorpus basierend auf Texten von 2018 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 690657, "numberOfTokens": 16630038, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "" }, { "corpusName": "ces_wikipedia_2014_1M", "description": "Czech Wikipedia subcorpus based on material from 2014 (1,000,000 sentences)", "description_deu": "Tschechisches Wikipedia-Teilkorpus basierend auf Texten von 2014 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 860295, "numberOfTokens": 15869641, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "RFTagger", "annotations": "coocSim, GDEX, POS (RFTagger - RFTagger), wordsLevenshteinSim" }, { "corpusName": "ces_news_2012_1M", "description": "Czech news subcorpus based on material from 2012 (1,000,000 sentences)", "description_deu": "Tschechisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 516915, "numberOfTokens": 14752849, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "ces_news_2013_1M", "description": "Czech news subcorpus based on material from 2013 (1,000,000 sentences)", "description_deu": "Tschechisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 505923, "numberOfTokens": 14679090, "thanksTo": "", "posTagger": "RFTagger", "annotations": "coocSim, GDEX, POS (RFTagger - RFTagger), wordsLevenshteinSim" }, { "corpusName": "dan_news_2012_1M", "description": "Danish news subcorpus based on material from 2012 (1,000,000 sentences)", "description_deu": "Dänisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 482976, "numberOfTokens": 18323173, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "deu_news_2012_3M", "description": "German news subcorpus based on material from 2012 (3,000,000 sentences)", "description_deu": "Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2012 (3.000.000 Sätze)", "numberOfSentences": 3000000, "numberOfTypes": 1505382, "numberOfTokens": 50687712, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "deu_news_2010_1M", "description": "German news subcorpus based on material from 2010 (1,000,000 sentences)", "description_deu": "Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2010 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 844797, "numberOfTokens": 17052446, "thanksTo": "", "posTagger": "", "annotations": "coocSim, wordsLevenshteinSim" }, { "corpusName": "deu_wikipedia_2010_1M", "description": "German Wikipedia subcorpus based on material from 2010 (1,000,000 sentences)", "description_deu": "Deutsches Wikipedia-Teilkorpus basierend auf Texten von 2010 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 1008650, "numberOfTokens": 17051803, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "deu_news_2012_1M", "description": "German news subcorpus based on material from 2012 (1,000,000 sentences)", "description_deu": "Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 780394, "numberOfTokens": 16898449, "thanksTo": "", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "deu_news_2010_100K", "description": "German news subcorpus based on material from 2010 (100,000 sentences)", "description_deu": "Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2010 (100.000 Sätze)", "numberOfSentences": 100000, "numberOfTypes": 195385, "numberOfTokens": 1705473, "thanksTo": "", "posTagger": "", "annotations": "coocSim, wordsLevenshteinSim" }, { "corpusName": "deu_news_2008_100K", "description": "German news subcorpus based on material from 2008 (100,000 sentences)", "description_deu": "Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2008 (100.000 Sätze)", "numberOfSentences": 100000, "numberOfTypes": 193649, "numberOfTokens": 1676598, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "deu_news_2010_10K", "description": "German news subcorpus based on material from 2010 (10,000 sentences)", "description_deu": "Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2010 (10.000 Sätze)", "numberOfSentences": 10000, "numberOfTypes": 40982, "numberOfTokens": 171989, "thanksTo": "", "posTagger": "", "annotations": "coocSim, wordsLevenshteinSim" }, { "corpusName": "deu_news_2008_10K", "description": "German news subcorpus based on material from 2008 (10,000 sentences)", "description_deu": "Deutsches Nachrichten-Teilkorpus basierend auf Texten von 2008 (10.000 Sätze)", "numberOfSentences": 10000, "numberOfTypes": 40013, "numberOfTokens": 167046, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "ell_newscrawl_2013_1M", "description": "Modern Greek news subcorpus based on material crawled in 2013 (1,000,000 sentences)", "description_deu": "Neugriechisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 602467, "numberOfTokens": 19214003, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "eng_news_2012_3M", "description": "English news subcorpus based on material from 2012 (3,000,000 sentences)", "description_deu": "Englisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (3.000.000 Sätze)", "numberOfSentences": 3000000, "numberOfTypes": 710132, "numberOfTokens": 62393073, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "eng_news_2013_3M", "description": "English news subcorpus based on material from 2013 (3,000,000 sentences)", "description_deu": "Englisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (3.000.000 Sätze)", "numberOfSentences": 3000000, "numberOfTypes": 824726, "numberOfTokens": 61979637, "thanksTo": "", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "eng_news_2013_1M", "description": "English news subcorpus based on material from 2013 (1,000,000 sentences)", "description_deu": "Englisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 456198, "numberOfTokens": 20661218, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "eng_wikipedia_2012_1M", "description": "English Wikipedia subcorpus based on material from 2012 (1,000,000 sentences)", "description_deu": "Englisches Wikipedia-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 734215, "numberOfTokens": 19473552, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "est_news_2014_300K", "description": "Estonian news subcorpus based on material from 2014 (300,000 sentences)", "description_deu": "Estnisches Nachrichten-Teilkorpus basierend auf Texten von 2014 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 414968, "numberOfTokens": 4512185, "thanksTo": "", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "est_news_2011_300K", "description": "Estonian news subcorpus based on material from 2011 (300,000 sentences)", "description_deu": "Estnisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 420227, "numberOfTokens": 4339759, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "fin_news_2012_300K", "description": "Finnish news subcorpus based on material from 2012 (300,000 sentences)", "description_deu": "Finnisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 433388, "numberOfTokens": 3326107, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "fra_news_2011_3M", "description": "French news subcorpus based on material from 2011 (3,000,000 sentences)", "description_deu": "Französisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (3.000.000 Sätze)", "numberOfSentences": 3000000, "numberOfTypes": 678547, "numberOfTokens": 63125248, "thanksTo": "Language expert (Preprocessing),Alain Kamber,;Language expert (Preprocessing),Daniel Elmiger,", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "fra_news_2011_1M", "description": "French news subcorpus based on material from 2011 (1,000,000 sentences)", "description_deu": "Französisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 381123, "numberOfTokens": 21039595, "thanksTo": "Language expert (Preprocessing),Alain Kamber,;Language expert (Preprocessing),Daniel Elmiger,", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "guj_newscrawl_2014_1M", "description": "Gujarati news subcorpus based on material crawled in 2014 (1,000,000 sentences)", "description_deu": "Gujarātī Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2014 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 583642, "numberOfTokens": 13988086, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "hin_news_2011_1M", "description": "Hindi news subcorpus based on material from 2011 (1,000,000 sentences)", "description_deu": "Hindi Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 230831, "numberOfTokens": 19177172, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "hun_newscrawl_2013_1M", "description": "Hungarian news subcorpus based on material crawled in 2013 (1,000,000 sentences)", "description_deu": "Ungarisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 1009949, "numberOfTokens": 15723178, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "ita_wikipedia_2011_1M", "description": "Italian Wikipedia subcorpus based on material from 2011 (1,000,000 sentences)", "description_deu": "Italienisches Wikipedia-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 661244, "numberOfTokens": 21306851, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "ita_news_2012_1M", "description": "Italian news subcorpus based on material from 2012 (1,000,000 sentences)", "description_deu": "Italienisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 436007, "numberOfTokens": 19895912, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "kck_community_2019", "description": "Kalanga community corpus based on material from 2019", "description_deu": "Community-Korpus basierend auf Texten von 2019", "numberOfSentences": 996, "numberOfTypes": 4137, "numberOfTokens": 14721, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "lat_wikipedia_2012_100K", "description": "Latin Wikipedia subcorpus based on material from 2012 (100,000 sentences)", "description_deu": "Latein Wikipedia-Teilkorpus basierend auf Texten von 2012 (100.000 Sätze)", "numberOfSentences": 100000, "numberOfTypes": 196886, "numberOfTokens": 1447267, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "lug_community_2017", "description": "Ganda community corpus. Please be aware that community corpora are updated in irregular intervals.", "description_deu": "Ganda community corpus. Please be aware that community corpora are updated in irregular intervals.", "numberOfSentences": 78609, "numberOfTypes": 178354, "numberOfTokens": 1244366, "thanksTo": "", "posTagger": "", "annotations": "coocSim" }, { "corpusName": "nep_news_2010_300K", "description": "Nepali news subcorpus based on material from 2010 (300,000 sentences)", "description_deu": "Nepali Nachrichten-Teilkorpus basierend auf Texten von 2010 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 306437, "numberOfTokens": 4725956, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "nep_news_2010_10K", "description": "Nepali news subcorpus based on material from 2010 (10,000 sentences)", "description_deu": "Nepali Nachrichten-Teilkorpus basierend auf Texten von 2010 (10.000 Sätze)", "numberOfSentences": 10000, "numberOfTypes": 35146, "numberOfTokens": 157722, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "nld_news_2011_1M", "description": "Dutch news subcorpus based on material from 2011 (1,000,000 sentences)", "description_deu": "Niederländisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 441568, "numberOfTokens": 15500852, "thanksTo": "", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "nld_news_2012_300K", "description": "Dutch news subcorpus based on material from 2012 (300,000 sentences)", "description_deu": "Niederländisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 184881, "numberOfTokens": 4619876, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "nso-za_web_2018_10K", "description": "Sepedi Web subcorpus (South Africa) based on material from 2018 (10,000 sentences)", "description_deu": "Pedi Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (10.000 Sätze)", "numberOfSentences": 10000, "numberOfTypes": 19477, "numberOfTokens": 213527, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "pol_news_2011_1M", "description": "Polish news subcorpus based on material from 2011 (1,000,000 sentences)", "description_deu": "Polnisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 629797, "numberOfTokens": 14432818, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "por_news_2013_1M", "description": "Portuguese news subcorpus based on material from 2013 (1,000,000 sentences)", "description_deu": "Portugiesisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 278066, "numberOfTokens": 19054351, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "ron_news_2011_300K", "description": "Romanian news subcorpus based on material from 2011 (300,000 sentences)", "description_deu": "Rumänisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 240135, "numberOfTokens": 5316634, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "run_community_2017", "description": "Rundi community corpus. Please be aware that community corpora are updated in irregular intervals.", "description_deu": "Rundi community corpus. Please be aware that community corpora are updated in irregular intervals.", "numberOfSentences": 17361, "numberOfTypes": 56828, "numberOfTokens": 325231, "thanksTo": "", "posTagger": "", "annotations": "coocSim" }, { "corpusName": "rus_news_2013_1M", "description": "Russian news subcorpus based on material from 2013 (1,000,000 sentences)", "description_deu": "Russisches Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 710995, "numberOfTokens": 17325431, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "sna-zw_web_2018_100K", "description": "Shona Web subcorpus (Zimbabwe) based on material from 2018 (100,000 sentences)", "description_deu": "Schona Web-Teilkorpus (Simbabwe) basierend auf Texten von 2018 (100.000 Sätze)", "numberOfSentences": 100000, "numberOfTypes": 184428, "numberOfTokens": 1434647, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "sot-za_web_2018_10K", "description": "Southern Sotho Web subcorpus (South Africa) based on material from 2018 (10,000 sentences)", "description_deu": "Süd-Sotho Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (10.000 Sätze)", "numberOfSentences": 10000, "numberOfTypes": 19391, "numberOfTokens": 213418, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "spa_news_2011_3M", "description": "Spanish news subcorpus based on material from 2011 (3,000,000 sentences)", "description_deu": "Spanisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (3.000.000 Sätze)", "numberOfSentences": 3000000, "numberOfTypes": 791982, "numberOfTokens": 67631693, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "spa_news_2011_1M", "description": "Spanish news subcorpus based on material from 2011 (1,000,000 sentences)", "description_deu": "Spanisches Nachrichten-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 407054, "numberOfTokens": 22674098, "thanksTo": "", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "spa_wikipedia_2011_1M", "description": "Spanish Wikipedia subcorpus based on material from 2011 (1,000,000 sentences)", "description_deu": "Spanisches Wikipedia-Teilkorpus basierend auf Texten von 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 641697, "numberOfTokens": 21746003, "thanksTo": "Data,Wikipedia,https://www.wikipedia.org", "posTagger": "TreeTagger", "annotations": "coocSim, GDEX, POS (TreeTagger - TreeTagger), wordsLevenshteinSim" }, { "corpusName": "swe_news_2012_300K", "description": "Swedish news subcorpus based on material from 2012 (300,000 sentences)", "description_deu": "Schwedisches Nachrichten-Teilkorpus basierend auf Texten von 2012 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 250004, "numberOfTokens": 4257523, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "tat_web_2018_1M", "description": "Tatar Web subcorpus based on material from 2018 (1,000,000 sentences)", "description_deu": "Tatarisches Web-Teilkorpus basierend auf Texten von 2018 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 534114, "numberOfTokens": 12648131, "thanksTo": "Support,Mansur Saykhunov,http://www.corpus.tatar/en", "posTagger": "", "annotations": "" }, { "corpusName": "tgl_newscrawl_2013_300K", "description": "Tagalog news subcorpus based on material crawled in 2013 (300,000 sentences)", "description_deu": "Tagalog Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (300.000 Sätze)", "numberOfSentences": 300000, "numberOfTypes": 205266, "numberOfTokens": 5748008, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "tso-za_web_2018_10K", "description": "Tsonga Web subcorpus (South Africa) based on material from 2018 (10,000 sentences)", "description_deu": "Tsonga Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (10.000 Sätze)", "numberOfSentences": 10000, "numberOfTypes": 21796, "numberOfTokens": 193836, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "tur_newscrawl_2013_1M", "description": "Turkish news subcorpus based on material crawled in 2013 (1,000,000 sentences)", "description_deu": "Türkisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 743893, "numberOfTokens": 13564944, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "ukr_newscrawl_2011_1M", "description": "Ukrainian news subcorpus based on material crawled in 2011 (1,000,000 sentences)", "description_deu": "Ukrainisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2011 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 599809, "numberOfTokens": 15785757, "thanksTo": "", "posTagger": "", "annotations": "wordsLevenshteinSim" }, { "corpusName": "urd_news_2013_1M", "description": "Urdu news subcorpus based on material from 2013 (1,000,000 sentences)", "description_deu": "Urdu Nachrichten-Teilkorpus basierend auf Texten von 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 267915, "numberOfTokens": 24872284, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "vie_newscrawl_2013_1M", "description": "Vietnamese news subcorpus based on material crawled in 2013 (1,000,000 sentences)", "description_deu": "Vietnamesisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze)", "numberOfSentences": 1000000, "numberOfTypes": 391670, "numberOfTokens": 18037085, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "xho_community_2019", "description": "Xhosa community corpus based on material from 2019", "description_deu": "Xhosa Community-Korpus basierend auf Texten von 2019", "numberOfSentences": 63387, "numberOfTypes": 172484, "numberOfTokens": 805022, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "xho-za_web_2018_30K", "description": "Xhosa Web subcorpus (South Africa) based on material from 2018 (30,000 sentences)", "description_deu": "Xhosa Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (30.000 Sätze)", "numberOfSentences": 30000, "numberOfTypes": 112277, "numberOfTokens": 441630, "thanksTo": "", "posTagger": "", "annotations": "" }, { "corpusName": "zul_mixed_2014_100K", "description": "Zulu mixed subcorpus based on material from 2014 (100,000 sentences)", "description_deu": "Zulu Gemischt-Teilkorpus basierend auf Texten von 2014 (100.000 Sätze)", "numberOfSentences": 100000, "numberOfTypes": 260134, "numberOfTokens": 1341123, "thanksTo": "", "posTagger": "", "annotations": "coocSim, GDEX, wordsLevenshteinSim" }, { "corpusName": "zul-za_web_2018_30K", "description": "Zulu Web subcorpus (South Africa) based on material from 2018 (30,000 sentences)", "description_deu": "Zulu Web-Teilkorpus (Südafrika) basierend auf Texten von 2018 (30.000 Sätze)", "numberOfSentences": 30000, "numberOfTypes": 117701, "numberOfTokens": 394618, "thanksTo": "", "posTagger": "", "annotations": "" } ]

Snippets

Verzeichnis

Wordlisten API

Wortschatz API

Graphansicht

Backlinks