Abstract
Het SoNaR Nieuwe Media Corpus 1.0 bevat nieuwemediateksten die verzameld werden binnen het STEVIN-project SoNaR. Het corpus bevat sms'en, tweets en chatberichten. De teksten werden getokeniseerd, ge-POS-tagd en gelemmatiseerd.
Daar dit product teksten bevat die afkomstig zijn uit correspondentie zoals 'tweets' die via Twitter verzameld zijn, 'chats' die via publieke internetfora verzameld zijn en sms’en die individuele personen aan licentiegever verstrekt hebben ten behoeve van dit product, dient de aanvrager extra zorgvuldig met de data om te gaan.
Het SoNaR Nieuwe Media Corpus 1.0 maakt geen deel uit van het SoNaR Corpus 1.0 maar is als apart product beschikbaar.
Daar dit product teksten bevat die afkomstig zijn uit correspondentie zoals 'tweets' die via Twitter verzameld zijn, 'chats' die via publieke internetfora verzameld zijn en sms’en die individuele personen aan licentiegever verstrekt hebben ten behoeve van dit product, dient de aanvrager extra zorgvuldig met de data om te gaan.
Het SoNaR Nieuwe Media Corpus 1.0 maakt geen deel uit van het SoNaR Corpus 1.0 maar is als apart product beschikbaar.
Original language | Dutch |
---|---|
Publisher | Centrale voor Taal- en Spraaktechnologie |
Edition | 1 |
Media of output | Online |
Size | 2,6 GB |
Publication status | Published - 17 Apr 2014 |