Да, существует вероятность того, что большие данные корпусов текстов могут исказить природу языка при его изучении. 5
Это связано с тем, что при работе с большими данными важно учитывать не только их объём, но и качество. 1 Несбалансированность корпуса, например, если в нём много блогов, прессы или повторяющихся текстов, может сильно влиять на частотные показатели, на которых строятся исследования. 2
Кроме того, при анализе больших языковых данных есть риск выйти в экстралингвистические исследования и говорить не о языке, а о том, как меняется жизнь, которая некоторым образом отражается в анализируемых текстах. 2
Чтобы делать достоверные выводы на основе корпусных данных, необходимо учитывать недостатки и ограничения используемых корпусов и инструментов. 1