Всегда ли чем больше данных, тем лучше? Правильный ответ - смотря для кого и смотря где.
Вот, например: предположим, разнообразные данные о человеке учитываются каким-то умным алгоритмом при вопросах о приеме на работу, выдаче кредитов и т.д.
А человек этот живет в криминогенном районе, и на него у полиции данных много больше, чем на среднего гражданина.
А на некоторых фотках он вообще рядом с плохими людьми засветился...
Короче, возможно появление плохой обратной связи: чем больше данных на человека из подозрительного района, тем больше шансов, что ему оттуда не выбраться, потому что он сам становится слишком подозрительным для алгоритма.
Очень правильный вопрос о влиянии свойств датасета на выводы - и в итоге на людей.