如需文档和代码,请私信联系。 bert有长度512的限制,为了处理几千字的文章,考虑了多种处理方式,发现效果最好的还是就直接截取开头512。 为了验证合理性,分别截取样本不同位置的数据进行训练,计算准确度,发现只有开头是最好的,结尾是最差的。 这里是关于长短文分类的具体方案,本方案参加了第七届西湖论剑比赛,得了优秀作品B等奖,奖金15000。