- 特征处理对于模型学习至关重要。处理好数据特征就是成功的一半。仔细考虑特征拆分、整合并加入适当特征是有必要的,特别关注日期特征的处理。另一个重点是特征编码,特别要注意对分类特征和循环特征的编码。
- 对给定数据的结构做一个良好的抽象将能够大幅提高访问、处理数据的效率,节省大量时间和精力。(Abstraction is all I need?)
- 对于 Python,可以遵循【动态语言就该有动态语言的样子】这一原则:在比赛过程中对
eval(), exec()
等动态操作加以良好应用将显著提高整体程序的灵活性(这有点像静态语言的编译器指令,比如宏)。当然,仅期望在比赛中使用动态技巧,因为比赛时间太短,有时无法充分设计类型结构,这时动态执行就能简单快捷(尽管不那么安全地)提供相当灵活的操作模式。当然,运用上述两个函数时注意变量作用域是很重要的。 - 对于 Pandas 数据帧,使用
apply()
是低效的。有替代办法时,尽量避免。