速叔瑶 2026-04-30 14:02:30
记得那年夏天,我在咖啡馆角落里,看着窗外的雨滴,突然想起一个数学问题。那时候,我还在大学里,有个教授经常说,概率其实就像生活中的小概率事件,比如下雨的概率。他举了个例子,说如果一天下雨的概率是10%,那么连续三天都下雨的概率是多少呢?
我那时候算了一下,想着10%乘以10%再乘以10%,结果应该是0.001,也就是0.1%。但教授说不对,他让我去查查资料。后来我查了,原来连续三天都下雨的概率并不是简单的0.001,因为每次下雨都是独立事件。
这个例子让我意识到,频率估计概率其实是个挺复杂的事情。比如,如果某个地区过去30年每年下雪的概率都是50%,那么明年下雪的概率还是50%吗?不一定,因为气候在变化,过去的频率可能不再适用。
等等,还有个事,我突然想到,如果用大数据来分析,比如分析过去几年每天下雪的次数,然后根据这些数据来预测明天下雪的概率,那结果会怎样呢?是不是会更加准确呢?
82 赞
姓仲启 2026-05-12 16:26:58
机器学习里,通过大量样本频率来估计概率,这就是最大似然估计。
2019年,我指导的项目中,使用朴素贝叶斯算法,通过对邮件样本的词频进行统计,成功估计垃圾邮件的概率。
别信简单的频率计算,忽视特征分布差异,这就是坑。
在应用时,注意特征标准化,防止数据倾斜。
197 赞