离散特征之间的相关性计算

今天数模队友突然给我发了一个链接,就是关于离散特征之间的相关性计算的,了解了一下之后发现这个方法挺有意思的,算是扩宽了思路,所以记录一下

建模过程中总是会想把特征的数量减少,一般而言可以用皮尔逊系数来度量,两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商。也可以使用主成分分析,当然使用主成分分析会将原来的变量替换掉,无法计算特征之间的相关性。
继续阅读离散特征之间的相关性计算

HashMap、HashTable、ConcurrentHashMap辨析

HashMap、HashTable、ConcurrentHashMap可以说是java集合类的重点了,见到很多的面试题都会提到集合类的线程安全,比如HashMap是非线程安全的,那么有哪些线程安全的集合类,答案当然是HashTable和ConcurrentHashMap。

接下来一个一个看三种集合类的特点。

HashMap

HashMap就是普通的数组+链表的组合,可以称为拉链法,数据结构的课程有完整的讲述,简单的来说就是用一个数组来保存一堆链表的头节点。
继续阅读HashMap、HashTable、ConcurrentHashMap辨析

Java数据类型及自动转换

这篇文章来源于不久前看到的一道面试题。

题目

在JDK7中,如何声明x和i,使得x=x+i合法,x+=i不合法。

第一眼看到这道题目,误以为是使x+=i合法,x=x+i不合法,想着这应该挺简单,大抵是+=这个运算符会对后面的类型做强制类型转换,而普通的加法至少会转换成int,因此,只要将x声明称byte、short或者将i的类型声明为比x精度高的类型即可。

然而仔细一看就惊了,因为印象中+=运算会自动带上强制类型转换,x+=i不合法的,x=x+i理应也不合法,查阅了网上的资料之后,发现在jdk7之前,好像可以通过Object没有+=运算来做处理。如下声明
继续阅读Java数据类型及自动转换

Logistic回归以及虚拟变量的使用

题目

寒假集训的第一道题目是个人信用体系模型的建立。看到题目的第一反应就是回归啦、神经网络啦之类的。然后就是上网找论文。(话说校园网就是爽啊,各种论文都能随便下载。)

问题及解决

最后看到有前辈使用Logistic的回归效果看起来不错的样子,于是照搬之,问题就开始出现了。 * 首先是变量类型的问题,明显我们不能将各个省份均分到0~1之间,这个时候就要引入虚拟变量,比如,有43个省份,计算2^n>43,n最小为6,那么就添加6个虚拟变量来表示省份。
继续阅读Logistic回归以及虚拟变量的使用

更新计划

现在是凌晨四点三十五分,我躺在床上,宿舍里只有我一个人。屋外应该还下着或大或小的雪罢。

转眼也快要大三下了,眼瞅着实习的日子马上就要到来,好像也不能继续做一条老咸鱼了,嗯,明天就要迎来人生的第一场面试了。

大一时就想写的博客,终于在大三这个寒假开始正式动笔了,大概和以前断断续续在gitlab,简书上的写的一些文字不一样,这次可以坚持的久一些罢。
继续阅读更新计划

kubernetes学习笔记

这篇文章便是在老师的敦促下完成的,毕竟学习是要留证据的,也方便以后的回顾。主要是总结的性质,大部分是一些链接,原先放在老师的gitlab上,转过来保存一下。

minikube

  1. 项目地址:github/minikube
  2. 运行指令见项目readme。
  3. minikube是一个用于在本地或者单机环境一键搭建kubernetes的工具,目前支持的最新版本是kubernetes1.8.0。同时提供了默认的kube-dashboard。
  4. 支持多种虚拟机。Linux下无需安装虚拟机,kubernetes可以直接运行在docker上。Mac无法使用docker作驱动,需要安装xhyve(可以使用brew install docker-machine-driver-xhyve安装),同时如果想要看到具体运行的容器,需要使用minikube ssh 指令进入到虚拟机中查看。
  5. 默认镜像源均在gcr.io。阿里云无法使用。目前我的做法是将他源码中的镜像地址改为国内阿里云的镜像地址,重新编译。也可以手动将镜像拉下来后,加上gcr.io的tag。
  6. 在一段时间的放置后kubernetes会占用一个核100%的资源,原因不明。不知道是由于minikube还是kubernetes自己的原因。

kubectl

继续阅读kubernetes学习笔记

机器学习介绍

我也是入过机器学习的坑的,大一下学期不太懂事(笑)。后来社团的学长拜托我写一篇文章粗略的介绍一下机器学习,那么这篇文章就面世了。原文写于2016年吧,有着明显的时代印记——alphago

介绍

机器学习是一门数学,事实上我在大二并没有继续深入学习这方面的打算,看的越多,越意识到自己在数学方面的不足。 既然是介绍,那么首先,得说一下机器学习的好处。嗯,可以装逼。 你可以快乐的甩出一堆名词—— 朴素贝叶斯算法,贝叶斯统计正则化,诸如此类。 现在很火的alpha🐶,也是机器学习的实用案例嘛。 但是,这也是一个大坑,这个东西的充分不必要条件有,傅立叶变换,概率论(这个我不会),一些线性或非线性的运算等等。 嗯,欢迎跳坑。
继续阅读机器学习介绍