1 Overview
2 AI, ML, Big Data & Deep Learning
ai 是概念,是术语
ml 是一门计算机科学
big data 是在机器学习中的一个重要角色(重要组成部分)
dp 是 ml 中的一个子领域
3 Types of ML problems
Answering a question or solving a problem?
ml 不是万能的,使用之前,需要明确目标
- 我们有足够的数据吗
- 我们要分出善意或者恶意吗
- 我们要预测吗
不同的算法不同的目标,因此,使用机器学习前要明确方向。也可以这么理解,在确定要用机器学习搞一件事情的时候,再没有数据的时候,可以选择不理提这个需求的人。
4 Obtaining & dealing with data for ML
用数据之前
- Data selection 数据挑选 (这个最为重要,良好的模型数据是成功的下限,算法是成功的上限。这点特别想哭,经历过几个项目,这个真的特别特别重要。)
- Data pre-processing 数据预处理
- Data transformation 数据翻译
5,6,7 常规算法介绍
8 Artificial Neural Networks (ANNs)
人工智能网络能适用各种各样的任务形式。
9 Natural Language Processing (NLP)
其实个人认为,nlp非常适合网络安全分析。
10 Summary of algorithmic pros and cons
11 Useful ML packages
- Sci-kit learn
- Tensorflow
- Natural Language Toolkit (NLTK)
- TextBlob- MATLAB & R
12 Conclusion
该文档作者的自白,他们目前的实现为
- Genetic programming to find potential crypto attacks
- ML with CUDA for increased performance in cyber security applications
- Android malware classification using ML
- Unsupervised learning to extract RAM from infected machines and
understand if another machine is infected by the same malware or a
variation - ML for detecting potential intrusions from audit logs