IBM 全栈开发【7】:数据科学的 Python 基础
近期在学习 IBM 全栈应用开发微学士课程,故此记录学习笔记。
1. Python 基础
2. Python 数据结构
3. Python 编程基础
4. 用 Python 处理数据
4.1. Pandas
Pandas 是一个功能强大的 Python 库,用于数据处理和分析,提供数据结构和函数来处理结构化数据,如数据帧和序列。
- 可以使用
import命令导入文件,然后输入文件名。 - 使用
as命令可以为文件提供一个更短的名称。 - 在 Pandas 中,使用数据帧(
df)来指定要读取的文件。 - 数据帧由行和列组成。
- 可以使用特定
DataFrame的一列或多列来创建新的DataFrame。 - 我们可以处理
DataFrames中的数据,并将结果保存为不同的格式。 - 在 Python 中,可以使用
Unique方法来确定DataFrames列中的唯一元素。 - 您可以使用不等式运算符和
df,为DataFrames中选定的列分配一个布尔值。 - 将新的
DataFrame保存为不同的DataFrame,其中可能包含先前DataFrame中的值。
4.2. NumPy
NumPy 是一个用于数值和矩阵运算的 Python 库,提供多维数组对象和各种数学函数,可高效处理数据。
NumPy是Pandas的基础。NumPy数组或ND数组类似于列表,通常具有固定大小和同类元素。
一维 NumPy 数组是具有单轴的元素线性序列,就像传统的列表,但针对数值计算和数组操作进行了优化。
- 可以使用索引访问
NumPy数组中的元素。 - 使用属性
dtype可以获取数组元素的数据类型。 - 你可以使用
nsize和ndim分别获取数组的大小和维度。 - 可以在
NumPy中使用索引和切片方法。 - 向量加法是 Python 中广泛使用的操作。
- 用线段或箭头来表示向量加法是非常有用的。
NumPy代码的运行速度更快,这对处理大量数据很有帮助。- 用负号代替加号,可以执行向量减法。
- 在 Python 中,数组与标量相乘需要将数组中的每个元素与标量值相乘,从而得到一个新数组,其中的每个元素都按标量缩放。
Hadamard积是指两个相同形状的数组按元素相乘,得到一个新数组,其中每个元素都是输入数组中相应元素的乘积。- Python 中的点乘是两个数组的元素乘积之和,通常用于向量和矩阵操作,以找到相应元素相乘并求和的标量结果。
- 在使用
NumPy时,通常会使用Matplotlib等库来从存储在 NumPy 数组中的数值数据创建图表和可视化效果。
二维 NumPy 数组是一种具有行和列的网格状结构,适合以矩阵或表格的形式表示数据,用于数值计算。
- 在
NumPy中,shape指的是数组的维数(行列数),表示数组的大小和结构。 - 使用属性
size可以获得数组的大小。 - 使用矩形属性可以访问数组中的各种元素。
- 在
NumPy中使用标量对元素进行乘法运算。
5. API 和数据收集
5.1. API
Python 中的简单 API 是应用程序编程接口,它提供了与服务、库或数据交互的简单易用的方法,通常只需最少的配置或复杂度。
API 使两个软件可以相互对话。
在 Python 中使用 API 库需要导入该库,调用其函数或方法来发出 HTTP 请求,并解析响应以访问 API 提供的数据或服务。
Pandas API 通过与其他软件组件通信来处理数据。
当你创建一个字典,然后使用 DataFrames 构造函数创建一个 Pandas 对象时,实例就形成了。
方法 head 将从 DataFrames 的顶部(默认为 5)显示所提及的行数,而方法 means 将计算平均值并返回值。
5.1.1. REST API
REST API 允许通过互联网进行通信,利用存储、访问更多数据、人工智能算法等资源。
HTTP方法通过互联网传输数据。- HTTP 消息通常包含一个 JSON 文件,其中包含操作指令。
- 包含 JSON 文件的 HTTP 消息会作为网络服务的响应返回给客户端。
- 处理时间序列数据需要使用
Pandas时间序列函数。 - 您可以获取每日蜡烛图数据,并使用
Plotly绘制蜡烛图。
5.1.2. HTTP
HTTP(超文本传输协议)在客户端(网络浏览器)和万维网服务器之间传输数据,包括网页和资源。
- HTTP 协议可能包括多种类型的 REST API。
- HTTP 响应包括资源类型、资源长度等信息。
- 统一资源定位符(URL)是在网络上查找资源的最常用方法。
- URL 分为三个部分:方案、互联网地址或基本 URL 和路径。
GET方法是请求信息的常用方法之一。其他一些方法也可能包含正文。- 响应方法包含响应的版本和正文。
POST向服务器提交数据,PUT更新服务器上已有的数据,DELETE从服务器删除数据。
5.1.3. Requests
Requests 是一个 Python 库,可以轻松发送 HTTP / 1.1 请求。
- 可以使用
GET方法修改查询结果。 - 可以用一个 Query 字符串从一个 URL 获取多个请求,如名称、ID 等。
5.1.4. 爬虫
Python 中的网络抓取包括从网站中提取和解析数据,以便使用 Beautiful Soup 和 requests 等库为各种应用程序收集信息。
- HTML 包含由角括号(称为标签)括起来的蓝色文本元素所包围的文本。
- Python 中的每个标签名称都是一个类,每个标签都是一个实例。
- 您可以选择网页上的 HTML 元素来查看网页。
- 网页可能还包含 CSS 和 JavaScript 以及 HTML 元素。
- 每个 HTML 文档就像一个 HTML 树,其中可能包含字符串和其他标记。
- 每个 HTML 表格都有表格标记,并定义了行、页眉、正文等。