columnmodel,mysql的workbench怎么使用?
以下是使用MySQL Workbench的一些基本步骤:
下载和安装MySQL Workbench。可以在MySQL官网上下载并安装MySQL Workbench。
连接到MySQL服务器。启动MySQL Workbench,单击“New Connection”按钮,输入连接的主机名、端口、用户名和密码等信息,点击“Test Connection”测试连接是否成功,然后点击“OK”保存连接信息。
创建或打开一个数据库模型。在MySQL Workbench的“Navigator”窗格中,选择“Database”节点,在弹出的菜单中选择“Create Database Model”或“Open Existing Database Model”选项。
设计数据库模型。在“Modeling”窗格中,使用“Schema”,“Table”,“Column”等工具设计数据库模型。可以设置表和列的名称、数据类型、主键、外键等属性。
创建数据库。在设计好数据库模型后,单击“Database”菜单,选择“Forward Engineer…”选项,MySQL Workbench将自动生成SQL语句,用于创建数据库和表。
python可以实现哪些办公自动化?
Python办公自动化主要是批量化、自动化、定制化解决数据问题,目前主要分为三大块:自动化office、自动化机器人、自动化数据服务。
1、自动化office,包括对excel、word、ppt、email、pdf等常用办公场景的操作,
python都有对应的工具库,可以很方便的调用。
提供一些常见的核心库供大家参考使用。
excel:xlwings、xlrd、xlwt、openpyxl
word:Python-docx
ppt:pptx
email:smtplib(SMTP服务)、email(解析处理)、yagmail(全能)
pdf:pypdf2、pdfminer、pdfplumber
picture:PIL
学这些会撸python是前提,对于小白来说自学也不是件容易的事,需要花相当的时间去适应python的语法逻辑,而且要坚持亲手敲代码,不断练习。
2、自动化机器人,用来提高常规且高频的服务,比如微信客服、自动交易系统、实时信息抓取、QQ聊天机器人等。
例如
web自动化测试:selenium
模拟鼠标键盘:pymouse、pywinauto、pyautogui
微信自动化:wechatby
Python自动化办公其实并不难,但也需要有Python基础,起码得会写脚本,不然尽管有自动化接口也用不了。
很多人入了很长时间门,还是在门外徘徊,我觉得这是学习方法的问题。学习编程一定要多练习,基础+实战同步走,这样才能最快掌握Python。
可能你会问,看书看不进去怎么办,那就换条路子,你可以去看视频、看网络教程、逛github,都是很不错的方法.
3、自动化数据服务,主要是提供流式数据服务,从数据获取、数据处理、数据建模、数据可视化,到最终生成数据报告,通过python搭建起完整数据链条。
数据抓取:requests、scrapy
数据处理:pandas、numpy
数据建模:scipy、scikit-learn、statesmodel、keras
数据可视化:matplotlib、seaborn、bokeh、pyecharts
数据报表:dash
以python操作excel为例,使用xlwings生成自动化图表。
1、简单介绍xlwings
接下来实操演练:
1、准备一个表格
2、对表格进行各种操作
导入xlwings库,命名为xw
import xlwings as xw
建立与活动工作簿的连接
# 这里使用books方法,引用工作簿
wb = xw.books["商品清单.xlsx"]
type(wb)
xlwings.main.Book
查看工作簿的名字
wb.name
'商品清单.xlsx'
实例化工作表对象
sht = wb.sheets['表一']
查看表一中A1单元格的内容
# 标准用法
sht.range('A1').value
'品类'
# 简洁用法
sht['A1'].value
'品类'
# 索引用法
sht[0,0].value
'品类'
查看表一中A1-D8所有单元格的内容
sht.range('A1:D8').value
输出:
[['品类', '数量(件)', '单价(元)', '总价(元)'],
['坚果', 5.0, 30.0, 150.0],
['罐头', 9.0, 10.0, 90.0],
['牛肉', 3.0, 60.0, 180.0],
['果汁', 10.0, 9.0, 90.0],
['蜂蜜', 2.0, 80.0, 160.0],
['进口零食', 4.0, 70.0, 280.0],
['合计', 33.0, 43.166666666666664, 950.0]]
sht[:8,:4].value
输出:
[['品类', '数量(件)', '单价(元)', '总价(元)'],
['坚果', 5.0, 30.0, 150.0],
['罐头', 9.0, 10.0, 90.0],
['牛肉', 3.0, 60.0, 180.0],
['果汁', 10.0, 9.0, 90.0],
['蜂蜜', 2.0, 80.0, 160.0],
['进口零食', 4.0, 70.0, 280.0],
['合计', 33.0, 43.166666666666664, 950.0]]
将表一B2单元格5改为7
sht.range('B2').value = 7
向表二中导入dataframe类型数据
第一步:连接表二
第二步:生成一个dataframe类型数据集
第三步:导入表二
sht_2 = wb.sheets['表二']
import pandas as pd
df = pd.DataFrame({'姓名':['小王','小张','小李'],'年龄':[23,26,19]})
df
导入:
sht_2.range('B1').value = df
向表二中导入numpy数组
import numpy as np
obj = np.array([[1,2,3],[4,5,6]])
obj
输出:
array([[1, 2, 3],
[4, 5, 6]])
导入:
sht_2.range('F1').value = obj
将excel中数据导出为DataFrame格式
sht_2.range('B1').options(pd.DataFrame, expand='table').value
用matplotlib绘图并将图片贴到excel上
import matplotlib.pyplot as plt
fig = plt.figure(figsize=(4,4))
plt.plot([1,2,3,4,5])
sht_2.pictures.add(fig, name='MyPlot', update=True)
输出:
<Picture 'MyPlot' in <Sheet [商品清单.xlsx]表二>>
修改表三中A1单元格的宽和高
连接表三
sht_3 = wb.sheets['表三']
查看A1单元格的宽和高
# 查看列宽
sht_3.range('A1').column_width
8.11
# 查看行高
sht_3.range('A1').row_height
13.8
A1单元格高改为15.6,宽改为2.2
sht_3.range('A1').column_width = 2.2
sht_3.range('A1').row_height = 15.6
修改表三B1单元格颜色
# 查看B1单元格颜色
sht_3.range('B1').color
(255, 0, 0)
# 修改B1单元格颜色为黑色
sht_3.range('B1').color = (0,0,0)
写一个自动化的小脚本
def f():
sht_3.range("A1:AZ48").column_width = 1.1
sht_3.range('A1:AZ48').row_height = 7.8
list_1 = pd.read_csv('zaike.csv').values
for i,j in list_1:
sht_3[int(i),int(j)].color = (255,25,0)
f()
list_1 = []
for i in range(30):
for j in range(40):
c = sht_3[i,j].color
if c == (255,0,0):
list_1.append((i,j))
这些小例子都能跑,你可以放自己电脑上运行下,或者手敲每个代码,这样绝对能高效率掌握。
如果对python语法还不熟悉,最好先把框架熟悉一遍,多做些练习。
可视化编程软件有哪些好的推荐?
python了解一下
全文超过6W子,只能贴出部分,全文可私信小编获取
目录准备工作一、关联(Correlation)关系图1、散点图(Scatter plot)2、边界气泡图(Bubble plot with Encircling)3、散点图添加趋势线(Scatter plot with linear regression line of best fit)4、分面散点图添加趋势线(Each regression line in its own column)5、抖动图(Jittering with stripplot)6、计数图(Counts Plot)7、边缘直方图(Marginal Histogram)8、边缘箱图(Marginal Boxplot)9、相关性热图(Correllogram)10、矩阵图 (Pairwise Plot)二、偏差 (Deviation)关系图11、发散型柱形图 (Diverging Bars)12、发散型文本图(Diverging Texts)-水平方向13、发散型文本图(Diverging Texts)-垂直方向14、发散型点图(Diverging Dot Plot)15、带Marker的发散型棒棒糖图 (Diverging Lollipop Chart with Markers)16、面积图(Area Chart)三、排序 (Ranking)关系图17、排序柱形图(Ordered Bar Chart)18、棒棒糖图(Lollipop Chart)19、点图 (Dot Plot)20、坡图(Slope Chart)21、哑铃图(Dumbbell Plot)四、分布(Distribution)关系图21、连续变量堆积直方图(Stacked Histogram for Continuous Variable)22、类别变量堆积直方图(Stacked Histogram for Categorical Variable)23、密度图(Density Plot)24、带直方图的密度图(Density Curves with Histogram)25、山峰叠峦图(Joy Plot)26、分布点图(Distributed Dot Plot)27、箱图(boxplot)28、箱图结合点图(Dot + Box Plot)29、小提琴图(Violin Plot)30、金字塔图(Population Pyramid)31、分类图(Categorical Plots)五、组成(Composition)关系图32、华夫饼图(Waffle Chart)33、饼图(Pie Chart)34、树状图(Treemap)35、柱状图(Bar Chart)六、变化(Change)关系图36、时间序列图(Time Series Plot)37、波峰和波谷添加注释的时间序列图(Time Series with Peaks and Troughs Annotated)38、自相关和部分自相关图(Autocorrelation (ACF) and Partial Autocorrelation (PACF) Plot)39、交叉相关图(Cross Correlation plot)40、时间序列分解图(Time Series Decomposition Plot)41、多重时间序列图(Multiple Time Series)42、双坐标系时间序列图(Plotting with different scales using secondary Y axis)43、带误差阴影的时间序列图(Time Series with Error Bands)44、堆积面积图(Stacked Area Chart)45、非堆积面积图(Area Chart UnStacked)46、日历热力图(Calendar Heat Map)47、季节图(Seasonal Plot)七、分组( Groups)关系图48、聚类树形图(Dendrogram)49、聚类图(Cluster Plot)50、安德鲁斯曲线(Andrews Curve)51、平行坐标图(Parallel Coordinates)
准备工作主要是导入绘图模块,设置绘图风格。
import numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings(action='once')plt.style.use('seaborn-whitegrid')sns.set_style("whitegrid")print(mpl.__version__)print(sns.__version__)
34、树状图(Treemap)类似饼图的效果,面积大小反应变量大小。
!pip install squarify#安装依赖包import squarify# Import Datadf_raw = pd.read_csv("./datasets/mpg_ggplot2.csv")# Prepare Datadf = df_raw.groupby('class').size().reset_index(name='counts')labels = df.apply(lambda x: str(x[0]) + "\n (" + str(x[1]) + ")", axis=1)sizes = df['counts'].values.tolist()colors = [plt.cm.Set2(i / float(len(labels))) for i in range(len(labels))]# Draw Plotplt.figure(figsize=(10, 8), dpi=100)squarify.plot(sizes=sizes, label=labels, color=colors, alpha=.8)# Decorateplt.title('Treemap of Vechile Class')plt.axis('off')plt.show()
35、柱状图(Bar Chart)柱子高度表示变量大小。
import random# Import Datadf_raw = pd.read_csv("./datasets/mpg_ggplot2.csv")# Prepare Datadf = df_raw.groupby('manufacturer').size().reset_index(name='counts')n = df['manufacturer'].unique().__len__() + 1all_colors = list(plt.cm.colors.cnames.keys())random.seed(100)c = random.choices(all_colors, k=n)# Plot Barsplt.figure(figsize=(12, 8), dpi=80)plt.bar(df['manufacturer'], df['counts'], color=c, width=.5)for i, val in enumerate(df['counts'].values):plt.text(i,val,float(val),horizontalalignment='center',verticalalignment='bottom',fontdict={'fontweight': 500,'size': 12})# Decorationplt.gca().set_xticklabels(df['manufacturer'],rotation=60,horizontalalignment='right')plt.title("Number of Vehicles by Manaufacturers", fontsize=18)plt.ylabel('# Vehicles')plt.ylim(0, 45)plt.show()
更多关于柱状图:
「Python可视化|matplotlib12-垂直|水平|堆积条形图详解」六、变化(Change)关系图36、时间序列图(Time Series Plot)¶该图展示给定指标随时间的变化趋势。
# Import Datadf = pd.read_csv('./datasets/AirPassengers.csv')# Draw Plotplt.figure(figsize=(12, 8), dpi=80)plt.plot(df['date'], df['value'], color='#dc2624')# Decorationplt.ylim(50, 750)xtick_location = df.index.tolist()[::12]xtick_labels = [x[-4:] for x in df.date.tolist()[::12]]plt.xticks(ticks=xtick_location,labels=xtick_labels,rotation=0,fontsize=12,horizontalalignment='center',alpha=.7)plt.yticks(fontsize=12, alpha=.7)plt.title("Air Passengers Traffic (1949 - 1969)", fontsize=18)plt.grid(axis='both', alpha=.3)# Remove bordersplt.gca().spines["top"].set_alpha(0.0)plt.gca().spines["bottom"].set_alpha(0.3)plt.gca().spines["right"].set_alpha(0.0)plt.gca().spines["left"].set_alpha(0.3)plt.show()
37、波峰和波谷添加注释的时间序列图(Time Series with Peaks and Troughs Annotated)# Import Datadf = pd.read_csv('./datasets/AirPassengers.csv')# Get the Peaks and Troughsdata = df['value'].valuesdoublediff = np.diff(np.sign(np.diff(data)))peak_locations = np.where(doublediff == -2)[0] + 1doublediff2 = np.diff(np.sign(np.diff(-1 * data)))trough_locations = np.where(doublediff2 == -2)[0] + 1# Draw Plotplt.figure(figsize=(12, 8), dpi=80)plt.plot('date', 'value', data=df, color='tab:blue', label='Air Traffic')plt.scatter(df.date[peak_locations],df.value[peak_locations],marker=mpl.markers.CARETUPBASE,color='tab:green',s=100,label='Peaks')plt.scatter(df.date[trough_locations],df.value[trough_locations],marker=mpl.markers.CARETDOWNBASE,color='tab:red',s=100,label='Troughs')# Annotatefor t, p in zip(trough_locations[1::5], peak_locations[::3]):plt.text(df.date[p],df.value[p] + 15,df.date[p],horizontalalignment='center',color='darkgreen')plt.text(df.date[t],df.value[t] - 35,df.date[t],horizontalalignment='center',color='darkred')# Decorationplt.ylim(50, 750)xtick_location = df.index.tolist()[::6]xtick_labels = df.date.tolist()[::6]plt.xticks(ticks=xtick_location,labels=xtick_labels,rotation=45,fontsize=12,alpha=.7)plt.title("Peak and Troughs of Air Passengers Traffic (1949 - 1969)",fontsize=18)plt.yticks(fontsize=12, alpha=.7)# Lighten bordersplt.gca().spines["top"].set_alpha(.0)plt.gca().spines["bottom"].set_alpha(.3)plt.gca().spines["right"].set_alpha(.0)plt.gca().spines["left"].set_alpha(.3)plt.legend(loc='upper left')plt.grid(axis='y', alpha=.3)plt.show()
38、自相关和部分自相关图(Autocorrelation (ACF) and Partial Autocorrelation (PACF) Plot)自相关,展示时间序列与其自身滞后的相关性。部分自相关,展示任何给定滞后相对于当前序列的自相关。
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf# Import Datadf = pd.read_csv('./datasets/AirPassengers.csv')# Draw Plotfig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 6), dpi=80)plot_acf(df.value.tolist(), ax=ax1, lags=50)plot_pacf(df.value.tolist(), ax=ax2, lags=20)# Decorate# lighten the bordersax1.spines["top"].set_alpha(.3)ax2.spines["top"].set_alpha(.3)ax1.spines["bottom"].set_alpha(.3)ax2.spines["bottom"].set_alpha(.3)ax1.spines["right"].set_alpha(.3)ax2.spines["right"].set_alpha(.3)ax1.spines["left"].set_alpha(.3)ax2.spines["left"].set_alpha(.3)# font size of tick labelsax1.tick_params(axis='both', labelsize=12)ax2.tick_params(axis='both', labelsize=12)plt.show()
39、交叉相关图(Cross Correlation plot)展示两个时间序列相互之间的滞后。
import statsmodels.tsa.stattools as stattools# Import Datadf = pd.read_csv('./datasets/mortality.csv')x = df['mdeaths']y = df['fdeaths']# Compute Cross Correlationsccs = stattools.ccf(x, y)[:100]nlags = len(ccs)# Compute the Significance level# ref: https://stats.stackexchange.com/questions/3115/cross-correlation-significance-in-r/3128#3128conf_level = 2 / np.sqrt(nlags)# Draw Plotplt.figure(figsize=(12, 7), dpi=80)plt.hlines(0, xmin=0, xmax=100, color='gray') # 0 axisplt.hlines(conf_level, xmin=0, xmax=100, color='gray')plt.hlines(-conf_level, xmin=0, xmax=100, color='gray')plt.bar(x=np.arange(len(ccs)), height=ccs, width=.3)# Decorationplt.title('$Cross\; Correlation\; Plot:\; mdeaths\; vs\; fdeaths,fontsize=18)plt.xlim(0, len(ccs))plt.show()
40、时间序列分解图(Time Series Decomposition Plot)¶该图将时间序列分解为趋势、季节和残差分量(trend, seasonal and residual components.)。
from statsmodels.tsa.seasonal import seasonal_decomposefrom dateutil.parser import parse# Import Datadf = pd.read_csv('./datasets/AirPassengers.csv')dates = pd.DatetimeIndex([parse(d).strftime('%Y-%m-01') for d in df['date']])df.set_index(dates, inplace=True)# Decomposeresult = seasonal_decompose(df['value'], model='multiplicative')# Plotplt.figure(figsize=(12, 7), dpi=80)#plt.rcParams.update({'figure.figsize': (10, 10)})result.plot().suptitle('Time Series Decomposition of Air Passengers')plt.show()
41、多重时间序列图(Multiple Time Series)# Import Datadf = pd.read_csv('./datasets/mortality.csv')# Define the upper limit, lower limit, interval of Y axis and colorsy_LL = 100y_UL = int(df.iloc[:, 1:].max().max() * 1.1)y_interval = 400mycolors = ['tab:red', 'tab:blue', 'tab:green', 'tab:orange']# Draw Plot and Annotatefig, ax = plt.subplots(1, 1, figsize=(10, 6), dpi=80)columns = df.columns[1:]for i, column in enumerate(columns):plt.plot(df.date.values, df[column].values, lw=1.5, color=mycolors[i])plt.text(df.shape[0] + 1,df[column].values[-1],column,fontsize=14,color=mycolors[i])# Draw Tick linesfor y in range(y_LL, y_UL, y_interval):plt.hlines(y,xmin=0,xmax=71,colors='black',alpha=0.3,linestyles="--",lw=0.5)# Decorationsplt.tick_params(axis="both",which="both",bottom=False,top=False,labelbottom=True,left=False,right=False,labelleft=True)# Lighten bordersplt.gca().spines["top"].set_alpha(.3)plt.gca().spines["bottom"].set_alpha(.3)plt.gca().spines["right"].set_alpha(.3)plt.gca().spines["left"].set_alpha(.3)plt.title('Number of Deaths from Lung Diseases in the UK (1974-1979)',fontsize=18)plt.yticks(range(y_LL, y_UL, y_interval),[str(y) for y in range(y_LL, y_UL, y_interval)],fontsize=12)plt.xticks(range(0, df.shape[0], 12),df.date.values[::12],horizontalalignment='left',rotation=45,fontsize=12)plt.ylim(y_LL, y_UL)plt.xlim(-2, 80)plt.show()
42、双坐标系时间序列图(Plotting with different scales using secondary Y axis)# Import Datadf = pd.read_csv("./datasets/economics.csv")x = df['date']y1 = df['psavert']y2 = df['unemploy']# Plot Line1 (Left Y Axis)fig, ax1 = plt.subplots(1, 1, figsize=(12, 6), dpi=100)ax1.plot(x, y1, color='tab:red')# Plot Line2 (Right Y Axis)ax2 = ax1.twinx() # instantiate a second axes that shares the same x-axisax2.plot(x, y2, color='tab:blue')# Decorations# ax1 (left Y axis)ax1.set_xlabel('Year', fontsize=18)ax1.tick_params(axis='x', rotation=70, labelsize=12)ax1.set_ylabel('Personal Savings Rate', color='#dc2624', fontsize=16)ax1.tick_params(axis='y', rotation=0, labelcolor='#dc2624')ax1.grid(alpha=.4)# ax2 (right Y axis)ax2.set_ylabel("# Unemployed (1000's)", color='#01a2d9', fontsize=16)ax2.tick_params(axis='y', labelcolor='#01a2d9')ax2.set_xticks(np.arange(0, len(x), 60))ax2.set_xticklabels(x[::60], rotation=90, fontdict={'fontsize': 10})ax2.set_title("Personal Savings Rate vs Unemployed: Plotting in Secondary Y Axis",fontsize=18)fig.tight_layout()plt.show()
43、带误差阴影的时间序列图(Time Series with Error Bands)from dateutil.parser import parsefrom scipy.stats import sem# Import Datadf_raw = pd.read_csv('./datasets/orders_45d.csv',parse_dates=['purchase_time', 'purchase_date'])# Prepare Data: Daily Mean and SE Bandsdf_mean = df_raw.groupby('purchase_date').quantity.mean()df_se = df_raw.groupby('purchase_date').quantity.apply(sem).mul(1.96)# Plotplt.figure(figsize=(10, 6), dpi=80)plt.ylabel("# Daily Orders", fontsize=12)x = [d.date().strftime('%Y-%m-%d') for d in df_mean.index]plt.plot(x, df_mean, color="#c72e29", lw=2)plt.fill_between(x, df_mean - df_se, df_mean + df_se, color="#f8f2e4")# Decorations# Lighten bordersplt.gca().spines["top"].set_alpha(0)plt.gca().spines["bottom"].set_alpha(1)plt.gca().spines["right"].set_alpha(0)plt.gca().spines["left"].set_alpha(1)plt.xticks(x[::6], [str(d) for d in x[::6]], fontsize=12)plt.title("Daily Order Quantity of Brazilian Retail with Error Bands (95% confidence)",fontsize=14)# Axis limitss, e = plt.gca().get_xlim()plt.xlim(s, e - 2)plt.ylim(4, 10)# Draw Horizontal Tick linesfor y in range(5, 10, 1):plt.hlines(y,xmin=s,xmax=e,colors='black',alpha=0.5,linestyles="--",lw=0.5)plt.show()
44、堆积面积图(Stacked Area Chart)# Import Datadf = pd.read_csv('./datasets/nightvisitors.csv')# Decide Colors mycolors = ['#dc2624', '#2b4750', '#45a0a2', '#e87a59', '#7dcaa9', '#649E7D', '#dc8018', '#C89F91'] # Draw Plot and Annotatefig, ax = plt.subplots(1,1,figsize=(12, 8), dpi= 80)columns = df.columns[1:]labs = columns.values.tolist()# Prepare datax = df['yearmon'].values.tolist()y0 = df[columns[0]].values.tolist()y1 = df[columns[1]].values.tolist()y2 = df[columns[2]].values.tolist()y3 = df[columns[3]].values.tolist()y4 = df[columns[4]].values.tolist()y5 = df[columns[5]].values.tolist()y6 = df[columns[6]].values.tolist()y7 = df[columns[7]].values.tolist()y = np.vstack([y0, y2, y4, y6, y7, y5, y1, y3])# Plot for each columnlabs = columns.values.tolist()ax = plt.gca()ax.stackplot(x, y, labels=labs, colors=mycolors, alpha=0.8)ax.tick_params(axis='x', rotation=45, labelsize=12)# Decorationsax.set_title('Night Visitors in Australian Regions', fontsize=18)ax.set(ylim=[0, 100000])ax.legend(fontsize=10, ncol=4)plt.xticks(x[::5], fontsize=10, horizontalalignment='center')plt.yticks(np.arange(10000, 100000, 20000), fontsize=10)plt.xlim(x[0], x[-1])# Lighten bordersplt.gca().spines["top"].set_alpha(0)plt.gca().spines["bottom"].set_alpha(.3)plt.gca().spines["right"].set_alpha(0)plt.gca().spines["left"].set_alpha(.3)plt.show()
45、非堆积面积图(Area Chart UnStacked)# Import Datadf = pd.read_csv("./datasets/economics.csv")# Prepare Datax = df['date'].values.tolist()y1 = df['psavert'].values.tolist()y2 = df['uempmed'].values.tolist()columns = ['psavert', 'uempmed']# Draw Plotfig, ax = plt.subplots(1, 1, figsize=(12, 6), dpi=80)ax.fill_between(x,y1=y1,y2=0,label=columns[1],alpha=0.5,color='#dc2624',linewidth=2)ax.fill_between(x,y1=y2,y2=0,label=columns[0],alpha=0.5,color='#649E7D',linewidth=2)# Decorationsax.set_title('Personal Savings Rate vs Median Duration of Unemployment',fontsize=18)ax.set(ylim=[0, 30])ax.legend(loc='best', fontsize=12)plt.xticks(x[::50], fontsize=10, horizontalalignment='center')plt.yticks(np.arange(2.5, 30.0, 2.5), fontsize=10)plt.xlim(-10, x[-1])plt.tick_params(axis='x', rotation=45, labelsize=12)# Draw Tick linesfor y in np.arange(2.5, 30.0, 2.5):plt.hlines(y,xmin=0,xmax=len(x),colors='black',alpha=0.3,linestyles="--",lw=0.5)# Lighten bordersplt.gca().spines["top"].set_alpha(0)plt.gca().spines["bottom"].set_alpha(.3)plt.gca().spines["right"].set_alpha(0)plt.gca().spines["left"].set_alpha(.3)plt.show()
46、日历热力图(Calendar Heat Map)很好地展示数据在假日的趋势。
!pip install calmap -i https://pypi.tuna.tsinghua.edu.cn/simple#安装依赖包import numpy as npnp.random.seed(sum(map(ord, 'calmap')))import pandas as pdimport calmapcalmap.calendarplot(events,monthticks=3,daylabels='MTWTFSS',dayticks=[0, 2, 4, 6],cmap='YlGn',fillcolor='grey',linewidth=0,fig_kws=dict(figsize=(8, 4)))
47、季节图(Seasonal Plot)该图比较某个指标在不同年份同一天/年/月/周等的时间序列的表现。
from dateutil.parser import parse# Import Datadf = pd.read_csv('./datasets/AirPassengers.csv')# Prepare datadf['year'] = [parse(d).year for d in df.date]df['month'] = [parse(d).strftime('%b') for d in df.date]years = df['year'].unique()# Draw Plotmycolors = ['#dc2624', '#2b4750', '#45a0a2', '#e87a59', '#7dcaa9', '#649E7D','#dc8018', '#C89F91', '#6c6d6c', '#4f6268', '#c7cccf', 'firebrick']plt.figure(figsize=(10, 6), dpi=80)for i, y in enumerate(years):plt.plot('month','value',data=df.loc[df.year == y, :],color=mycolors[i],label=y)plt.text(df.loc[df.year == y, :].shape[0] - .9,df.loc[df.year == y, 'value'][-1:].values[0],y,fontsize=12,color=mycolors[i])# Decorationplt.ylim(50, 750)plt.xlim(-0.3, 11)plt.ylabel('$Air Traffic)plt.yticks(fontsize=11, alpha=.7)plt.xticks(fontsize=11, alpha=.7)plt.title("Monthly Seasonal Plot: Air Passengers Traffic (1949 - 1969)",fontsize=16)plt.grid(axis='y', alpha=.3)# Remove bordersplt.gca().spines["top"].set_alpha(0.0)plt.gca().spines["bottom"].set_alpha(0.5)plt.gca().spines["right"].set_alpha(0.0)plt.gca().spines["left"].set_alpha(0.5)# plt.legend(loc='upper right', ncol=2, fontsize=12)plt.show()
七、分组( Groups)关系图48、聚类树形图(Dendrogram)展示通过聚类形成的组内及组间相似性水平。
import scipy.cluster.hierarchy as shc# Import Datadf = pd.read_csv('./datasets/USArrests.csv')# Plotplt.figure(figsize=(12, 8), dpi=80)plt.title("USArrests Dendograms", fontsize=18)dend = shc.dendrogram(shc.linkage(df[['Murder', 'Assault', 'UrbanPop','Rape']],method='ward'),labels=df.State.values,color_threshold=200)plt.xticks(fontsize=12)plt.yticks(fontsize=12)plt.show()
49、聚类图(Cluster Plot)通过聚类计算距离,将同一类圈起来。
from sklearn.cluster import AgglomerativeClusteringfrom scipy.spatial import ConvexHull# Import Datadf = pd.read_csv('./datasets/USArrests.csv')# Agglomerative Clusteringcluster = AgglomerativeClustering(n_clusters=5,affinity='euclidean',linkage='ward')cluster.fit_predict(df[['Murder', 'Assault', 'UrbanPop', 'Rape']])# Plotplt.figure(figsize=(12, 8), dpi=80)plt.scatter(df.iloc[:, 0], df.iloc[:, 1], c=cluster.labels_, cmap='tab10')# Encircledef encircle(x, y, ax=None, **kw):if not ax: ax = plt.gca()p = np.c_[x, y]hull = ConvexHull(p)poly = plt.Polygon(p[hull.vertices, :], **kw)ax.add_patch(poly)# Draw polygon surrounding verticesencircle(df.loc[cluster.labels_ == 0, 'Murder'],df.loc[cluster.labels_ == 0, 'Assault'],ec="k",fc="#dc2624",linewidth=0)encircle(df.loc[cluster.labels_ == 1, 'Murder'],df.loc[cluster.labels_ == 1, 'Assault'],ec="k",fc="#2b4750",linewidth=0)encircle(df.loc[cluster.labels_ == 2, 'Murder'],df.loc[cluster.labels_ == 2, 'Assault'],ec="k",fc="#649E7D",linewidth=0)encircle(df.loc[cluster.labels_ == 3, 'Murder'],df.loc[cluster.labels_ == 3, 'Assault'],ec="k",fc="#C89F91",linewidth=0)encircle(df.loc[cluster.labels_ == 4, 'Murder'],df.loc[cluster.labels_ == 4, 'Assault'],ec="k",fc="#c7cccf",linewidth=0)# Decorationsplt.xlabel('Murder')plt.xticks(fontsize=12)plt.ylabel('Assault')plt.yticks(fontsize=12)plt.title('Agglomerative Clustering of USArrests (5 Groups)', fontsize=18)plt.show()
50、安德鲁斯曲线(Andrews Curve)展示是否存在基于给定分组的特征的固有分组。例如下图,如果数据集中的列不能帮助区分组(cyl),则行将不会被很好地分隔开。
from pandas.plotting import andrews_curves# Importdf = pd.read_csv("./datasets/mtcars.csv")df.drop(['cars', 'carname'], axis=1, inplace=True)# Plotplt.figure(figsize=(10, 6), dpi=80)andrews_curves(df, 'cyl', colormap='Set2_r')# Lighten bordersplt.gca().spines["top"].set_alpha(0)plt.gca().spines["bottom"].set_alpha(.3)plt.gca().spines["right"].set_alpha(0)plt.gca().spines["left"].set_alpha(.3)plt.title('Andrews Curves of mtcars', fontsize=18)plt.xlim(-3, 3)plt.grid(alpha=0.3)plt.xticks(fontsize=12)plt.yticks(fontsize=12)plt.show()
51、平行坐标图(Parallel Coordinates)展示某个特征是否有助于分组。如果一个特征隔离,分组受到影响,则该特征对该分组非常必要。
from pandas.plotting import parallel_coordinates# Import Datadf_final = pd.read_csv("./datasets/diamonds_filter.csv")# Plotplt.figure(figsize=(11, 7), dpi=80)parallel_coordinates(df_final, 'cut', colormap='Set2_r')# Lighten bordersplt.gca().spines["top"].set_alpha(0)plt.gca().spines["bottom"].set_alpha(.3)plt.gca().spines["right"].set_alpha(0)plt.gca().spines["left"].set_alpha(.3)plt.title('Parallel Coordinated of Diamonds', fontsize=18)plt.grid(alpha=0.3)plt.xticks(fontsize=12)plt.yticks(fontsize=12)plt.show()
excel中vlookup函数如何匹配多个条件?
在Excel中,VLOOKUP函数可以用来在数据表格中匹配指定条件的值。如果需要匹配多个条件,可以通过在VLOOKUP函数中使用“&”符号来组合多个条件。下面是一个示例:
假设有一个销售表格,其中包含了产品名称、产品型号和销售数量等信息,现在需要在这个表格中查找指定产品名称和型号对应的销售数量。可以使用以下公式:
`=VLOOKUP(ProductName & ProductModel, TableArray, ColumnIndex, False)`
其中:
- ProductName:要查找的产品名称;
- ProductModel:要查找的产品型号;
- TableArray:带有数据源的区域/单元格的范围;
- ColumnIndex:查找结果的列索引;
- False:完全匹配。
通过将“&”符号连接ProductName和ProductModel,可以将它们组合成一个值来作为VLOOKUP函数的搜索条件。这样VLOOKUP函数就可以匹配多个条件并返回相应的结果。
server怎么排序?
开始之前,先确认排序规则(或大小写是否敏感)
1
2
3
4
5
6
7
8
9
10
--查看服务器排序规则(安装时指定的排序规则)
SELECT SERVERPROPERTY('COLLATION') AS ServerCollation
,DATABASEPROPERTYEX('tempdb','COLLATION') AS TempdbCollation
,DATABASEPROPERTYEX(DB_NAME(),'COLLATION') AS CurrentDBCollation
--查看数据库排序规则
SELECT name, collation_name FROM sys.databases
--当前数据库是否大小写敏感
SELECT CASE WHEN N'A'=N'a' THEN N'不敏感' ELSE N'敏感' END
此环境实例中:
服务器排序规则为 Chinese_PRC_BIN
当前数据库排序规则为 Chinese_PRC_CI_AS
若当前数据库创建的所有对象和执行脚本时,如果用到了变量、临时对象等,大小写不一致则出现问题。二进制(_BIN)排序规则是区分大小写的。
安装实例时指定的排序规则,就是 master 数据库的排序规则,同时 model 和 msdb 的排序规则也保持一致,而 tempdb 和用户数据库的排序规则都是参照 model 数据库一样的。
系统数据库是不能直接更改排序规则的,因此只能重建系统数据库,且让系统数据库的排序规则都一致。
重建实例排序规则和系统数据库排序规则:
1、备份系统数据库!必要的,失败了或者以后要使用当前环境时,还可以回退!
2、记住所有数据库及文件路径,保持到 excel 中。如果记得住所有数据库位置的话就不用了。
1
select DB_NAME(database_id) as name,physical_name from sys.master_files
3、导出服务器配置(sp_configure)到 excel。因为重建系统数据库后配置会被初始化。
4、导出账号信息到 txt。数据库重建,账户信息都会丢失,除了备份也要单独备份账号。(SQL Server 中登录账号与数据库用户迁移)
5、导出链接服务器生产脚本到 txt ,如果有的话。
6、导出代理作业到 txt 。
7、(如果还有其他配置,如审核、邮件配置、策略等,都保存出来,后续再重建)
8、分离所有用户数据库。
1
2
3
select 'ALTER DATABASE ['+name+'] SET SINGLE_USER WITH ROLLBACK IMMEDIATE'+char(10)+'go'+char(10)
+'EXEC master.dbo.sp_detach_db @dbname = N'''+name+''''+char(10)+'go'+char(10)
from sys.databases where name not in('master','model','msdb','tempdb')
9、停止所有数据库相关服务。
10、重建数据库并制定新的排序规则。打开命令行,进入安装目录。
1
2
cd D:\Software\en_sql_server_2008_r2_enterprise_x86_x64_ia64_dvd_520517
setup /QUIET /ACTION=REBUILDDATABASE /instancename=mssqlserver /SQLSYSADMINACCOUNTS=服务器账号 /sapwd=密码 /sqlcollation=Chinese_PRC_CI_AS
11、启动 SQL Server 引擎服务,其他暂不启动。
12、创建登录账户(之前导出的脚本)
13、附加所有用户数据库。
14、创建代理作业、链接服务器、更配置等!
完成!~
如果重建系统数据库后,还原 master 数据库,那么服务器排序规则和 master 数据库排序规则都还原和以前一样,所以不能还原,除非恢复到以前的环境。
如果还原 msdb 或 model ,该数据库排序规则也会还原,所以系统数据库备份都不要还原,重建系统数据库之后只能重新配置。
更改用户数据库排序规则
1
ALTER DATABASE test COLLATE Chinese_PRC_CI_AS
更改数据库排序规则时,需要更改下列内容:
>> 将系统表中的任何 char、varchar、text、nchar、nvarchar 或 ntext 列更改为使用新的排序规则。
>> 将存储过程和用户定义函数的所有现有 char、varchar、text、nchar、nvarchar 或 ntext 参数和标量返回值更改为使用新的排序规则。
>> 将 char、varchar、text、nchar、nvarchar 或 ntext 系统数据类型和基于这些系统数据类型的所有用户定义的数据类型更改为使用新的默认排序规则。
对于数据库内字段定义的排序规则,参考下面的 设置或更改列排序规则。
设置或更改列排序规则:
1
2
3
4
5
6
7
8
--示例
CREATE TABLE dbo.MyTable(
PrimaryKey INT PRIMARY KEY,
CharCol VARCHAR(10) COLLATE French_CI_AS NOT NULL
);
GO
ALTER TABLE dbo.MyTable ALTER COLUMN CharCol VARCHAR(10) COLLATE Latin1_General_CI_AS NOT NULL;
GO
如果下列其中之一当前正在引用一个列,则无法更改该列的排序规则:
>> 计算列
>> 索引
>> 自动生成或由 CREATE STATISTICS 语句生成的分发统计信息
>> CHECK 约束
>> FOREIGN KEY 约束
还没有评论,来说两句吧...