笔者按:
这篇文章的契机主要还是想通过爬取知乎问答:《2021年接下来哪些股票会大涨?》【1】,由于笔者不会写爬虫,所以找哥们帮忙爬取了一下,下载成为一个xlsx文档,通过对于文档的统计最终得出一个参考答案,以便于通过参考别人的方法来进行分析。
一、数据清洗
import pandas as pd
import matplotlib.pyplot as plt
import jieba
from pyecharts.charts import WordCloud
from pyecharts import options as opts
import re
te=pd.read_excel('show.xlsx')
print(te)
本节的主要思路是将通过读取后的df进行处理,从图例中我们可以看出,一共有139个答案,每个答案占一个单元格。每个单元格里面有大量的汉字+转行符+字母+符号等等。
可以看得出来,最开始笔者想用jieba,pyecharts等库来进行区分,但是还需要用到【停词库】将语句中大量的无用无效文字进行识别,删除,所以笔者就只考虑到最简单的方法,通过对字符串的分割来进行处理。
ck0=[]#新建一个新的list
for i in range(len(te)):#循环
te1=te.内容.iloc[i]#读取每一行的数据
x=re.split('、|,|; |\*|\n',te1)#通过、,;\等分隔开来
for i in x:#原来的一个单元一个字符串就变成了一个单元多个字符串
if 1<len(i) <= 4 and type(i)==str and i.isdigit()==False:
#考虑到答案中大多数都是股票名称,一般股票名称占位4个长度,简称小于至少大于1个长度
#所以判断小于等于4个,大于1个的时候,进行添加
#同时将是字符串的数字进行排除
ck0.append(i)
print(len(ck0))
#一共采取787条信息
#将list转化为dataframe
df = pd.DataFrame(ck0, columns=['infomation'])
#print(df)
list格式
dataframe数据信息787条
二、简单统计
通过pandas中的函数groupby以及agg进行统计,然后降序处理。
#由于只是series,所以增加一列方便统计,计算
df['count_num']=0
#通过groupy和agg统计
df01=df.groupby('infomation').agg({'count_num':'count'})
#降序处理
df01=df01.sort_values(by='infomation',ascending=False)
df01[15:40].plot(kind='bar')
plt.xticks(rotation=45)
plt.title('关键字展示')
plt.show()
我们发现问题中谈论的较多的行业有【光伏、地产、建材、半导体、军工、电力、水泥,芯片,新基建】,看来问题中对于这些行业关注比较集中,尤其是光伏行业提到12次,应当是未来重点关注的行业,而且在这些行业和概念中相关性也比较密切,联动性较强。
在个股上,【泰格医药,中联重科,恒瑞医药,吉比特、东方雨虹、洽洽食品、海天味业,药明康德】等提及的比较多,看来也是该问题中投资者,答主未来重点关注的个股。
投资对于市场,企业的看法:
生产,我们可以看出投资者对于当前的经济是非常看好的,不然也不会多次提到生产,经济的复苏已经让很多人都能够感受得到。
研发,说明投资者更重视于企业对于科技的投入和开发,更加重视企业对于自身护城河的建设和重视,未来研发经费高,产出预期大的,将获得市场更多的青睐和关注,在个股上,这些更多将体现在医药的研发突破上。
持续性,对于业绩的持续性来看,投资者也不再是一惊一乍,短线操作,在这些答题投资者中,能够获得企业的持续性发展的预期和判断将成为投资者审视股票品种的重要手段和借鉴,财务洗澡,弄虚作假,市场价值忽高忽低都将不再有市场可言。
投资者应具备的优秀品质:
勤奋,仍然是投资主线中不可或缺的重要品质,在股市上的分析和探究中,勤奋将为我们的前进打开更为广阔的天空。
探讨,只有积极的学习态度,只要勤奋的努力,与其他人的交流也将成为成长的重要手段,我们在自我成长的过程中,应当重视他人的正确意见,用于丰富我们的投资思路,通过探讨我们才能知道自己到底在想着什么,将自己的思维进一步的进行勾勒,为自身的成长提供更加清晰的道路。
三、结论和提示:
- 由于笔者对于jieba等库不了解,所以只能进行简单处理,由于答题的作者书写习惯不同,笔者能力有限,只能尽可能保障书写完整的股票名称进行统计,所以这个统计分析的效果只能说是一般,只能作为一点点参考,同时关于《2021年接来下哪些基金会大涨?》笔者就不去统计了,因为书写的差异性更大,更不好统计。
- 这只是笔者自己的一个Python学习小思路,不代表投资建议和看法,请读者谨慎对待。
- 未来的样本和关注度笔者将尽量关注市场的一些看法和行情分析,通过更加精准的看法分析,得出市场变化。
- 提高对于Python更高级的使用方法才是。
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。